OCR - Eine Praxis-Vorstellung

Im Bereich der Textverarbeitung war der Atari immer eine feste Größe. Wenige Anwender nutzen jedoch die Möglichkeit der Texterkennung mit ihrem Rechner.

Die Scanner-Preise purzeln

Wie in so vielen Fällen können Atari-Anwender nur noch indirekt davon profitieren, denn nahezu alle heute erscheinenden Programme werden über die USB-Schnittstelle an den Computer angeschlossen, die an den derzeitigen Atari-Modellen und Clones bekanntlich nicht vorhanden ist. Abhilfe verspricht hier erst der kommende ColdFire-„Atari" aus dem Hause Medusa Computer, der den USB-Standard unterstützen soll. Aber auch dann stellt sich die Frage, ob und wann Atari-Entwickler aktuelle Scanner auch mit der nötigen Treiber-Software unterstützen werden.

Genug von Sätzen, in denen auffällig häufig Worte wie „ob", „wäre" und „wenn" Vorkommen. Entscheidend ist die Gegenwart. Tatsächlich liefern einige Hersteller wie z.B. Epson und Hewlett-Packard einige ihrer Scanner-Modelle nach wie vor mit einer SCSI-Schnittstelle aus, teilweise zusätzlich zum USB-Port. Aber natürlich drehen wir uns an dieser Stelle im Kreis, denn aktuelle GDOS-Treiber liegen für diese Modelle nicht vor. Wenn Ihnen ein guter Computerhändler natürlich einen SCSI-Scanner zur Probe mit gibt, könnten Sie natürlich testen, ob z.B. ein heutiger Epson-Scanner der GT-Serie abwärtskompatibel zu älteren Modellen ist, sodass auch Atari-Treiber wie CT-Look noch funktionieren. Die Chancen stehen allerdings nicht zum Besten, und zusätzlich bestehen keinerlei Hoffnungen auf eine Unterstützung der aktuellen Leistungsdaten und Auflösungen des Scanners.

Atari-Anwender, die ihre Betriebsumgebung auf einem PC oder Mac betreiben, sind natürlich wieder einmal fein raus: sie können praktisch jedes aktuelle Scanner-Modell an ihren Rechner anschließen und die Ergebnisse an das Atari-Betriebssystem weiter geben.

Die durch die günstigen Preise bedingte Scanner-Schwemme hat aber auch einen positiven Nebeneffekt für Classic-Atari-Betreiber: viele Mac- und PC-Anwender ersetzen derzeit ihre SCSI-Scanner durch neuere USB-Modelle, weshalb z.B. in eBay-Auktionen äußerst günstige Schnäppchen zu ergattern sind.

OCR. Wir möchten hier jedoch nicht in die Tiefen der Arbeit mit Scannern eingehen, noch Modellbeschreibungen vornehmen. In diesem Workshop möchten wir Sie vielmehr Schritt für Schritt in einen konkrete Anwendung heran führen, die auf allen Ataris ohne weiteres und vor allem kostenlos möglich ist. Die Rede ist von der „Optical Character Recognition" - kurz OCR -also der Texterkennung mit dem Computer. Atari-Computer waren aufgrund ihrer hohen Bildschirmauflösung und unkomplizierten Handhabung schon immer sehr beliebt für Texterfassungs- und -Verarbeitungsaufgaben. Und mit Erscheinen der ersten erschwinglichen Scanner (wer erinnert sich in diesem Zusammenhang nicht an das größtenteils leidvolle Arbeiten mit Handscannern) ließen auch Programme zum Erfassen von Texten nicht lange auf sich warten. Und bis heute macht diese Anwendung durchaus Sinn: längere Texte können schnell und stressfrei direkt vom Computer gelesen und ins ASCII-Format gewandelt werden. Nicht umsonst liegen leistungsfähige OCR-Applikationen kostenlos nahezu jedem heute erhältlichen Scanner bei.

Aber auch Atari-Anwender müssen nach wie vor nicht in die Röhre schauen oder mehr Geld als ihre Kollegen auf anderen Plattformen anlegen. Mit OCR von Alexander Clauss (u.a. Autor von CAB und iCab) liegt ein Texterkennungsprogramm vor, das zwar mittlerweile etwas in die Jahre gekommen ist (die aktuelle Version 1.4a ist vom Sommer 1995), jedoch durchaus heutigen Standards auf dem Atari genügen kann. OCR besticht z.B. durch eine intuitive GEM-Oberfläche, in der entgegen anderen Programmen aus dieser Zeit alle Dialoge in Fenstern untergebracht sind. Es ist somit vollkommen multitaskingfreundlich und besteht damit auch in heutigen Umgebungen wie MagiC und N.AES. Wir testeten es auf einem Atari Falcon 030, einem Mega STE und einem Power Macintosh jeweils unter MagiC 6.1 und konnten keinerlei Probleme feststellen.

Und das Beste zum Schluss: das Programm ist Freeware und kann somit kostenlos von der Homepage des Entwicklers [1 ] herunter geladen werden.

Bild oben: Der Text, den wir einlesen möchten hat einige Tücken, so z.B. einen weiten Einzug. □ Bild unten: Scanergebnisse mit 300, 600 und 1200 dpi in Schwarzweiß.

Voraussetzungen

OCR ist auch sonst ein Programm, wie Atari-Puristen es sich wünschen: es ist schnell und kompakt und sollte auf jedem ST, TT, Falcon, Clone und Emulator seinen Dienst tun. Theoretisch reichen zum Betrieb sogar 500 KBytes freier Speicher aus. In der Praxis werden Sie jedoch oftmals größere Bilddateien zum Erkennen im Speicher halten wollen, weshalb 2, 4 oder mehr MBytes RAM durchaus Sinn machen. Je schneller der Rechner ist, umso schneller geht natürlich die Texterkennung vonstatten - es gilt hier die in der Computerwelt allgemein gültige Maxime: schneller ist besser und macht mehr Spaß. Trotzdem ließ sich bei der Erarbeitung dieses Workshops auch auf einem Mega STE noch recht angenehm arbeiten, was einmal mehr für die Effizienz von Atari-Systemen und -Programmen spricht. Und jetzt: genug der Lobhudelei, denn Sie wissen schließlich selbst gut genug, warum der Atari nach wie vor das System Ihrer Wahl ist, nicht wahr?

Vorüberlegungen

Bevor wir zur Praxis kommen, sollten wir uns erst einmal mit dem Programm selbst etwas anfreunden. Dazu ist auch etwas Theorie notwendig. Natürlich handelt es sich bei einer Texterkennung um kein Programm mit künstlicher Intelligenz. Im OCR-Verfahren werden vielmehr eingescannte Grafiken innerhalb einer gewissen Toleranz bereits vorher erkannten Äquivalenten zugeordnet, denn für eine Texterkennung ist jeder einzelne Buchstabe erst einmal nichts weiter als eine Grafik. Der Vorteil von Texten ist dabei, dass sich Buchstaben innerhalb eines Schriftsatzes wiederholen. Zumindest bei einem sauberen Scan sieht also z.B. ein „e" immer wieder wie ein „e" aus, wenn sich Schriftart, -schnitt und -größe nicht ändern. Die erkannten Zeichen verwaltet OCR wie jede andere Texterkennung in einer internen Datenbank, die vom Anwender modifizierbar ist.

Bei jedem neuen Text mit einem Zeichensatz, der dem System unbekannt ist, durchläuft der Rechner eine gewissen Lernphase. Bei Zeichen, die der Computer nicht kennt, fragt er also beim Anwender nach. Darauf hin ordnet dieser dem erkannten Zeichen einen Buchstaben zu. Je größer die nun stets wachsende Datenbank ist, umso schneller geht die Texterkennung voran. Bei Büchern z.B. kann es sein, dass bei sauberen und gleichmäßigen Scans nach wenigen Seiten die Zeichenzuordnung bereits abgeschlossen ist, und der Rechner fortan größtenteils nicht mehr auf die Mithilfe des Anwenders angewiesen ist. Diesem bleibt also nur noch die Aufgabe, qualitativ gleich bleibende Scanergebnisse zu produzieren, den Rest erledigt der Computer. Gerade bei umfangreichen Wälzern also eine echte Erleichterung gegenüber dem Abtippen, wenn die erste Arbeit erst einmal getan ist.

Das Scannen

Wie bereits mehrfach erwähnt, ist sichere Texterkennung in erster Linie von guten Scans abhängig. Der Vorteil der meisten Texte ist, dass sie schwarz auf weißem Grund vorliegen. Der Kontrast ist hier also optimal und erfordert nur wenig Nachbearbeitung. Viele heutige Zeitschriften und besonders Werbeprospekte setzen jedoch auf aufwändige Hintergrundgrafiken und Texteffekte. Ob dies ein Fortschritt im ästhetischen Sinne ist, sei einmal dahin gestellt - Tatsache ist allerdings, dass hier der Kontrast zwischen Text und Hintergrund für einen Scanner und damit für die spätere Texterkennung nicht mehr allzu klar erkennbar ist. Die eigentlichen Texte müssen dann also mit einer Bildbearbeitung unter zum Teil erheblichen Aufwand heraus gearbeitet werden. In unserer kleinen Einführung wollen wir daher mit Seiten konventioneller Art arbeiten, die schwarze Schrift auf weißem Grund anbieten. Sie können also aus einem Buch scannen oder diese Seite der st-computer benutzen.

Achten Sie bei allen Scans darauf, dass der Schwarzweiß-Kontrast stark genug ist. Es empfiehlt sich also, die Möglichkeiten des Scanners in Bezug auf Färb- und Graustufenscans gewohnt minimalistisch links liegen zu lassen und reine Schwarzweiß-Scans anzufertigen -da lacht das Herz des alten 80er-Jahre-Fans. Das papier sollte dann immer als reines Weiß erkannt werden, Schrift als reines schwarz. Da Papier in der Praxis in den seltensten Fällen rein weiß ist, laufen Sie z.B. bei Graustufenscans Gefahr, OCR unnötig durch Grauwerte im Papier zu „verwirren". Probieren Sie auch bei Schwarzweiß-Scans ruhig etwas mit den Helligkeits- bzw. Kontrast-Einstellungen des Programms etwas herum, um möglichst klare Ergebnisse zu erzielen.

Der nächste Punkt, der beachtet werden will, ist die Scanauflösung. Dabei sind zwei verschiedene, sich beeinflussende Faktoren zu beachten: die Qualität und der benötigte Speicher in der Datenbank. Es liegt auf der Hand, dass die Sicherheit der Texterkennung proportional zur Qualität des Scans steigt. Wenn Sie Texte mit einer zu niedrigen DPI-Zahl einlesen, besteht die Gefahr, dass an den Zeichen zu viele Raster entstehen oder einzelne Buchstaben bei einem niedrigen Zeichenabstand bzw. -durchschuss sogar zusammen wachsen. Die Texterkennung ist dann unsicher und kostet aufgrund vieler Nachfragen seitens des Programms zusätzlich Zeit -und das will eigentlich jeder vermeiden, immerhin soll der Computer arbeiten und nicht wir.

Im Menüpunkt „Texterkennung" beeinflussen wir den eigentlichen Vorgang der OCR. Wie alle Dialogfenster ist auch dieses ausgesprochen übersichtlich und intuitiv gestaltet.

Auf der anderen Seite verlangen Scans in hoher Auflösung natürlich auch mehr Speicherplatz in der Datenbank als minderwertigere Ergebnisse. Besonders auf kleinen und langsameren Systemen kann dies also zum Problem werden. Während ein G4-Prozessor auch mit 1200-DPI-Scans noch wie mit Tennisbällen jongliert, kann ein 68000er schon bei 600 DPI gehörig ins Schwitzen kommen. Probieren Sie auch hier also am besten etwas herum und suchen Sie den für Ihr System besten Wert. Allerdings sollte ein Scan für eine sichere Texterkennung unter Berücksichtigung heutiger Möglichkeiten 300 DPI nicht unterschreiten.

Ein letzter wichtiger Punkt liegt auf der Hand: achten Sie beim Scannen stets darauf, dass die Vorlage gerade im Scanner liegt. Auch wenn OCR Text in gewissen Winkeln akzeptiert, so ist das Ergebnis mit geraden Textblöcken doch weitaus besser. Dies mag aber gerade bei gebundenen Büchern zum Problem werden, da hier der Buchrücken verhindert, dass alle Seiten immer sauber auf der Scanfläche liegen. In besonders schweren Fällen kommen Sie daher eventuell um ein Auftrennen des Buches nicht herum. Immerhin können Bücher nachträglich wieder gebunden werden. Wägen Sie also gut den Wert des Buches und des Ergebnisses gegeneinander ab, bevor Sie zum Teppichmesser greifen.

In unserem Beispiel werden wir mit einem 600-DPI-Scan arbeiten, den wir mit einem Störungsfilter innerhalb einer Bildbearbeitung editiert haben. Wenn Sie möchten, können Sie eventuelle Kanten an den Zeichen auch noch mit einem ganz leichten Weichzeichner z.B. innerhalb von Smurf glätten - aber nur kleine Werte benutzen, immerhin soll der Scan auch nicht verwaschen aussehen.

Voreinstellungen

Nach so vielen Vorüberlegungen wollen wir uns nun endlich dem Programm selbst widmen. Starten Sie nun also OCR. Das Programm trägt seine Menüs sein und öffnet ein erstes GEM-Fenster, in dem später die Ausgabe der erkannten Texte stattfinden soll.

Aber soweit sind wir noch nicht. Machen wir uns erst einmal mit dem Programm vertraut. Dies geht ganz hervorragend durch ein Herumwühlen in den Voreinstellungen. Sie finden diese ganz rechts im Menü „Optionen".

Im Menüpunkt „Texterkennung" beeinflussen wir den eigentlichen Vorgang der OCR. Wie alle Dialogfenster ist auch dieses ausgesprochen übersichtlich und intuitiv gestaltet. Wichtig ist in erster Linie, dass die Box „Lernmodus" besonders in der Anfangszeit angekreuzt bleibt. Wenn nämlich OCR auf ein Zeichen trifft, das das Programm nicht erkennt, fragt es beim Anwender nach um es danach in die Datenbank aufzunehmen. Ist dieser Lernmodus ausgeschaltet, setzt OCR ein Ersatzzeichen, was natürlich bei neuen Schriftarten etwas fatale Folgen hat.

Bei der eigentlichen Texterkennung geht das Programm die Grafik Zeichen für Zeichen durch. Nicht in der Datenbank vorhandene Zeichen werden beim Anwender erfragt.

Interessant ist in diesem Punkt auch das Aufklappmenü „Übereinstimmung". Aufgrund des Drucks bzw. der Papierqualität wird ein Zeichen nie wie ein anderes aussehen, weshalb der Anwender hier gewisse Toleranzgrenzen festlegen kann. Der zu verändernde Prozentwert bestimmt dabei, wie hoch die Übereinstimmung sein muss, damit ein Zeichen erkannt und zugeordnet werden kann. Wenn die Datenbank noch relativ klein ist, sollte hier auf jeden Fall ein hoher Wert festgelegt werden, 90 % sind hier durchaus nicht zu hoch gegriffen. Später kann dieser Wert dann besonders bei guten Scanergebnissen auf bis zu 75 % gesenkt werden. Wenn jedoch zu oft Fehler auftreten, sollten Sie wieder eine höhere Prozentzahl angeben.

Die nächsten Konfigurationspunkte beeinflussen das Verhalten des Programms bei Auftreten eines unbekannten Zeichens. Auf das akustische Signal kann der Anwender immer dann verzichten, wenn er im nächsten Punkt bestimmt, dass Programmnachfragen immer mit einer Dialogbox zu erfolgen haben. Ist dies nicht der Fall, markiert OCR die fehlenden Zeichen lediglich. Dies beschleunigt die Texterkennung natürlich erheblich, ist aber auch erst mit einer gut gefüllten Datenbank empfehlenswert.

Die beiden nächsten Buttons beeinflussen das Verhalten des Programms bei Nachfragen an den Anwender und finden sich auch in dem entsprechenden Dialog. Sind beide Checkboxen angekreuzt, fügt OCR bestätigte Zeichen sowohl in den Text als auch in die entstehende Datenbank ein. Nicht immer ist letzterer Punkt jedoch wünschenswert, da eine komplette Datenbank nur aufgrund von schlechten Scanergebnissen Rückfragen startet. Hier ist es dann nicht empfehlenswert, diese Zeichen auch aufzunehmen. Ist eine Datenbank noch relativ neu, sollten beide Punkte aber auf jeden Fall angekreuzt bleiben.

In den nächsten Aufklappmenüs beeinflusst der Anwender die Arbeitsgeschwindigkeit des Programms, denn er legt die Qualität der Vorlage und die Reaktion des Programms darauf fest. So stellt ein genauer Vergleich der Zeichen innerhalb der Datenbank hohe Anforderungen an die Rechenzeit, liefert aber die präzisesten Ergebnisse. Die Auswahl hängt hier nicht unwesentlich von der Scanqualität ab. Wer auf einem schnellen Rechner wie einem Milan oder einem Mac arbeitet, sollte immer den höchstmöglichen Wert wählen.

Die Qualität des Bildes wird in den meisten Fällen mit der Voreinstellung „Scanner" bestens beschrieben werden. OCR gewährt dann eine gewisse Toleranz gegenüber Störungen, die bei Scans eigentlich immer Vorkommen. Nur, wenn Sie Ihre Vorlage ganz exakt nachbearbeitet haben oder Texte z.B. aus Webseiten erkennen lassen, sollten Sie hier auf die Voreinstellung "präzise" wechseln und somit weitere Rechenzeit einsparen.

Bezüglich der Schräglage ist anzumerken, dass hier nach Möglichkeit möglichst große Toleranzen genutzt werden sollten, da Scans in den wenigsten Fällen ganz gerade sind. Wenn Sie allerdings Texte mit weiten Einzügen verwenden, dann sollten Sie die Voreinstellung „schwach" wählen um zu verhindern, dass Texte übersehen werden.

Bei der Zeilentrennung sollten Sie sich Ihr Ausgangsmaterial genauer ansehen. Bietet dieses ein normalen oder großen Zeilenabstand, so kann die Voreinstellung innerhalb des Aufklappmenüs auf „präzise" bleiben. Bei einem sehr geringen Zeilenabstand besteht aber nun die Gefahr, dass OCR keine trennenden Zeilen mehr findet und Zeilen einfach zusammen schmeißt. Stellen Sie in diesem Fall die Zeilentrennung auf „mittel" ein. „Tolerant" sollte nur in Ausnahmefällen benutzt werden, da hier die Fehlerquote einfach zu hoch ist.

Praxis

Zwar bietet OCR noch einige Voreinstellungsfenster mehr, diese wollen wir uns aber Stück für Stück bei der tatsächlichen Texterkennung erarbeiten. Kommen wir nun also endlich zur Praxis.

Laden Sie über den Menüpunkt „Datei/Bild laden..." die von Ihnen gewählte Ausgangsgrafik ein. Damit OCR gleich im richtigen Verzeichnis sucht, sollten Sie unter „Optionen/Allgemein..." den richtigen Pfad für das Bilderverzeichnis festlegen. Auch die anderen angebotenen Pfade sollten Sie bei dieser Gelegenheit bestimmen.

OCR öffnet nun ein GEM-Fenster, in dem die geladene Grafik dargestellt wird. |e nach Auflösung wird man nun mehr oder weniger viel von zum erkennenden Text sehen. Sie sollten also entweder im Bild scrollen oder gleich die Darstellung etwas verkleinern. Sie sollten im Bild nach Möglichkeit mindestens eine Zeile zur Zeit lesen können, wobei der Bildschirm ruhig in der Breite genutzt werden kann. OCR bietet daher Vergrößerungs- bzw. Verkleinerungsfaktoren im Menüpunkt „Bearbeiten/Bildgröße..." an. Wenn Sie die Icondarstellung innerhalb des Bildfensters eingeschaltet haben (Optionen/Allgemein...), können Sie auch mit den entsprechenden Piktogrammen arbeiten. OCR gibt die Bedeutung der einzelnen Icons oberhalb dieser Werkzeugleiste aus. Leider sind Größenveränderungen nicht stufenlos möglich.

Nun gilt es, einen ersten Versuch zu starten. Wählen Sie die Blockfunktion aus (oben rechts in der Piktogrammleiste) und ziehen Sie einfach einmal über ein oder mehrere Zeilen einen Block auf, sodass alle die darin enthaltenen Zeichen innerhalb des Blocks liegen. Die Größe und Lage des Blocks kann jederzeit über seine Anfasspunkte verändert werden.

Wenn das ASCII-Ausgabefenster noch nicht geöffnet ist, dann holen Sie dieses nun im Menüpunkt „Bearbeiten/Text-Fenster öffnen" nach. In demselben Menü findet sich auch der Punkt „Text erkennen". Sind Sie mit der Lage des Blocks zufrieden, sollten Sie diesen nun auswählen. Alternativ können Sie auch einfach die Funktionstaste [F] bestätigen, um die Texterkennung zu starten.

Jetzt sind wir also bereits im eigentlichen Geschehen: OCR beginnt seine Arbeit. Wahrscheinlich wird sich das Programm bereits beim ersten Zeichen bei Ihnen melden, da dies ihm unbekannt ist. Zu diesem Zweck öffnet es nun ein Dialogfenster und zeigt das unbekannte Zeichen als Grafik an. Ihre Aufgabe ist es nun, dieser Grafik ein entsprechendes ASCII-Zeichen zuzuordnen. Nach einer Bestätigung durch „OK" fährt das Programm mit dem nächsten unbekannten Zeichen fort und füttert mit Ihren Angaben seine Datenbank. Nach einiger Zeit und etwas Geduld werden Sie bemerken, dass OCR schon Zeichen selbständig zuordnet und somit mit der eigenen Datenbank arbeitet. Wie nennt man das? Genau: Fortschritt!

Im Textfenster sollte sich nun Stück für Stück der erkannte Text aufbauen, den Sie wie in einem herkömmlichen Editor bearbeiten und korrigieren können. Im Menü „Bearbeiten" stehen Ihnen auch grundlegende Editierfunktionen bereit, natürlich wird auch das GEM-Clipboard unterstützt.

Zeichensatzverwaltung

Wie bereits erwähnt, verwaltet OCR die Zeichensätze in Datenbänken. Es empfiehlt sich, dass Sie für jeden einzelnen Zeichensatz und für jede einzelne Größe eine eigene Datenbank anlegen. Natürlich könnten Sie theoretische auch alle erkannten Zeichen in einer einzigen Datenbank verwalten, allerdings verlangsamt sich dadurch die Arbeitsgeschwindigkeit ganz erheblich, da der Rechner unnötig viele Vergleiche vornehmen muss. Speichern Sie erarbeitete Zeichensatzdateien über den Menüpunkt „Datei/Font speichern...".

Die einzelnen Zeichensatzdateien können auch gezielt bearbeitet und verwaltet werden. Besonders wichtig und sehr gut gelungen ist dabei das Verwaltungsfenster „Optionen/Font bearbeiten...". Hier wird der derzeit geladenen Zeichensatz angezeigt. Mit Hilfe des Scrollbalkens im Fenster kann zwischen den erkannten Zeichen geblättert werden, die Darstellungsgeschwindigkeit ist erfreulich hoch. Klicken Sie ein Zeichen in der Übersicht mit der Maus an, kann es im daneben liegenden Thumbnail-Fenster einem anderen Zeichen zugeordnet werden. Wenn Sie z.B. durch einen Flüchtigkeitsfehler einem Zeichen ein falsches ASCII-Äquivalent zugeordnet haben, können Sie hier Korrekturen vornehmen. Sehr praktisch ist auch die Suchfunktion, mit der sich gezielt Zeichen zur Korrektur finden lassen. Von Zeit zu Zeit sollten Sie außerdem die Datenbank alphabetisch sortieren, damit Sie sich schneller in ihr bewegen können. Die Statistik-Funktion hält Sie ausserdem über den gegenwärtigen Datenbank-Bestand auf dem Laufenden.

Die Fontbearbeitung lässt gezielte Veränderungen der Schriftsatz-Datenbank zu und enthält Sortier- und Statistikfunktionen.

Mindestens ebenso wichtig ist die Funktion „Optionen/Font...". Hier wird nämlich nicht unwesentlich das Verhalten des Programms beim Erkennen von Texten bestimmt, indem Mindestbreiten und -höhen festgelegt werden. Alle Zeichen, die kleiner sind als die hier festgelegten Werte werden vom Programm schlichtweg ignoriert, was zum Vorteil hat, dass so z.B. bei Scans normale Störungen und eventuelle Verschmutzungen des Ausgangsmaterials nicht mit in die Datenbank aufgenommen werden.

Damit Sie bei der Eingabe von Werten nicht im Dunkeln herum stochern müssen, bietet OCR ein recht praktisches „Maßband" für Zeichensätze an. Nach der Wahl des Buttons „Abmessen" verwandelt sich der Mauszeiger in einen Finger und lässt das Aufziehen eines Maßbandes innerhalb des Grafikfensters zu. Die hier ermittelten Größen werden automatisch in die Dialogbox eingetragen.

Nach demselben Prinzip arbeiteten die Einstellungen für die Mindestbreiten von Leerzeichen. Besondere Bedeutung kommt hierbei dem Punkt „variable Breite" zu. Sind alle Leerzeichen gleich breit, kann dieser ausgeschaltet bleiben. Dies ist aber längst nicht immer der Fall, besonders Texte im Blocksatz reißen Leerzeichen oft überproportional auseinander.

Die Kommentarzeilen in gleichen Dialogfenster sollten Sie übrigens nicht in ihrem Nutzen unterschätzen und die Gelegenheit benutzen, möglichst viele Notizen zu dem zu bearbeitenden Zeichensatz festzuhalten. Dies können z.B. Informationen zu Herkunft und Schnitten sein. Aber auch Kommentare zur Qualität des Ausgangsmaterials und (ganz wichtig!) zu den Einstellungen des Scanners sind hier empfehlenswert. Das Ziel muss dabei sein, beim nächsten Scan wieder möglichst die gleichen Ergebnisse zu erzielen, damit das Programm alle Zeichen sauber erkennt.

Korrekturen

In den Zeichensatz-Optionen legen Sie Mindestgrößen und -breiten für den aktuellen Schriftsatz fest.

Keine Texterkennung kann perfekt arbeiten, dafür sind einfach zu-viele unberechenbare Faktoren in einem Erkennungsvorgang. So variieren Scanqualität, und auch innerhalb eines Dokuments gibt es Variationen in der Papierqualität. Hinzu kommen bestimmte Zeichen, die das Programm nur schwer unterscheiden kann. So ähneln sich in einigen Zeichensätzen z.B. die Ziffer „0" und das große „O". Hinzu kommen Unterschiede zwischen den einzelnen Sprachen.

OCR bietet daher eine Korrekturfunktion, die dem Anwender bereits einige Erleichterungen bietet. Sie ist im Menü erreichbar unter dem Eintrag „Optionen/Korrektur...".

Unter der Überschrift „Ersetzungen" können Anführungszeichen zugeordnet werden. Lesen Sie z.B. einen französischen Text ein, können die entsprechenden Anführungszeichen durch ihre deutschen Äquivalente ersetzt werden. Ebenso können z.B. zwei vom Programm als Hochkommatas gedeutete Zeichen in ein einzelnes Anführungszeichen gewandelt werden.

Mindestens ebenso zweckmäßig ist die Überschrift „Korrekturen". Hier wird auf das angesprochene Problem ähnlich oder sogar gleich aussehender Ziffern und Buchstaben eingegangen. OCR bietet Korrekturfunktionen für die Zeichenpaare „1" und „I", „I" und „I" sowie „0" und „O". Prüfen Sie also den Zeichensatz des einzulesenden Dokuments, wie ähnlich diese Zeichen sich sind und schalten Sie bei Bedarf die Korrekturfunktion ein. OCR ersetzt dann ein Zeichen gemäß dem Kontext, in dem es vorgefunden wird. Wird z.B. ein Zeichen innerhalb einer Ziffernfolge als Buchstabe „O" erkannt, so wird er durch die Ziffer „0" ersetzt, da es nicht sehr wahrscheinlich ist, dass ein einzelnes „O" zwischen vielen Nummern steht.

Darüber hinaus bietet OCR auch eine flexible Textformatierung an. In den meisten Fällen wird der Anwender wünschen, dass der Text im originalen Format bestehen bleibt. Auf Wunsch können Leerzeichen am Zeilenanfang ignoriert werden, was z.B. bei überlangen Einzügen recht praktisch ist, die ansonsten im reinen ASCII-Text etwas verloren aussehen würden.

Nicht immer ist aber eine Originalformatierung wünschenswert. Dies ist z.B. der Fall, wenn Sie Texte aus Tabellen einiesen oder mit mehrspaltigem Text arbeiten. In diesen Fällen enthält der Text dann viele Trennungen, was im ASCII-Text widerum keinen Sinn macht. OCR bietet daher eine Trennkorrektur mit Ausnahmeregelung, die die lästigen Trennungsstriche entfernt.

Übrigens lassen sich die einzelnen Korrekturregeln vom Zeichensatz abhängig abspeichern.

Sonderregeln für die Erkennung von ähnlich aussehenden Zeichen sowie das Verhalten z.B. bei Leerzeichen am Zeilenanfang legen Sie In den Korrekturregeln fest.

Nachbearbeitung

Hin und wieder ist es hilfreich, die eingelesene Grafik direkt im Texterkennungsprogramm zu bearbeiten. OCR bietet dafür einige hilfreiche Funktionen, die in ihrer Arbeitsgeschwindigkeit natürlich von der Geschwindigkeit des Rechners abhängen. Diese Werkzeuge stehen unter dem Menüpunkt „Bearbeiten/Werkzeuge..." und über die Piktogrammleiste zur Verfügung.

Neu dargestellte Grafiken sollten erst einmal mit der Filterfunktion bereinigt werden. OCR entfernt dabei Punkte in einer bestimmten Größe. Das Gegenstück ist quasi die Funktion „Bild verdicken", die bei sehr hellen Scans z.B. Zeichenzwischenräume wieder schließen kann. Mit dem Stift und dem Radiergummi kann gezielt an Zeichen gearbeitet werden, um z.B. Unsauberkeiten zu retuschieren bzw. zu entfernen.

Die erwähnten Bearbeitungswerkzeuge sind in ihrem Verhalten beeinflussbar. Rufen Sie dafür den Menüpunkt „Optionen/Werkzeuge..." auf, um Veränderungen vorzunehmen.

Abschluss

Wie Sie sehen, ist Texterkennung auf dem Atari eine ebenso einfache wie komfortable Aufgabe. Mit dem Programm OCR steht nach wie vor eine elegante Applikation zur Verfügung, die die wichtigsten Funktionen bietet und durchaus auch für größere Projekte eingesetzt werden kann. Wenn Sie etwas Erfahrung in dieser Arbeit erlangt haben, werden sie zu schnellen und guten Ergebnisse kommen und wieder einmal beweisen, dass der Atari besonders in der Arbeit mit Texten immer noch hervorragend einsetzbar ist.

[1] clauss-net.de/atari.html

Thomas Raukamp

Aus: ST-Computer 06 / 2001, Seite 16

Links