Texterkennung Syntex: Mit unsichtbarer Hand

Syntex wurde überarbeitet: Das bewährte Texterkennungsprogramm soll jetzt wesentlich fixer sein. — Wie schnell ist es wirklich?

Oben das gescannte Original, unten der erkannte Text

Das OCR-Programm der Schweizer Marvin AG hat sich im Laufe der Zeit zum beliebtesten seiner Art gemausert, was nicht zuletzt am günstigen Preis liegt. Während Sie für die meisten brauchbaren Texterkennungsprogamme soviel wie für einen neuen Computer zahlen, ist das Preis-Leistungs-Verhältnis bei Syntex unschlagbar. Aber auch die hohe Erkennungsrate, die konsequent anwenderfreundliche Benutzerführung und die akzeptable Geschwindigkeit sorgen für eine fast konkurrenzlose Marktführung.

Dementsprechend wurde die bewährte Oberfläche kaum verändert. Moderne Flydials machen die Dialoge flexibler, für den Über- und Durchblick sind zwei neue Zoommodi zuständig. Diese sorgen dafür, daß Sie sehen, was Sie über den Scanner eingelesen haben und erleichtern Ihnen das Aufziehen des Rahmens.

Syntex bietet viele individuelle Einstellmöglichkeiten

Ein solcher Rahmen markiert den Bereich der Grafik, den Sie als Text umgesetzt haben möchten. Er ist unbedingt Voraussetzung für jede Texterkennung: zum einen sorgt ein Rahmen dafür, daß nicht unnötig Rechenzeit für die Segmentierung, also die Aufteilung der Grafik in Zeilen und Buchstaben, verloren geht. Zum anderen können bestimmte Bereiche, wie etwa Bilder, von der Erkennung ausgeschlossen werden. Syntex bietet dafür das Löschen eingerahmter Bereiche unter dem Menüeintrag »Edit« an. Bei schlechten Vorlagen können mit dieser Funktion auch Verschmutzungen, die sich im Bild als Pixelgrüppchen zeigen, eliminiert werden. Lediglich eine weitere Funktion dient der Bearbeitung gescannter Vorlagen. Jede Linie, ob horizontal oder vertikal, stört die Segmentierung der Grafik. Daher müssen Linien, etwa aus Tabellen oder als Abgrenzung von Fußnoten, gelöscht werden.

Dies ist mit »Linien entfernen« automatisch möglich. Während dies bei guten Vorlagen problemlos ist, verbleiben bei teilweise unterbrochenen Linien noch einige Pixel in der Grafik. Da aber alle Funktionen über die Tastatur erreichbar sind, können Sie solche Überbleibsel schnell über die Maus als Rahmen markieren und mit der DEL-Taste löschen.

Die Markierung des Erkennungsbreiches indes bleibt nicht die einzige Voreinstellung. Entsprechend der Qualität der Vorlage sollte ein spezieller Erkennungsmodus gewählt werden: einfach, das goldene Mittel oder der präzise Modus. Zusätzlich können Sie noch eine präzise Segmentierung einschalten, die sich besonders bei kleinen Zeilenabständen als vorteilhaft erweist.

Bei schlechten Vorlagen kann es im einfachen Modus zu Falschmeldungen kommen, etwa die Verwechslung von »e« und »c«. Da hilft nur der präzise Modus, der zwar die Geschwindigkeit herabsetzt, aber dafür diesem Fehlerteufel keine Chance läßt. Weiteren Fehlern können Sie mit einem Textfilter zu Leibe rücken. Der analysiert den erkannten Text und nimmt selbständig Korrekturen vor. Typische Fallstricke sämtlicher OCR-Programme wie die falsche Zuordnung von großem I, kleinem 1 und der Ziffer 1 oder dem großen O und der Null werden durch eine einfache Analyse umgangen. Taucht mitten im Wort die Ziffer 1 auf, so erkennt das Programm dies als Fehler und korrigiert es umgehend.

Nach diesen Voreinstellungen beginnt die eigentliche Texterkennung. Syntex befindet sich grundsätzlich im Lernmodus. Sofern die Bibliothek noch ohne Protoypen ist, wird jeder Buchstabe nach der Segmentierung als ein Unterstrich dargestellt. Das Trainieren der Bibliothek gestaltet sich denkbar einfach. Der aktuelle Grafikbuchstabe wird von einem Kästchen umrahmt, den Textcursor setzt das Programm auf den ersten Unterstrich. Nun ordnen Sie dem Grafikzeichen über die Tastatur den entsprechenden Buchstaben zu. Syntex analysiert die typischen Merkmale dieses Zeichens, z. B. Steigungen, Bögen oder Winkel, und speichert die Informationen in der Musterbibliothek. Solche Bibliotheken werden als Datei gespeichert und sind anschließend jederzeit verfügbar.

Ein Textfilter erleichtert die Nachbearbeitung

# Schlüssel zum Erfolg

Eine optimale Nutzung von OCR-Programmen bei Massentexterkennung steht und fallt mit der Schriftenbibliothek. Sie dient dem Vergleich der isolierten Buchstaben mit den gelernten Mustern, sind dies nun Bit-Maps oder Merkmale, wie bei Syntex. Je umfangreicher eine Bibliothek ist, desto länger wird das System für die Vergleiche von Zeichen brauchen.

Gute Bibliotheken werden daher nach folgendem Schema aufgebaut: Die ersten Seiten eines Textes werden nur für den Aufbau einer Standardbibliothek benutzt, d.h. sie werden noch nicht als ASCII-Text gespeichert. Integriert werden nur die Pixelmuster, die einen Buchstaben optimal repräsentieren. Einige OCR-Programme bieten dafür eine Funktion an, die ausschließlich für das Lernen von Zeichen zuständig ist. Wer mit Syntex arbeitet, muß einen Umweg gehen: Sie wählen im Grafikfenster das Zeichen aus, das Sie in die Bibliothek aufnehmen wollen. Mit der Maus klicken Sie die entsprechende Position im Textfenster an und bestimmen das Zeichen. Je nach Qualität der Vorlage sind 150 bis 250 Zeichen für eine solche Standard-Bibliothek ausreichend, so-daß Sie die Bibliothek speichern können.

Mit diesem Fundus an Prototypen kann nun die eigentliche Texterkennung beginnen. Dabei wird die Bibliothek im Laufe der Zeit wachsen, so daß Sie bei einem Umfang von 400 bis 500 Buchstaben wieder die Standardbibliothek laden sollten. So erreichen Sie eine optimale Erkennungsgeschwindigkeit und eine hohe Trefferquote.

Grundsätzlich im Lernmodus

Nach jeder Zuordnung aktualisiert Syntex den Text, d. h. alle erkannten Muster werden im gesamten Text sofort in ASCII-Zeichen umgesetzt. Das Programm führt Sie automatisch zum nächsten unbekannten Zeichen, so daß eine flüssige Eingabe gewährleistet ist. Daß Syntex grundsätzlich im Lernmodus arbeitet, erweist sich nicht als Nachteil. Wenn nur wenige Zeichen nicht erkannt wurden, speichern Sie einfach den Text ab, ohne die Bibliothek weiter zu trainieren. Alle nichterkannten Zeichen werden als Unterstrich gespeichert, so daß sie bei der Nachbearbeitung in einem Textprogramm schnell gefunden werden können.

Wie alle guten OCR-Programme versteht sich auch Syntex auf sog. Ligaturen. Das sind mehrere Buchstaben, die, als Grafik betrachtet, zusammengewachsen sind. Dies ist häufig bei schlechten Vorlagen oder enger Proportionalschrift der Fall. Dann entspricht ein Pixelmuster mehreren Buchstaben. Bis zu vier Buchstaben können Sie mit Syntex auflösen. In der neuen Version kann das Programm, bei entsprechend umfangreicher Bibliothek, solche Ligaturen selbständig auflösen, so daß sie nicht mehr abgefragt werden müssen.

Für das Speichern der erkannten Texte hält Syntex einige Bonbons bereit. Neben dem ASCII-Code mit und ohne Carriage Return versteht das Programm das korrekte 1st Word Plus Format. Zusätzlich existiert ein Tabellenformat. Hier ordnen Sie den Leerstellen zwischen den Textspalten und dem Zeilenende verschiedene Trenner zu. So sind die erkannten Texte leicht für verschiedene Zwecke, etwa Datenbanken oder Tabellenkalkulationen, aufzubereiten.

Besonders für die letzte Funktion ist die Präzision der Texterkennung von Bedeutung. Während ältere OCR-Systeme gerade mit Leerstellen am Zeilenanfang ihre Probleme hatten, zeigt Syntex hier seine Fähigkeiten. Alle Einrückungen, aber auch Leerstellen zwischen Textpassagen, werden absolut korrekt erkannt.

Wem diese Speicherfunktionen nicht ausreichen, kann auf ein außergewöhnliches Feature zurückgreifen. Syntex wird durch einfaches Umbenennen der Dateinamenerweiterung zum Accessory. In diesem Modus kann es, genügend Speicherplatz vorausgesetzt, aus jedem GEM-Programm aufgerufen werden. In diesem Modus können Sie Syntex veranlassen, den erkannten Text direkt in Ihr Textprogramm zu exportieren. Das sieht dann so aus, als würden unsichtbare Hände den erkannten Text blitzschnell in ihren Editor tippen. Bequemer geht’s nun wirklich nicht.

Die Erkennungsrate hängt auch von der Arbeitsgeschwindigkeit ab

Syntex 1.2 besticht durch eine hohe Erkennungsrate, eine schnell erlernbare Benutzeroberfläche und sinnvolle Zusatzfunktionen. Bis auf eine Ausnahme arbeitet es fehlerfrei: im mittleren Zoommodus wird der Grafikrahmen, der den zu erlernenden Buchstaben markiert, nicht korrekt gesetzt. Das Handbuch, das lediglich zur Einführung nötig ist, liefert neben der Programmbeschreibung auch Hintergrundinformationen und viele Tips, (thl)

Richter Distributor, Hagener Str. 65, 5820 Gevelsberg

Detlef Fabian

Aus: ST-Magazin 11 / 1992, Seite 48

Links