Wenn der Erblasser erblaßt: Trennverfahren im Vergleich

Der Erb-lasser erbleichte, als ihn der Computer zum Er-blasser abstempelte. Hier trennen die meisten Textverarbeitungen falsch. TOS untersucht die Rennsysteme Dieckmann und Langenscheidt auf ihre Zuverlässigkeit bei schwierigen Silbentrennungen.

In den Anfangszeiten der Computerei gab es so gut wie kein Textprogramm mit eingebauter Silbentrennung. Mancher erinnert sich an »Vizawrite« vom Commodore 64, wo er lange Wörter mit einem Bindestrich manuell trennte. Das war zwar gegen die Regeln des Programms, führte auch zur Verwirrung beim nachträglichen Abändern des Textes - die Bindestriche standen dann mitten in der Zeile - aber irgendwie ging es doch. Auch beim guten alten »1st Word« waren die großen Lücken im Blocksatz ein ständiges Ärgernis.

Erst »1st Word Plus« schuf hier Abhilfe in Form einer einfachen Trennfunktion. Der ehemalige Marktführer ist zwar noch Standard, aber im Grunde genommen erwartet man von diesem Programm nichts mehr. Hingegen weisen inzwischen alle besseren Schreibsysteme einen mehr oder weniger gut funktionierenden Trennalgorithmus auf, der in der Regel automatisch für eine korrekte Silbentrennung sorgt.

Was ist nun der Unterschied zwischen einer reinen Trennhilfe und einem Trennalgorithmus? Unter einer »einfachen Trennhilfe« verstehen wir die Möglichkeit, an einer beliebigen Stelle im Wort eine Trennfuge zu setzen. Dies ist ein Steuerzeichen, das sich im Falle einer Trennung in einen Trennstrich verwandelt, sonst aber unsichtbar bleibt. Das Textprogramm »Script« ist ein gutes Beispiel dafür. Wollen Sie eine größere Lücke im Text schließen, geben Sie die Trennfuge an der gewünschten Stelle ein. Danach verwaltet das Programm die Trennung automatisch. Wird sie durch Umformulierung nicht mehr benötigt, verschwindet das Zeichen, wartet aber unsichtbar auf seinen nächsten Einsatz. Unter einer »Trennhilfe mit Algorithmus« verstehen wir folgendes: Das Programm macht Trennvorschläge, die mit einer gewissen Wahrscheinlichkeit auch zutreffen. Weil sich das Programm aber nicht ganz sicher ist, erbittet es vor jedem Trennvorgang eine Bestätigung des Anwenders. Dabei läßt sich die Trennstelle manuell verschieben. Angeblich verfügt 1st Word Plus über einen solchen Algorithmus, der aber nur schlecht funktioniert.

Die komfortabelste Stufe ist eine »automatische Silbentrennung«. Darunter verstehen wir einen Trennalgorithmus, der so zuverlässig arbeitet, daß eine Bestätigung der jeweiligen Trennung nicht mehr erforderlich ist. Eine automatische Silbentrennung trennt also ohne Benutzereingriff während des Schreibens. Sollten dennoch falsche Trennungen Vorkommen, so legt der Anwender die betreffenden Wörter mitsamt der korrekten Trennung in einem Ausnahmelexikon ab. Auch bei der automatischen Silbentrennung gibt es einige Variationen. Die eine besteht lediglich aus Trennalgorithmus plus Ausnahmewörterbuch, die andere aus Lexikon (mit Trennungen) plus Trennalgorithmus plus Ausnahmewörterbuch.

Die beiden prominentesten Vertreter der Abteilung »automatische Silbentrennung« stellen wir Ihnen hier vor. Die Langenscheidt-Trennung findet Verwendung beim »Rechtschreibprofi ST« aus dem Hause Data Becker und bei »That's Write« in der Version 1.5.

Mit der Dieckmann-Trennung arbeitet WordPerfect für den MS-DOS-PC und - leider noch fehlerhaft - auch WordPerfect für den Atari ST. Wir testeten die Langenscheidt-Trennung mit That's Write und die Dieckmann-Trennung mit WordPerfect 5.1 auf einem IBM-AT.

Wo liegen die Unterschiede? Die Langenscheidt-Trennung besteht zunächst aus einem Lexikon, das primär der Rechtschreibkorrektur dient. Stellen Sie sich vorerst das Lexikon als Sammlung eines großen Grundwortschatzes vor. Die Programmierer von Langenscheidt dachten sich, daß diese Wortliste nicht nur zum Auffinden von Tippfehlern dienen kann, sondern auch zum korrekten Trennen aller darin enthaltenen Wörter. Jedes dort eingetragene Wort versahen sie mit Trennfugen, zum Beispiel steht dort »Computerprogramm« als »Com-pu-ter-pro-gramm«. Bei allen im Langenscheidt-Lexikon enthaltenen Wörtern sind die Trennungen also zwangsläufig korrekt. Was ist nun mit denjenigen Begriffen, die nicht im Lexikon stehen? Hier greift ein Trennalgorithmus ein, der bestimmte Silbentrennregeln beherrscht. Das Wort wird nach dem Algorithmus getrennt. Ist die Trennung korrekt, freut sich der Anwender. Sollte sie in wenigen Fällen falsch sein, kann er dieses Wort zum einen in das Lexikon und zum anderen in das Ausnahmewörterbuch aufnehmen. Von nun an trennt das Programm den neuen Begriff ebenfalls korrekt.

So weit, so gut. Da in der deutschen Sprache viele zusammengesetzte Begriffe vorkommen, erreicht schon ein normaler Grundwortschatz einen immensen Umfang. Er muß jedes einzelne Wort in allen Beugungs- und Vergleichsformen enthalten. Auch hier griffen die Programmierer von Langenscheidt auf einen Trick zurück: Das Langenscheidt-Lexikon enthält bestimmte Grundformen und zudem linguistische Regeln, wie aus diesen Grundformen (»Computer« und »Programm«) weitere zusammengesetzte Begriffe (»Computerprogramm«) und Beugungsformen (des »Computerprogramms«) gebildet werden. Damit reduziert sich der Umfang des Lexikons beträchtlich. Aber es mag auch Vorkommen, daß damit unsinnige Begriffe (»Programmscomputer«) und unsinnige Trennungen entstehen. Das Langenscheidt-Lexikon ist also ein algorithmisches Lexikon und keine reine Wortliste. Ganz anders sieht es bei der Dieckmann-Trennung aus. WordPerfect liefert ein Lexikon zur Rechtschreibkorrektur mit, das lediglich aus einer Liste richtig geschriebener Wörter besteht. Rechtschreibprüfung und Silbentrennung haben also nichts miteinander zu tun. Die Silbentrennung arbeitet mit einem Algorithmus und einem Ausnahmewörterbuch. Entdeckt der Anwender dennoch eine falsche Trennung, so fügt er das entsprechende Wort mitsamt korrektem Trennzeichen dem Ausnahmewörterbuch hinzu.

Trennpraxis

Nach so viel grauer Theorie betrachten wir die Praxis. Wenn Sie einen Text mit WordPerfect schreiben und an das Ende der Zeile gelangen, wird das letzte Wort genau dann getrennt, wenn es sich innerhalb einer (veränderbaren) Randzone befindet. Andernfalls erfolgt ein Umbruch ohne Trennung auf die Folgezeile. Den Trennalgorithmus lädt WordPerfect bei der ersten Trennung von Diskette oder Festplatte nach. Von nun an erfolgt das Trennen quasi verzögerungsfrei in Sekundenbruchteilen. Trennalgorithmen für WordPerfect gibt es momentan in 20 Sprachen, darunter auch katalanisch oder russisch. Sprachwechsel innerhalb eines Dokumentes sind erlaubt. Der Trennalgorithmus verfügt über drei Einstellungen:

a) Das Programm fordert eine Bestätigung für jede Trennung an.

b) Es fordert nur dann eine manuelle Trennung an, wenn die Trennung in einer bestimmten Trennzone sinnvoll wäre, aber nach den Regeln des Trennalgorithmus nicht möglich ist. Vielleicht weiß der Anwender ja hier weiter.

c) Es fordert nie eine Bestätigung an und trennt immer automatisch.

Eine ähnliche Abstufung gibt es auch bei That's Write. Dabei unterscheiden wir zwei Fälle:

a) That's Write trennt mit dem Wörterbuch und den Trenneintragungen im Wörterbuch;

b) Es trennt nur mit Hilfe des Algorithmus.

In beiden Fällen erfolgt die Trennung entweder vollautomatisch ohne Benutzereingriff oder mit manueller Kontrolle. Wenn That's Write mit Hilfe seines Wörterbuches trennt, erfordert jede Silbentrennung einen Zugriff auf das Lexikon. Dies kostet selbst im Festplattenbetrieb viel Zeit. Der Schreibfluß stockt für einige Sekunden. Dementsprechend bleibt die Trennung mit Wörterbuch in der Regel ausgeschaltet. Nun ist der Trennalgorithmus und seine Zuverlässigkeit gefordert. That's Write muß sich also auf zwei Ebenen bewähren. Wie läßt sich nun die Qualität der Trennungen testen? Ein standardisiertes Verfahren existiert dazu leider nicht. Mit einem Zusatzprogramm konnte ich bei WordPerfect beliebige Wortlisten mit Trennfugen versehen lassen und diese anschließend manuell überprüfen. Bei That's Write existiert diese Möglichkeit leider nicht. Ich erfaßte also die gleiche Liste als normalen Text und schob sie weiterhin so oft hin- und her, bis jedes einzelne Wort an möglichst vielen Stellen getrennt wurde. Diese Trennungen ließen sich ebenfalls unter Hinzuziehung des Dudens überprüfen. Bei einer umfangreichen Wortliste ohne Fachvokabular und Fremdwörter ergab sich folgendes Bild: Den Grundwortschatz der deutschen Sprache trennen beide Programme gleich gut. Die »automatische Silbentrennung« erfüllt bei den Spitzenprogrammen also wirklich ihren Zweck. Der Anwender kann sich hier mit fast hundertprozentiger Sicherheit auf seine Automatik verlassen.

Der zweite Testdurchgang bestand darin, eine Liste »schwieriger Wörter« zusammenzustellen. Dabei kam es mir darauf an, möglichst viele Begriffe zu finden, die einer regelbasierten Trennung entgegenstehen. Ein schönes Beispiel ist die »Glastür«, welche die untersagte »st-Trennung« außer Kraft setzt. In der nebenstehenden Tabelle finden Sie einen Ausschnitt der Wortliste und das Resultat für beide Programme: That's Write schneidet hier mit 32 Fehlern bei insgesamt 100 Wörtern schlechter ab als WordPerfect mit lediglich 21 falschen Trennungen. Man sollte jedoch dieses Ergebnis nicht überbewerten. In der Praxis treten Trennfehler selten auf und lassen sich mit Hilfe des Ausnahmewörterbuchs schnell beseitigen.

Insgesamt gesehen bleiben die Unterschiede zwischen beiden Trennverfahren gering. Mich stören bei That's Write zwei Punkte: erstens die lange Nachguckzeit bei der Trennung mit Wörterbuch und zweitens die mit allen nur denkbaren Manipulationen doch nur schwer verringerbare Trennzone. That's Write ist ungeachtet der veränderbaren Randzone sehr »trennfaul« und hinterläßt besonders in schmalen Spalten große Lücken, - auch dort, wo es laut Duden trennen könnte. Das muß nicht sein.

Hinzu kommt eine weitere Eigenschaft, die bei der Rechtschreibprüfung zutage tritt. Das mit Algorithmen arbeitende Lexikon ist ohne Zweifel größer als jedes andere Wortlistenlexikon. Aber es enthält auch Fehler, und zwar durch unsinnige Komposita. So gehen etwa die folgenden Begriffe bei einer Rechtschreibprüfung mit That's Write ohne Beanstandung durch: »Teesteckdose«, »Katzenhase«, »Ventilationsdiskette«, »Nachweisliebespaar« etc. Diese Liste von Nonsenszusammensetzungen läßt sich beliebig erweitern. Ärgerlich wird es, wenn zum Beispiel die nach Diktat schreibende Sekretärin »Autopoetik« statt »Autopoiesis« tippt und diesen Fehler auch in der abschließenden Rechtschreibprüfung nicht findet. Dieses Manko ist bei einem algorithmischen Lexikon systembedingt.

Fassen wir zusammen: Automatische Silbentrennungen halten in der Regel was sie versprechen. Bei der Rechtschreibkorrektur gibt es zwei Verfahren mit je eigenen Vor- und Nachteilen: Algorithmische Lexika erfassen einen großen Wortschatz, können aber Fehler enthalten. Lexika aus reinen Wortlisten sind a priori fehlerfrei, aber dafür weniger umfangreich. Der Anwender muß sie mit viel Arbeitsaufwand ergänzen. Zwischen den Vor- und Nachteilen beider Prinzipien müssen Sie selbst entscheiden. (wk)

Trennungsprobleme

Aus einer Prüfliste mit 100 Wörtern sind hier diejenigen aufgeführt, die entweder WordPerfect oder That's Write falsch trennte.

[W: Wort von WordPerfect falsch getrennt; T: Wort von That's Write falsch getrennt]

Analyse [T]
Anästhesie [T]
Angestelltenorganisationen [T]
Anschlußoperationen [T]
Arbeiterassoziationen [W,T]
Arbeiterorganisationen [T]
Arbeiterunruhe (W,T]
Arbeitsaufenthalte [T]
Arbeitsauseinandersetzungen [T]
Diskursanalyse [T]
Erblasser [W,T]
Erblast [T]
Examenserfolge [W,T]
Gastemperaturen [W,T]
Glastür [W]
Grafikauflösung [W,T]
Hektar [W,T]
Hinkommensurabler [W,T]
Linoleum [W,T]
Luchsaugen [W,T]
Luftfahrtsystem [W]
normintegriert [W,T]
Ohrensausens [W,T]
Osterpreisausschreiben [T]
Partizipationskrise [T]
Psychiatrie [T]
Reformära [W,T]
Sauerstofflasche [W,T]
Stoffuter [W,T]
synergetischer [T]
Unterrichtseinheit [W,T]
Unterschichtenunruhen [W,T]
Wertaspekt [W,T]
zurechtrücken [W,T]

WordPerfect: 21 falsche Trennungen
That's Write: 32 falsche Trennungen.


Michael Spehr
Links

Copyright-Bestimmungen: siehe Über diese Seite
Classic Computer Magazines
[ Join Now | Ring Hub | Random | << Prev | Next >> ]