Der Gefchichtfazreiber

Was ist ein „Gefchichtfazreiber„? Das wisst Ihr nicht? Na, da könnt Ihr ja mal Google befragen. Merke: Das Internet löst viele Probleme, die wir ohne Internet erst gar nicht hätten! So auch dieses.

Google hat in seiner Gier, möglichst alles ins Web zu bringen, auch zahlreiche alte Bücher eingescannt, damit sie im Web auffindbar sind. Alte Bücher deshalb, weil für sie kein Copyright mehr gilt. Man braucht dazu ein OCR-Programm (OCR ist das Akronym für „optical character recognition“), welches aus der eingescannten Buchseite, die dann als Grafik vorliegt, den dort gedruckten Text gewinnt. Wie man sich vorstellen kann, ist dieses Verfahren mit gewissen Fehlern behaftet, wenn etwa das Papier nicht ganz sauber oder der Buchstabe nicht richtig gedruckt ist. Der intelligente Mensch abstrahiert beim Lesen den Fehler, das OCR-Programm kaut aber darauf herum und liefert am Ende das Zeichen, das es für das wahrscheinlichste hält. Normalerweise muss das Ergebnis des OCR-Programms vom Menschen korrigiert werden. Da menschliche Arbeitszeit aber viel teurer ist als der Betrieb eines Computers, hat Google selbstverständlich auf diesen Korrekturschritt verzichtet und bietet das Gestottere des OCR-Programms als der Weisheit letzten Schluss an.

So weit, so gut. Nun kommt das eigentliche Problem. In der deutschen Frakturschrift gibt es für den Buchstaben s zwei Schreibweisen. Das Zeichen für ein s im Silbenanlaut („langes s“ geheißen) sieht dem Zeichen für ein f sehr ähnlich. Ein gutes OCR-Programm kann langes s und f auseinanderhalten, die dennoch entstehenden Fehlinterpretationen werden (hoffentlich) beim Korrekturlesen gefunden. Google hat aber offensichtlich ein englisches (?) OCR-Programm verwendet, welches das deutsche lange s überhaupt nicht kennt. Die Folge: In deutschen Frakturtexten wurden ausnahmslos alle s im Silbenanlaut als f gelesen! „fie find fehr füß“ liest Google, wo „sie sind sehr süß“ steht. Mit noch anderen Fehlern zusammen wird dann aus dem „Geschichtsschreiber“ der „Gefchichtfazreiber„.

Könnte es sein, dass sich Google dafür schämt? Wenn du nämlich im Web nach „Gefchichtfazreiber“ suchst, behauptet Google, es hätte 0 Treffer gegeben, obwohl 10 Treffer gelistet werden (mit diesem Blogbeitrag werden es dann wohl 11 sein). Weitere lustige (?) Beispiele findest du beispielsweise beim Lesen der Textausschnitte, die Google für das Suchwort „Gefchichtfazreiber“ findet.

Advertisements

Über peterpreus

Kontakt: peter.preus@web.de Auf meinen Web-Seiten findest du mehr über mich, starte mit http://peter-preus.de
Dieser Beitrag wurde unter Allgemein abgelegt und mit , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s