...::: Druckansicht - Literatur statt Nonsense :::...

Literatur statt Nonsense

(28 Mai 2007/13:18:46)

US-Forscher wollen Internet-Nutzer unter dem Motto "Stop Spam. Read Books." mit Hilfe so genannter CAPTCHAs, die auf zahlreichen Websites zur Authentifizierung von Usern zum Einsatz kommen, zur Hilfe bei der Digitalisierung von Büchern bewegen.

CAPTCHAs [Completely Automated Public Turing test to tell Computers and Humans Apart], die auf der Verschleierung von Buchstaben in Bildern basieren, kommen auf zahlreichen Websites zum Einsatz, um Computer von Menschen zu unterscheiden.

Mit Hilfer der "Vollautomatisierten öffentlichen Turing-Tests", soll sichergestellt werden, dass nur Menschen bestimmte Dienste nutzen können und etwa Manipulationen und Spam von programmierten Bots bei Online-Umfragen, in Foren und beim Registrieren von E-Mail-Adressen ausgeschlossen werden.

"Stop Spam. Read Books."
Das Projekt reCAPTCHA an der Carnegie Mellon Universität in Pittsburgh [US-Bundesstaat Pennsylvania] will CAPTCHAs nun bei der Digitalisierung von Büchern zum Einsatz bringen, berichtete die "Washington Post".

Dabei setzen die Wissenschaftler unter dem Motto "Stop Spam. Read Books." auf die Mithilfe der Internet-Nutzer.

Rund 60 Millionen der Nonsense- Buchstabenkombinationen werden weltweit jeden Tag entziffert und eingetippt, schätzt Luis von Ahn, der Leiter des Forschungsteams, der vor sieben Jahren auch an der Entwicklung der CAPTCHAs mitgewirkt hat.

Mangelhafte Erfassung
Nach Meinung der Forscher kann diese Zeit auch sinnvoll genutzt werden. Zwar geht die Digitalisierung von Büchern heute weitgehend automatisiert vonstatten. Die dabei verwendeten Technologien stoßen jedoch vor allem bei älteren Büchern und Schriften auf Probleme.

Ausgebleichtes oder beschädigtes Papier kann etwa beim Einscannen mit OCR-Technologien [Optical Character Recognition] nur ungenügend erfasst und nicht entziffert werden. In diesen Fällen sei die manuelle Eingabe der Buchstaben der einzige Weg um die Bücher vollständig zu digitalisieren, sagte der Forscher.

Zusammenarbeit mit dem Internet Archive
Hier kommen die CAPTCHAs ins Spiel. Digitalisierte Files, die vom Computer nicht gelesen werden können, werden von Ahn vom Internet Archive zugeliefert, das derzeit rund 12.000 Bücher pro Monat digitalisiert.

Sie landen auf dem Server des Forschungsprojekts und werden in einzelne CATCHAs unterteilt, damit sie bei Authentifizierungsprozessen im Netz zum Einsatz kommen können.

Wie funktioniert es?
Jedes Wort, das von OCR-Technologien nicht entziffert werden kan, kommt gemeinsam mit einem anderen Wort, das bereits entziffert wurde, in Form eines CAPTCHAs zum Einsatz.

So kann der Authentifizierungsprozess über das CAPTCHA kann stattfinden, gleichzeitig liefert jeder Nutzer einen Entzifferungsvorschlag für das neue Wort.

"Vorbildliches Projekt"
Die Korrekturarbeiten der Internet-Nutzer tragen auch dazu bei, dass die digitalisierten Texte auch auf kleineren, mobilen Endgeräten gut gelesen werden können, meinte Brewster Kahle vom Internet Archive gegenüber der "Washington Post". ReCAPTCHA sei ein vorbildliches Projekt, dass die Resourcen tausender Internet-User nutze.

"Crowdsourcing"
Ähnlich wie reCAPTCHA versuchen auch zahlreiche andere Projekte, Initiativen und auch Unternehmen sich die Intelligenz und Kreativität der vernetzten Massen nutzbar zu machen.

Jeff Howe, vom US-Technologiemagazin "Wired", hatte im Zusammenhang damit im vergangenen Jahr den Begriff "Crowdsourcing" geprägt.

Der Neologismus setzt sich aus den Wörtern Crowd [Menschenmenge] und Outsourcing zusammen, und bezeichnet die Auslagerung von Aufgabenbereichen aus Unternehmen und Institutionen an interessierte Amateure und Spezialisten über das Internet.