Crowd Sourcing: Web-Nutzer füttern die digitale Biblitohek, Spiegel Online, 25.5.2007
Crowd Sourcing
Web-Nutzer füttern die digitale Biblitohek
Wer in Internet-Foren kommentieren will, muss oft obskure Zeichen-Folgen in Grafiken erkennen und korrekt eintippen. Das hält Spam-Roboter fern, ist aber eine gigantische Zeitverschwendung. Eine neue Software ändert das: Sie funktioniert ähnlich, bereichert aber eine die digitale Bibliothek des Internet-Archivs.
Spiegel Online, 25.5.2007
Smu6, 5Z28AF oder 6X45QR – mit solchen aberwitzigen Buchstabenkombinationen unterscheiden Blog-Betreiber, Internet-Foren und Web-2.0-Portale Menschen von Maschinen. Wer sich registrieren oder etwas kommentieren will, muss solche Phrasen, sogenannte CAPTCHAs in einer schwer lesbaren Grafik erkennen und eintippen. Damit verbringen Nutzer im Internet jeden Tag 150.000 Stunden, haben Forscher der Carnegie Mellon Universität in Pittsburgh hochgerechnet. Sie wollen diese Zeit jetzt sinnvoller einsetzen. Für die Digitalisierung von Büchern zum Beispiel.
Die Idee des Informatikers Luis von Ahn: Bei jeder Buch-Digitalisierung fallen gescannte Wörter an, welche die Software nicht identifizieren kann. Hier muss ein Mensch den Sinn erkennen. Warum dafür nicht die 150.000 Arbeitsstunden nutzen, die Menschen tagtäglich mit dem Erkennen und Eintippen wirrer Codes verbringen? Von Ahn hat ein System programmiert, das eben dies ermöglicht: ReCAPTCHA.
Wer von Ahns E-Mail-Adresse auf seiner Internet-Seite herausfinden will, erlebt das System im Einsatz: Man klickt auf einen Link, ein Fenster mit zwei Grafiken öffnet sich. Zwei Wörter sind zu erkennen, nicht ganz so einfach zu lesen, aber mit einem konzentrierten Blick sofort zu identifizieren. Gibt man beide Wörter korrekt ein, taucht von Ahns Adresse auf.
Der Clou dabei: Beide angezeigten Wörter sind Problemfälle aus einem Digitalisierungs-Vorhaben des gemeinnützigen Internet-Archivs Archive.org. Die Initiative scannt jeden Monat nach Angaben von Ahns 12.000 Bücher ein, die nicht mehr urheberrechtlich geschützt sind. Hintergrund: Archiv-Gründer Brewster Kahle hält Googles Digitalisierungs-Projekt für einen Albtraum.
Konkurrenz für Googles Buchsuche
In einem Interview mit dem Handelsblatt warf Kahle dem Konzern vor, mit den kooperierenden Bibliotheken extrem restriktive, geheime Verträge abzuschließen: "Google versucht sich so aufzustellen, dass sie der einzige Ort sind, an man Zugang zu diesen Materialen erhält." Deshalb will Kahle ein zweites digitales Buch-Archiv aufbauen.
Die beim Scannen der Titel eingesetzte Text-Erkennungs-Software kann nicht jedes Wort identifizieren. Oft sind die Vorlagen nicht mehr im besten Erhaltungzustand. In diesem Fall speichert die Erkennungssoftware das nicht identifizierte Wort als Grafik – für weitere Erkennungs-Versuche. Das können Menschen noch immer besser als Software.
Diese Arbeitskraft nutzt ReCAPTCHA: Die von dem System angezeigten Grafiken stammen aus dem Fundus der beim Internet-Archiv nicht identifizierten Wörter. Sie werden automatisch angelegt und für die Internet-Identifizierung noch ein wenig unkenntlicher gemacht, damit wirklich kein Spambot sie erkennt. Eines der angezeigten Worte wurde bereits von Menschen erkannt und die Bedeutung gespeichert. Das andere Wort ist noch nicht identifiziert.
Dank ReCAPTCHA wächst die digitale Bibliothek
Anhand des bereits bekannten Worts klärt die Software, dass hier wirklich ein Mensch an der Arbeit ist. Gibt er die korrekte Bedeutung an, bekommt er Zugang zu dem von ReCAPTCHA geschützten Forum, der verborgenen E-Mail-Adresse oder dem betreffenden Blog-Kommentar. Außerdem wird seine Übersetzung des unbekannten Worts in der ReCAPTCHA-Datenbank gespeichert. Wenn eine bestimmte Menge Nutzer dieselbe Bedeutung vorgeschlagen hat, stuft die ReCAPTCHA-Software sie als glaubwürdig ein. Die digitalisierte Version des Texts wird an die Buch-Datenbank des Internet-Archivs übermitteln und geht zugleich in de ReCAPTCHA-Bestand an erkannten Wörtern ein, anhand derer Anfragende als Menschen identifiziert werden.
Betrachtet man dieses Verfahren, stimmt Luis von Ahns Versprechen, die 150.000 täglich für CAPTCHA-Identifizierungen aufgewendeten Arbeitsstunden sinnvoll zu nutzen, nicht so ganz. Denn statt eine Wortes muss der Nutzer zwei erkennen, was wahrscheinlich doppelt so lange dauert wie die Identifizierung eines Wortes. Man braucht fast doppelt so lange, schenkt aber die Hälfte dieser Zeit den Digitalisierungsbemühungen des Internet-Archivs.
Andere Anwendungen: Bilder identifizieren
ReCAPTCHA ist kostenlos verfügbar – Nutzer können es dank vieler vorgefertigter Plug-Ins und Standard-Schnittstellen leicht in ihren Blogs, Webforen und Internetseiten integrieren. Die leichte Anwendung und der gute Zweck sprechen für eine weite Verbreitung. Es ist auf jeden Fall charmanter als Microsofts Projekt, die obskuren Identifizierungscodes durch Fotos von Hunden und Katzen abzulösen. Es stimmt schon: Menschen können Hunde und Katzen unterscheiden, Maschinen nicht. Nur schaffen die Identifizierten bei Microsoft Asirra keine neuen Informationen – alle Bilder sind im Vorfeld in Tierheimen klassifiziert worden.
ReCAPTCHA hingegen ist eine clevere Variante des Prinzips, nur von menschlicher Intelligenz zu leistende Aufgaben mithilfe des Internets in winzige Einzelschritte aufzuteilen, die kaum ein Nutzer als lästig empfindet. Luis von Ahns hat schon ein ähnlich reizvolles Projekt für das Verschlagworten von Fotos gestartet: Beim ESP Game tun Menschen eben das im Rahmen eines unterhaltsamen Computerspiels. Google hat die Technologie bereits lizenziert, für den Image Labeler, der die Suchergebnisse der Google-Bildersuche verbessern soll.