Zum Inhalt springen

Studie zur Web-Haltbarkeit: Das Netz vergisst schnell (Spiegel Online, 22.9.2012)

Konrad Lischka
Konrad Lischka
3 minuten gelesen

Studie zur Web-Haltbarkeit

Das Netz vergisst schnell

Das Internet vergisst nie? Von wegen. Das Web ist ein extrem flüchtiges Medium – binnen zweieinhalb Jahren ist ein Viertel der wichtigen Online-Quellen zum Arabischen Frühling, dem Schweinegrippe-Ausbruch und Michael Jacksons Tod wieder verschwunden.

Spiegel Online, 22.9.2012

{jumi [*3]}

Wenn Historiker in 30 Jahren versuchen sollten, die Reaktion auf den Arabischen Frühling im Web zu analysieren, werden sie vor einem Problem stehen: Viele Quellen im Web dürften verschwunden sein. Das Internet vergisst eben doch, und zwar erstaunlich schnell. Einer Studie der US-Informatiker Hany M. SalahEldeen und Michael L. Nelson von der Old Dominion University zufolge ist heute bereits ein Viertel der 2009 in ausgewählten Tweets verlinkten Quellen zum Aufstand in Ägypten nicht mehr abrufbar.

Die Wissenschaftler haben mehr als 11.000 Links in Tweets zu sechs Großereignissen der Jahre 2009 bis 2012 untersucht. Ihr Ergebnis: Mitte 2012 war gut ein Viertel der 2009 in den ausgewählten Tweets verlinkten Quellen ist nicht mehr abrufbar. Immerhin sieben Prozent der im März 2012 auf Twitter empfohlenen und verlinkten Quellen war nicht mehr erreichbar. Es geht dabei um Videos bei YouTube, Fotos bei Twitpic und Yfrog, Artikel in US-Medien und Blog-Einträge auf WordPress.com – allesamt zeitgeschichtliche Dokumente, zum Teil wohl auch Primärquellen, wie zum Beispiel Videos aus Ägypten.

Web-Archive erhalten weniger als die Hälfte

Die Forscher werden ihre Studie am 25. September bei der Archivierungs-Fachtagung “Theory and Practice of Digital Libraries” vorstellen, ihr Paper wurde von drei Mitgliedern des Auswahlkomitees geprüft und angenommen.

Die wesentliche Erkenntnis der Untersuchung: Je länger die Ereignisse zurückliegen, desto weniger der in Tweets verlinkten Quellen sind noch abrufbar. Auch Web-Archive wie das Internet Archive erhalten nur eine Minderheit der empfohlenen Quellen. Die Forscher haben beim von der US-Kongressbibliothek finanzierten Online-Dienst Memento geprüft, ob in einem der dort erfassten Web-Archive Kopien der Inhalte liegen.

Anteil verlorener und archivierter Online-Quellen (2009-2012)
Ereignis Stichprobe (Tweets) höchste Tweet-
anzahl
Anteil verschwun-
dener Websites (%)
Anteil archivierter Webseites (%) Anteil verschwun-
dener und nicht- archivierter Webseiten (%)
Proteste in Iran * 3429 15.06.2009 25,86 38,51 17,76
Michael Jacksons Tod 2293 25.06.2009 33,45 34,2 25,85
Schweine-
grippe-Ausbruch
5517 11.09.2009 23,95 42,12 17,99
Friedens-
nobelpreis für Obama
1118 03.10.2009 24,86 47,87 15,95
Proteste in Ägypten ** 7319 11.02.2011 10,48 20,18 7,67
Bürgerkrieg in Syrien *** 1955 25.03.2012 7,04 5,35 7,04
* Stichproben anhand von Tags in mehrstufigen Verfahren aus einem 476 Million Tweets im Stanford Large Network Dataset, die im Zeitraum vom 1.6. bis 31.12.2009 veröffentlicht worden sind / ** Auswahl aus Storify, IAmJan25.com und aus dem Buch “Tweets From Tahrir”, Zeitraum 20.1.2011 – 1.3.2011 / *** Stichprobe aus dem März 2012, anhand von Tags mit der Twitter-Suchfunktion ausgewählt / Quelle: Losing My Revolution

Bei den Ereignissen aus dem Jahr 2009 waren nur um die 40 Prozent der damals auf Twitter empfohlenen Quellen bei einem der Online-Archive in Kopie hinterlegt. Zwischen 17 und 25 Prozent der untersuchten Webseiten waren weder am ursprünglichen Speicherort noch in einem der Online-Archive erhalten – Hunderte von Videos, Fotos und Artikeln zu den Protesten in Iran, Michael Jacksons Tod und dem Schweinegrippe-Ausbruch sind wohl unwiederbringlich verloren.

Die Forscher leiten aus ihren Ergebnissen diese Feststellung ab: Ein Jahr nach Erstveröffentlichung sind elf Prozent der Online-Quellen nicht mehr am ursprünglichen Speicherort und auch nicht in Web-Archiven abrufbar, danach steigt der Anteil der verschwundenen Seiten um 0,02 Prozentpunkte pro Tag.

Die Studie zeigt, wie flüchtig Online-Quellen sind. Erstaunlich ist, dass Quellen verschwinden, die von Nutzern als ausreichend wertvoll für öffentliche Empfehlungen erachtet wurden. Bislang war lediglich bekannt, dass Online-Archive der Alltagskultur verschwinden. So ist zum Beispiel der Großteil der einst öffentlich zugänglichen Friendster-Profile für immer verloren, weil der neue Besitzer 2011 die Daten löschte. Friendster war 2002 als eines der ersten Social Networks überhaupt gestartet. So hat zum Beispiel Archive.org, ein gemeinnütziges, privates Archiv-Projekt des Informatikers Brewster Kahle, 272 Terabyte Daten von Apple-Servern gerettet, als Mitte 2012 die Webauftritte Hunderttausender Kunden und damit zwölf Jahre Online-Alltagsgeschichte gelöscht wurden.

Deutschland speichert nicht

Während Bibliotheken heute Magazine, Zeitungen und auch E-Paper-Ausgaben archivieren, gibt es nach wie vor keine Langzeitarchivierung des World Wide Web. Die Wirtschaft hat in Deutschland 2008 erfolgreich gegen die Pflicht für Unternehmen lobbyiert, Online-Inhalte bei der Deutschen Nationalbibliothek abzuliefern.

Die Deutsche Nationalbibliothek hat zwar einen entsprechenden “erweiterten Sammelauftrag”. Auf der Website der DNB heißt es allerdings auch heute noch: “Derzeit werden Webseiten aller Art, z.B. statische und dynamische HTML-Seiten, Weblogs oder Foren, noch nicht gesammelt.” Die Nationalbibliothek erarbeite derzeit “die organisatorischen und technischen Grundlagen” zum “automatisierten Einsammeln von Websites”. Die langsamen Fortschritte bei der Online-Archivierung überraschen nicht – deutsche Bibliotheken haben nicht einmal genug Geld, um ihre Papierarchive vor Säurefraß zu schützen, von Digitalisierung ganz zu schweigen.

Konrad Lischka

Projektmanagement, Kommunikations- und Politikberatung für gemeinnützige Organisationen und öffentliche Verwaltung. Privat: Bloggen über Software und Gesellschaft. Studien, Vorträge + Ehrenamt.
Immer gut: Newsletter abonnieren


auch interessant

Wer investiert in die Zukunft, wenn alle sparen?

Der common senf aktueller Debatten um Staatsausgaben, Tarifverhandlungen und Zinspolitik scheint mir gerade ein gefährlicher: Alle sollen sparen. Der Staat soll weniger ausgeben und damit der Gesamtwirtschaft Geld entziehen. Arbeitnehmer sollen Reallohnverluste akzeptieren, sparen und damit der Gesamtwirtschaft Geld entziehen. Und Unternehmen sollen sparen, bloß keine Kredite aufnehmen für Investitionen

Wer investiert in die Zukunft, wenn alle sparen?

Paradox der Gegenwart

Einerseits sehen so viele Menschen ihre individuellen (Konsum)Bedürfnisse als das wichtigste Gut, als absolut schützenswert. Überspitzte Maxime: Was ich will, ist heilig – alles geht vom Individuum aus. Andererseits erscheint genauso viele Menschen das Individuum ganz klein, wenn es darum geht, etwas zu verändern in der Welt. Überspitzte Maxime: Ich

Paradox der Gegenwart

Wie Schmecken funktioniert

Gelernt: Geschmack und Aroma sind zwei ganz unterschiedliche Wahrnehmungen. Für jede ist ein anderer Teil im Gehirn verantwortlich. Und jede basiert auf unterschiedlichen Daten: Für den Geschmack kommen Eindrücke von der Zunge, fürs Aroma von Rezeptoren in der Nase. Beides vermischt das Gehirn zum Gesamteindruck Schmecken. Sehr lesenswerter Aufsatz darüber

Wie Schmecken funktioniert