Netzwerk-Studie: Was Facebook über Nicht-Mitglieder weiß (Spiegel Online, 10.5.2012)
Netzwerk-Studie
Was Facebook über Nicht-Mitglieder weiß
Wer kennt wen? Wie viel kann Facebook über Menschen wissen, die gar nicht bei Facebook sind? Deutsche Forscher haben mit einer Simulation gezeigt: Mit den Daten des sozialen Netzwerks lässt sich vorhersagen, ob Menschen einander kennen, die dort gar kein Profil haben.
Spiegel Online, 10.5.2012
{jumi [*3]}
Wenn bei einer Netzwerkplattform genügend Informationen vorliegen, kann der Betreiber Erkenntnisse über Nicht-Mitglieder errechnen, die ihm so niemand explizit mitgeteilt hat. Ein Beispiel: Paul kennt Peter, keiner von beiden ist Mitglied bei Facebook. Weil aber einige ihrer Freunde Mitglied sind, lässt sich vorhersagen, dass sie einander kennen.
Das ist das Ergebnis einer Studie, die ein Forscherteam am Marsilius-Kolleg der Universität Heidelberg mit Hilfe von Facebook-Daten durchgeführt hat. Die Informatiker konnten mit mehreren Tausend Datensätzen Beziehungen zwischen Nicht-Mitgliedern eines Netzwerks vorhersagen – basierend allein auf den von Mitgliedern eingestellten Kontaktdaten. Damit das Experiment gelingt, müssen Adressbücher in das Netzwerk hochgeladen werden. Wenn Facebook rein gar nichts über die Existenz eines Menschen weiß, erlauben seine Datenbanken natürlich auch keine Aussagen über die Beziehungen dieses Menschen. Mitglied sein muss der Betroffene bei Facebook aber nicht.
Die Forscher konnten 40 Prozent solcher Beziehungen unter Nicht-Mitgliedern korrekt vorhersagen, indem sie bekannte Algorithmen untersuchen ließen, wen die Mitglieder in ihren Kontakt-Netzwerken hatten.
Wer kennt wen?
40 Prozent korrekte Vorhersagen – das ist 20-mal besser als Raten. Denn würde man eine Münze werfen, um Beziehungen vorherzusagen, wären sehr viele Fehlalarme darunter. Von allen Vorhersagen wären zwei Prozent richtig (bei einer 50:50-Chance), nicht 40.
Daten über Nicht-Mitglieder fallen bei allen großen Web-Anbietern an. Facebook zum Beispiel drängt Nutzer dazu, Adressbücher von Telefonen und E-Mail-Konten hochzuladen, um mit dem sogenannten Freundefinder Bekannte bei Facebook zu entdecken. Standardmäßig speichert und nutzt Facebook diese Informationen dauerhaft, ohne über die Auswertung zu informieren – im März hat das Landgericht Berlin diese Praxis als rechtswidrig beurteilt, Facebook ging in Berufung.
Modell mit Facebook-Daten
Nur Facebook weiß, wie hoch der Anteil der Adressbuch-Hochlader ist. Die Heidelberger Forscher gingen bei ihrem Modell von 50 Prozent aus. Die Wissenschaftler haben keinen Zugriff auf einen Datenpool von Mitgliedern und Nicht-Mitgliedern – sie haben ihn simuliert.
Ihr Vorgehen: Im Jahr 2005 hatten US-Forscher von Facebook für eine Untersuchung sämtliche Kontoinformationen aller an fünf US-Universitäten bei Facebook registrierten Studenten erhalten, mehrere tausend Datensätze je Universität. Diese Daten haben die Heidelberger Forscher in ihrem Modell verwendet. Sie haben die Datensätze nachträglich in Mitglieder und Nicht-Mitglieder unterteilt – sie taten also gewissermaßen so, als seien manche der Personen in ihrer Stichprobe Facebook noch gar nicht beigetreten. So konnten sie überprüfen, ob die Vorhersagen ihrer Algorithmen über die Beziehungen von Nicht-Mitgliedern stimmen. Die Verknüpfungen der simulierten Nicht-Mitglieder konnten dann mit denen der tatsächlichen Mitglieder abgeglichen werden.
Facebook hat Daten für bessere Vorhersagen
Können Plattformen wie Facebook Beziehungen zwischen Nicht-Mitgliedern ähnlich gut vorhersagen? Die Informatikerin Katharina Anna Zweig, Mitautorin der Studie, ist sich da recht sicher. Natürlich könne man nicht alle Ergebnisse der Simulation eins zu eins auf die Gesamtbevölkerung übertragen, sagt sie, schließlich handelt es sich um Studenten.
“Die grundlegende Erkenntnis ist schon, dass sich mit vergleichweise wenig Daten die Beziehungen zwischen Nicht-Mitgliedern eines Netzwerks vorhersagen lassen, wenn die Mitglieder beispielsweise Adressbücher hochladen.” Denn, so Zweig, “in der Netzwerkanalyse ist es generell so, dass es bei solchen Vorhersagen keine großen Unterschiede zwischen verschiedenen Untergruppen gibt. Ich gehe davon aus, dass wir dieselben Ergebnisse auch mit einer Gruppe von Fußballfans, Schülern oder Angestellten erzielen würden.”
Es spricht einiges dafür, dass mit Daten, wie sie heute Facebook und anderen Anbietern zur Verfügung stehen, zuverlässigere Vorhersagen über Nicht-Mitglieder möglich sind als in der Simulation der Forscher. Zweig: “Wir wissen nur, ob eine Person eine andere kennt, nicht mehr.” Helfen könnten Details wie diese: Zu welchem Jahrgang an welcher Bildungsinstitution gehören die Personen, welche Interessen haben sie, welche Musik mögen sie, welche Produkte kaufen sie, wo wohnen sie?
Die Mehrheit der Facebook-Mitglieder gibt Facebook persönliche Informationen – der Sicherheitsdienstleister secure.me hat bei einer Untersuchung von 75.000 europäischen Facebook-Profilen ermittelt, dass 71 Prozent der Mitglieder persönliche Informationen wie Wohnort, Beziehungsstatus, Familienmitglieder oder politische Einstellung angeben.
Die Heidelberger Studie zeigt, dass sich aus Daten, die Dritte ohne Wissen der Nutzer Web-Diensten überlassen, statistisch neue Erkenntnisse über Personen gewinnen lassen. Bei der Heidelberger Studie ging es nur um die Frage, wer wen kennt – aber vielleicht lässt sich mit besseren Daten auch vorhersagen, wer homosexuell ist? Forscher des Massachusetts Institute of Technology (MIT) haben schon 2009 in einer Studie gezeigt, dass sich die sexuelle Orientierung innerhalb der Plattform auf Basis der Kontakte einer Person vorhersagen lässt. Spätestens, wenn das in einer Studie bei Nicht-Mitgliedern eines Netzwerks gelingt, muss man die Prämisse des Datenschutzes neu formulieren: Wie reguliert man mögliches, erschließbares Wissen?