Zum Inhalt springen

Datenschutz: Informatiker knacken anonymisierte Datenbank per Web-Suche (Spiegel Online, 13.12.2007)

Konrad Lischka
Konrad Lischka
3 minuten gelesen

Datenschutz-Debakel

Informatiker knacken anonymisierte Datenbank per Web-Suche

Der US-Filmverleiher Netflix veröffentlicht zu Forschungszwecken die Leihgeschichte seiner Kunden – natürlich ohne Namen. Doch Informatiker spüren per Suchsoftware die Klarnamen auf. Sicherheitsexperten warnen: Die Methode funktioniert auch bei Kreditkarten-Betrug.

Spiegel Online, 13.12.2007

Der Online-DVD-Verleiher Netflix will seinen Kunden und sich etwas Gutes tun: Eine neue Software soll Kunden treffsicherer als bisher Filme auf Basis der Leihgeschichte empfehlen. Eine Million Dollar verspricht die US-Firma Netflix dem Programmierer, der als erster eine um zehn Prozent präzisere Prophezeihungs-Software schreibt. Seit einem Jahr läuft der Wettbewerb, 18.000 Programmierer-Teams arbeiten sich an 100 Millionen anonymisierten Filmbewertungen von 500.000 Netflix-Kunden ab. Im Juni verkündete Netflix stolz, dass die Treffergenauigkeit dank des Wettbewerbs schon um 7,42 Prozent gestiegen ist. Für diesen Fortschritt hat Netflix offenbar beim Datenschutz geschlampt: Zwei Informatikern der University of Texas in Austin ist es gelungen, die von Netflix anonymisierten Daten zum Teil den Klarnamen von Netflix-Kunden zuzuordnen, wie sie in einem Fachaufsatz beschreiben.

Für die Enttarnung haben die Forscher Arvind Narayanan und Vitaly Shmatikov keine Datenbank gehackt, keine Phishing-Mails verschickt oder derlei. Die beiden Informatiker haben lediglich ein Programm die Netflix-Datensätze mit den Filmkritiken auf dem Kinoportal "Internet Movie Database" (IMDb) abgleichen lassen. Auf IMDb.com rezensieren viele Mitglieder unter echtem Namen – und den kann die Software selbst bei ganz wenigen Rezensionen und DVD-Ausleihen mit geringer Fehlerquote Netflix-Accounts zuordnen.

Namen löschen ist keine Anonymisierung

Diese Enttarnung demonstriert, wie viel Schnüffelpotenzial scheinbar harmlose Datenbanken haben, sobald man sie vernetzt. Bruce Schneier, Experte für Kryptographie und Computersicherheit schreibt im US-Magazin "Wired", dass dieser Versuch zeigt, "wie wenig Informationen man braucht, um Datensätze zu entanonymisieren." Schneier: "Wenn man die Top-100-Filme außer acht lässt, die jeder sieht, sind die Sehgewohnheiten jedes Menschen nahezu einmalig." Filmbesprechungen taugen als digitale DNA. Und das dürfte auch für das Einkaufs-, Telefonier- und Websuch-Verhalten zutreffen.

Andreas Pfitzmann, Informatikprofessor an der Technischen Universität Dresden und Experte für Datenschutz und Datensicherheit erklärt gegenüber SPIEGEL ONLINE: "Anonymisierung funktioniert nicht so, dass man einfach Namen und Adressen weglässt. Das mögen Politiker suggerieren oder sogar glauben – es stimmt aber nicht."

Online-Rezensionen helfen Schnüffel-Software

Pfitzmann überraschen die Ergebnisse der Informatiker aus Texas nicht: "Die Möglichkeiten und Risiken dieses Ansatzes erforschen Informatiker seit 20 Jahren." Der Unterschied ist, dass heute mehr Informationen digitalisiert in vernetzten Datenbanken liegen als je zuvor. Ideale Voraussetzungen für Schnüffelattacken.

Pfitzmann erklärt: "Indem man Datensätze aus verschiedenen Datenbanken miteinander in Beziehung setzt, kann man ab einer kritischen Menge an Attributen Verhaltensmuster erkennen und Informationen aus einer anonymisierten Datenbank den konkreten Personen in einer anderen zuordnen."

Bei Netflix erscheint die Entanonymisierung auf den ersten Blick nicht besonders gravierend. Was ist schon dabei, wenn alle Welt weiß, welche Filme man ausleiht? Es gibt bei Netflix ja nicht einmal Pornos, für die sich nun enttarnte Kunden schämen könnten. Die Netflix-Methode dürfte aber auch bei heikleren Fällen Daten personalisieren.

Das Web liefert den Namen zur Kredikartennummer

Ein Beispiel: Computer-Gaunern gelingt es, bei einem DVD-Online-Shop Kreditkartennummern und dazugehörende Einkaufsdaten abzugreifen. Ihnen fehlen aber Namen und Adressen der Kartenbesitzer. Die können sie theoretisch genauso herausfinden wie die Forscher im Netflix-Fall.

Informatiker Andreas Pfitzmann: "Im Prinzip könnte das so funktionieren. Vermutlich würde man aber zur Senkung der Fehlerrate noch weitere Attribute brauchen, zum Beispiel Datum und Uhrzeit des Online-Kaufs und der Bewertung bei IMDb."

Kryptographie-Experte Bruce Schneier zählt in seiner Analyse der Netflix-Untersuchung weitere denkbare Anwendungen solcher Datenbank-Abgleiche auf:

  • Amazon-Buchkritiken können helfen, Kreditkarten-Tranksaktionen mit Namen zu versehen.
  • Online-Händler mit detaillierten Kunden- und Transaktionsdatenbanken könnten anonymisiert veröffentlichte Datenbanken mit Internet-Suchanfragen Kunden zuordnen.
  • Datenhändler mit Zugriff auf die Datenbanken mehrerer Online-Händler könnten die meisten Informationen in den einzelnen Datenbanken personalisieren.

Wie viele Informationen für eine verlässliche Identifizierung nötig sind, kann man nicht per se sagen. Informatiker Pfitzmann: "Sehr viele harmlose Attribute könnten genügen." Die Konsequenz daraus ist: Je mehr scheinbar unbedenkliche Informationen über ihre Vorlieben Menschen ins Web stellen, desto leichter wird die Arbeit für Abgleich-Programme.

Die Folge laut Datensicherheits-Experten Pfitzmann: "Wenn irgendwo eine Datenbank gehackt wird, ist es nicht unbedingt beruhigend, dass die Daten dort nur anonymisiert gespeichert waren."

 

Konrad Lischka

Projektmanagement, Kommunikations- und Politikberatung für gemeinnützige Organisationen und öffentliche Verwaltung. Privat: Bloggen über Software und Gesellschaft. Studien, Vorträge + Ehrenamt.
Immer gut: Newsletter abonnieren


auch interessant

Wer investiert in die Zukunft, wenn alle sparen?

Der common senf aktueller Debatten um Staatsausgaben, Tarifverhandlungen und Zinspolitik scheint mir gerade ein gefährlicher: Alle sollen sparen. Der Staat soll weniger ausgeben und damit der Gesamtwirtschaft Geld entziehen. Arbeitnehmer sollen Reallohnverluste akzeptieren, sparen und damit der Gesamtwirtschaft Geld entziehen. Und Unternehmen sollen sparen, bloß keine Kredite aufnehmen für Investitionen

Wer investiert in die Zukunft, wenn alle sparen?

Paradox der Gegenwart

Einerseits sehen so viele Menschen ihre individuellen (Konsum)Bedürfnisse als das wichtigste Gut, als absolut schützenswert. Überspitzte Maxime: Was ich will, ist heilig – alles geht vom Individuum aus. Andererseits erscheint genauso viele Menschen das Individuum ganz klein, wenn es darum geht, etwas zu verändern in der Welt. Überspitzte Maxime: Ich

Paradox der Gegenwart

Wie Schmecken funktioniert

Gelernt: Geschmack und Aroma sind zwei ganz unterschiedliche Wahrnehmungen. Für jede ist ein anderer Teil im Gehirn verantwortlich. Und jede basiert auf unterschiedlichen Daten: Für den Geschmack kommen Eindrücke von der Zunge, fürs Aroma von Rezeptoren in der Nase. Beides vermischt das Gehirn zum Gesamteindruck Schmecken. Sehr lesenswerter Aufsatz darüber

Wie Schmecken funktioniert