Zum Inhalt springen

Datenjournalismus-Rezept: So entstehen interaktive Karten

Konrad Lischka
Konrad Lischka
3 minuten gelesen
Datenjournalismus-Rezept: So entstehen interaktive Karten

Wie erstellt man aus Rohdaten wie diesen interaktive Karten wie die oben? Ich hatte keine Ahnung und habe das durch Experimentieren herausgefunden. Weil ich kein brauchbares Rezept zum Vorgehen fand, habe ich Schritt für Schritt aufgeschrieben, wie ich vorgegangen bin. Keine Sorge: Es gibt für alles zumindest in der Basisversion kostenlose Hilfsmittel und die Lernkurve ist flach genug, so dass jeder ohne Vorwissen so etwas schaffen kann.

Direktlink zur Karte.

Daten finden

Die LEG NRW hat ihren Wohnungsmarktbericht mit kompletten Rohdaten veröffentlicht – das ist toll. Nicht so toll ist, dass die Tabellen in PDF-Dokumenten stecken und jeder Kreis und jede kreisfreie Stadt eigene PDF-Dokumente haben.

Daten säubern

Um Tabellen in PDF-Dateien in ein von Software verarbeitbares Tabellenformat zu kriegen, gibt es mehrere Wege:

Tabula

Kostenfrei ist die Software Tabula für MacOS und Windows verfügbar. Das Programm läuft lokal auf dem Rechner – die PDF-Dokumente verlassen also nicht das eigene Netz. Die Entwicklung von Tabula haben unter anderem die Stiftung ProPublica, die New York Times und die Knight Foundation finanziert. Das Programm funktioniert gut, man sollte  aber nicht Tabellen automatisch erkennen lassen. Das dauerte bei mir selbst bei kleinen Dokumenten ewig. Es ist besser, selbst die zu extrahierenden Tabellen im eingelesenen PDF zu markieren und dann die von Tabula extrahierten Daten zum Beispiel in eine Tabellenkalkulation zu kopieren.

Acrobat und andere PDF-Verarbeiter

Adobe Acrobat extrahiert Tabellen aus PDF-Dokumenten, ebenso Nitro Pro (nur Windows). Eine legale Lizenz für eine alte, aber lauffähige Acrobat-Version (9 zum Beispiel) kostet sicher 130 Euro aufwärts, das aktuelle Nitro Pro 3 gibt es für gut 130 Euro als Download. Fürs Scrapen allein ist das etwas viel, denke ich. Wenn man aber zum Beispiel ab und an Druck-PDFs erstellen und prüfen muss, also weitere Verwendung hat, kann sich das lohnen.

Online-Dienste wie PDFtables

PDFtables ist ein Onlinedienst des kommerziellen Scraperanbieter Scraperwiki. Man lädt die Dokumente auf den Server des britischen Anbieters, dort verarbeitet deren Software die Daten. Sie spuckte bei meinem Test schnell eine HTML-Version mit korrekt erkannten und formatierten Tabellen aus. Copy & Paste in die Tabellenkalkulation und fertig. Aber: Man lädt hier Daten auf einen fremden Server im freien Netz, das ist ein Notbehelf bei Daten, die ohnehin öffentlich sind. Hinzu kommt: Man hat nur 5 Verarbeitungen frei (bin mir nicht sicher, ob die das per IP oder Cookie tracken).

Daten veredeln

Für die Visualisierung interessante Daten muss man bisweilen erst errechnen. So ist im Wohnungsmarktbericht der LEG zwar aufgeführt, wie groß in den PLZ-Gebieten die Wohnungen und wie hoch die Wohnkosten im Schnitt sind. Im Vergleich interessanter wäre aber der durchschnittliche Wert je Quadratmeter. Kann man leicht ausrechnen: die durchschnittlichen Wohnkosten geteilt durch Wohnungsfläche. Die so berechnete Tabelle lädt man dann zur Verarbeitung bei Google Drive hoch.

Daten verorten

Shapefiles, mit denen sich die PLZ-Bereiche auf Karten visualisieren lassen, gibt es hier. Diese Dateien enthalten die Koordinaten der Postleitzahlengrenzen. Sie markieren die Bereiche, die man je nach Ausprägung der Daten einfärben kann.

Um diese Shapefile zu nutzen, muss man sie mit den Daten zusammenführen. Das kann man kostenlos mit Google Online-Dienst Fusion Tables. Damit dieser Dienst die Umrisse akzeptiert, konvertiert man sie mit dem kostenlosen Werkzeug Shapeescape.

In Fusion Tables schafft man einen neuen Datensatz aus der zu Beginn in Googles Online-Office Tabelle.

Wichtig: Vor dem Zusammenführen prüfen, ob alle Spalten korrekt als Ziffern erkannt wurden (Prozentsätze wurden bei mir z.B. als Koordinaten behandelt. Das muss man sofort ändern, später lässt sich das nicht neu kategorisieren).

Diesen Datensatz vereint man dann mit dem Shapefile-Datensatz, über die PLZ ordnet man die Umrissen den richtigen Datensätzen zu.

Visualisieren

Interaktive Karten ohne Google-Basis lassen sich mit dem (in der Basisversion) kostenlosen Werkzeug CartoDB aus Spanien erzeugen.

Die zuvor um PLZ-Bereiche und Umrisse ergänzten Daten lädt man bei Google Drive als XLS- oder CSV-Dokument herunter und importiert dieses bei CartoDB.

Das scheiterte bei mir zunächst an dieser unerklärlichen Fehlermeldung: “Unable to load data (2001)”. Das problem war hierbei: Die Spaltentitel enthielten Leerzeichen. Beim Import verlangt CartoDB, dass jedes Leerzeichen im Text durch einen Unterstrich (_) ersetzt wird. Der Rest ist dank der klaren grafischen Benutzeroberfläche von CartoDB selbsterklärend. Wenn eine Variable nicht als Option für eine Visualisierung auftaucht, sollte man zur Datenansicht wechseln und prüfen, ob die entsprechende Spalte korrekt formatiert ist (als Nummer nicht als Zeichenfolge zum Beispiel).

Datenvisualisierung

Konrad Lischka

Projektmanagement, Kommunikations- und Politikberatung für gemeinnützige Organisationen und öffentliche Verwaltung. Privat: Bloggen über Software und Gesellschaft. Studien, Vorträge + Ehrenamt.
Immer gut: Newsletter abonnieren


auch interessant

Wer investiert in die Zukunft, wenn alle sparen?

Der common senf aktueller Debatten um Staatsausgaben, Tarifverhandlungen und Zinspolitik scheint mir gerade ein gefährlicher: Alle sollen sparen. Der Staat soll weniger ausgeben und damit der Gesamtwirtschaft Geld entziehen. Arbeitnehmer sollen Reallohnverluste akzeptieren, sparen und damit der Gesamtwirtschaft Geld entziehen. Und Unternehmen sollen sparen, bloß keine Kredite aufnehmen für Investitionen

Wer investiert in die Zukunft, wenn alle sparen?

Paradox der Gegenwart

Einerseits sehen so viele Menschen ihre individuellen (Konsum)Bedürfnisse als das wichtigste Gut, als absolut schützenswert. Überspitzte Maxime: Was ich will, ist heilig – alles geht vom Individuum aus. Andererseits erscheint genauso viele Menschen das Individuum ganz klein, wenn es darum geht, etwas zu verändern in der Welt. Überspitzte Maxime: Ich

Paradox der Gegenwart

Wie Schmecken funktioniert

Gelernt: Geschmack und Aroma sind zwei ganz unterschiedliche Wahrnehmungen. Für jede ist ein anderer Teil im Gehirn verantwortlich. Und jede basiert auf unterschiedlichen Daten: Für den Geschmack kommen Eindrücke von der Zunge, fürs Aroma von Rezeptoren in der Nase. Beides vermischt das Gehirn zum Gesamteindruck Schmecken. Sehr lesenswerter Aufsatz darüber

Wie Schmecken funktioniert