― Jetzt entdecken

Das Medienhaus Laumanns

Gestern, heute, morgen: Wir nehmen Sie zum Jubiläum mit auf eine spannende Reise durch die Verlagsgeschichte, die Abteilungen unseres Hauses und das Leben im Verbreitungsgebiet unserer Zeitung.

Wie Daten die Realität beschreiben

Was Datenjournalismus im Lokalen leisten kann

Von Bernd Eickhoff


Universalgelehrte, so nannte man im Mittelalter jene Menschen, die vielseitige Kenntnisse in beinahe allen zur damaligen Zeit bekannten Wissenschaften besaßen. Dann wurden die Themen mehr, vielfältiger und tiefer. Ähnlich verhält es sich mit dem Journalismus. In den Anfängen der Zeitungen waren die Schreiber auf allen Themenfeldern gleichermaßen zu Hause. Dann folgte die Spezialisierung: Sport, Kultur, Wirtschaft – um nur drei der klassischen Ressorts zu nennen. Eine der jüngsten Disziplinen ist der Datenjournalismus.


Fundierte Kenntnisse im Datenjournalismus ermöglichen es, einen viel besseren, viel genaueren Job beim Beschreiben der Realität zu machen. Inzwischen stehen dazu unglaublich viele verlässliche, aber auch ungeprüfte und nicht verifizierte Datenmengen zur Verfügung. Einer der Kernkompetenzen ist es, die Spreu vom Weizen zu trennen und aus den Milliarden so gewonnener Weizenkörner einen wohlstrukturierten Unterbau für die redaktionelle Recherche zu extrahieren. Und das funktioniert besonders gut auch im Lokalen.


Ein schönes Beispiel, wie aus gewaltigen Datenmengen Erkenntnisse für die Region gewonnen werden können, ist das mit einigen hundert Millionen Werten öffentlich zugängliche Marktstammdatenregister der Bundesnetzagentur. Jedes Windrad in Deutschland, jede einzelne am Netz betriebene Solarzelle und alle Elektrizität erzeugenden Biogasanlagen sind dort aufgeführt. Es lässt sich also tagesgenau die Entwicklung zum Beispiel in Geseke oder Rüthen nachvollziehen. Wenn eine Stadt ein Förderprogramm für Balkonkraftwerke auflegt, kann eine Visualisierung aus laufenden Daten den Erfolg oder Misserfolg solcher Maßnahmen zeitnah darlegen.


Bei den Patriot-Recherchen für einen Themenblock zur Energie-Autarkie im Kreis Soest ermöglichten gesammelte Daten auf kommunaler Ebene, eine aussagekräftige Rangliste der 14 kreisangehörigen Städte und Gemeinden zu liefern mit Anröchte als absolutem Spitzenreiter: Hier wird dreimal so viel Strom erzeugt, wie Industrie und Einwohner verbrauchen.


Und es sind nicht nur die großen Themen, für die ein Datenjournalist die gesammelten Daten neu interpretiert und einsetzt: Manchmal sind den 16 Zeitungszeilen der lokalen „Zahl des Tages“ rechenintensive Arbeiten vorausgegangen.


Muster gesucht

Es geht im Datenjournalismus unter anderem nach der Suche von Mustern. Nicht immer das Außergewöhnliche zählt: Unsere Heimatregion hat in vielerlei Bezug durchschnittliche Werte – bundesweit betrachtet. Und ist damit ein guter Kandidat für einen generellen Deutschlandtrend. Das an sich ist schon eine wertvolle Erkenntnis.


Bei der Suche nach Mustern ist besonders interessant die Suche nach Outliern (Ausreißern), die den besonderen Charakter einer Region oder Stadt gegenüber dem Umfeld herausstellen. Aus Milliarden von Daten wird häufig erst nach verschiedenen Sortier- und Filterkriterien oder auch erst nach diversen Visualisierungsexperimenten ein solcher Ausreißer erkennbar. Darauf basieren dann weitere Geschichten, kommen Menschen ins Spiel, die als Nutznießer oder Opfer dieser Trends zu Wort kommen.


Datenmorast

Ein Morast unzusammenhängender Informationen – das ist oft der Anfang einer Geschiche, die sich aus Daten entwickeln soll. Und es ist einer der beiden Hauptwege, die ein Datenjournalist beschreitet:

Es stehen Daten zur Verfügung, aus denen mit unterschiedlichen Transformationen und Perspektiven Trends und Ausreißer extrahiert werden. Erst daraus entwickelt sich das Thema für eine Geschichte. Hier liegt der Schlüssel darin, den Weg von chaotischen Daten zu einer informativen Visualisierung zu finden.


Der zweite Weg ist da schon traditioneller: Die Idee für ein Thema ist entstanden und soll mit Daten unterlegt bzw. Thesen untermauert werden. Dazu werden Datenquellen gesucht, analysiert und in die Recherche eingebracht. Das kann auch dazu führen, dass eine Recherche ins Leere läuft und die Story stirbt.

 

Ein paar Fakten für Technik-Interessierte:


Daten im Vorrat

Im Einsatz sind Oracle-Datenbanken mit zurzeit 177 Tabellen für die Basisinformationen in den Bereichen Bevölkerung, Bildung, Wirtschaft, Arbeit, Wohnen, Verkehr, Energie, Umwelt, kommunale Haushalte, Wetter und Klima. Die für eine Lokalzeitung relevanten Daten liegen auf Ebene aller 10.706 deutschen Gemeinden, mindestens aber auf Ebene jedes der 412 Kreise und kreisfreien Städte vor. So ist eine Einordnung des Kreises Soest oder einer Stadt wie Lippstadt möglich. Umwelt-, Gewässer-, Klima- und Wetterdaten sind stationsbezogen. Um Entwicklungen nachzuzeichnen, stehen der Redaktion die verfügbaren historischen Daten teils bis Mitte des letzten Jahrhunderts zur Verfügung.


Daten im Fluss

Um Daten auf aktuellem Stand zu halten, werden die Quellen regelmäßig auf Updates gescannt und gegebenenfalls in die Datenbanken eingespielt. Dazu managen eigene Python-Scripte den Eingang, die Prüfung und den Fluss in die Datenbanken.


Einige Datenpakete sind so mächtig, dass sie selbst mit flotter Glasfaseranbindung eine Stunde und mehr benötigen. Wie zum Beispiel die Daten aus dem Marktstammdatenregister der Bundesnetzagentur zur Solar-, Wind-, Biogas oder Wasserenergieerzeugung, wenn es darum geht, die Balkonkraftwerke in Geseke oder Erwitte zu zählen und zu ergründen, ob Finanzspritzen aus den Rathäusern tatsächlich Wirkung gezeigt haben.


Daten im Fokus

Verlässliche Datenquellen zu finden, ist eine der zentralen Aufgaben im Datenjournalismus. So ist es unerlässlich, sich möglichst an die Basis, also die ersterfassten Daten zu begeben. Sobald solche Datenschätze interpretiert, gefiltert, sortiert oder gar zieloptimiert wurden, sind sie für Journalisten nahezu untauglich. Nicht immer sind Quellen homogen. Daten bereinigen und transformieren und gegebenenfalls Lücken zu interpolieren sind Grundwerkzeuge eines Datenjournalisten. Ein schnelles Tabellenblatt gerät hier schnell an seine Grenzen. Das Beherrschen einer Programmiersprache wie Python mit einer Programmbibliothek zur Verarbeitung, Analyse und Darstellung riesiger Datenstrukturen, gehört zum Standard.


Daten im Bild

Visualisierung – das ist mehr als nur die Aufhübschung der gefundenen Ergebnisse, sondern eher eine Übersetzung in eine für Menschen verständliche Sprache. Finale Daten können in Online-Visualisierungstools schnell einen guten Eindruck verschaffen, bevor die Mediengestalter ihnen den letzten Schliff geben.