Rob Kitchin: The Data Revolution

Daten sprechen nie für sich selbst, Open Data sind nicht so demokratisch wertvoll wie angenommen und Geschichte und Transformation einzelner Datensätze werden gemeinhin zu wenig beachtet.

Kaum eine Buchsorte alterte in den vergangenen Jahren schneller als Bücher über Daten. Eilige Propheten – in Österreich sogar alternde Radiomoderatoren – brachten in den vergangenen zehn Jahren Bücher auf den Markt, die Planbarkeit, Kontrollierbarkeit, Gerechtigkeit, Transparenz und Fortschritt versprachen.

In doch recht deutlichem Gegensatz dazu wundern wir uns heute noch über absurd schlechte Personalisierungsempfehlungen bei großen Onlinehändlern oder über merkwürdig schlechte Werbeplatzierungen in Onlinemedien und Social Networks.

Ein Grund für diese Differenz liegt in jenen Missverständnissen, die Rob Kitchin in “The Data Revolution”, einem großen Überblick über philosophisch relevante Themen rund um Big Data und Open Data, beschreibt.

Der zentrale Punkt ist die nach wie vor häufig anzutreffende Fehleinschätzung, das Daten für sich selbst sprächen. Diese Fehleinschätzung ist schon in einem missverständlichen Begriff begründet: Daten sind nicht etwas Gegebenes (wie es der Übersetzung aus dem Lateinischen entspräche); sie sind mit Beobachtungstechniken, Messskalen und Aufzeichnungswerkzeugen hergestellte Artefakte, die als Indizien für diverse Objekte gelten. Anstelle von Datum, zitiert Kitchin einige AutorInnen, sollte es also eigentlich Captum heißen. – Diese Einsicht hat sich noch nicht so schnell überholt; im Gegenteil, sie scheint sich eher auch noch hartnäckig zu halten. Insofern gehört Kitchins Buch zu den weniger schnell alternden Datentexten.

Die veränderte Perspektive auf den Kern von Daten wirft ein deutlich anderes Bild auf viele der mit Open Data und Big Data verknüpften Erwartungen. Daten ersetzen keine Theorien, weil sie entlang von Theorien gesammelt werden, sie machen Modelle nicht überflüssig, weil sie selbst in Datenmodellen strukturiert sind. Öffnet man sich auch der technischen Dimension von Daten (und bleibt nicht nur an der oberflächlichen sozial-politischen Ebene hängen), dann ist auch offensichtlich, wie streng Regelwerke und Richtlinien des Datenhandling sind und wie intensiv Schritte wie Normalisierung oder Standardisierung von Daten diskutiert, durchgesetzt und auch immer wieder geprobt oder aufgeführt werden, um sich ihrer eigenen Relevanz zu versichern. Die englische Formulierung “rehearsal” beschreibt diesen Prozess besser und erinnert an das Konzept der sociotechnical imaginaries, das in den Science & Technology Studies gern zelebriert wird.

Daten bringen uns also nicht näher an Objekte, sie ersetzen weder Objekte noch Theorien und Modelle, und sie haben für sich weder Information noch Wert. Die Hoffnungen auf nicht-reduktivistische Wissenschaft, die nicht mehr abstrahieren muss, auf umfassend informierte Entscheidungen und auf Entscheidungskriterien, die frei von menschlichen Vorurteilen sind, werden sich also eher nicht erfüllen.

Kitchin verweist vor allem auf Kontext und Transformationsgeschichte von Daten. Data Assemblages und Data Infrastructures sind die Ergebnisse, in deren Form Daten uns begegnen (also nie nur als reine, rohe Daten (ein Begriff, der DenkerInnen in der Linie von Kitchin, wie etwa Gitelman, als Oxymoron gilt), Data Lineages beschreiben die Prozesse und Entwicklungsschritte, die zu diesen Ergebnissen geführt haben. Data Lineages beginnen mit der Idee, bestimmte Daten zu sammeln gehen über deren Modellierung, Strukturierung, Aufbereitung, Analyse und Visualisierung bis hin zu Ableitungen, die sich aus den vorgeblich neutralen, unbehandelten, für sich selbst sprechenden Daten ergeben. Sabina Leonelli beschreibt ähnliches, aber mit noch stärkerem Fokus auf Wandlungen, Orts- und Systemwechsel und Interaktionen zwischen Daten, Datenarchivierung und Material (oder Objekt) als Data Journeys.

In Hinblick auf Big Data hat sich diese kritische Perspektive schon etwas umfassender etabliert. Kitchin bezieht allerdings auch Open Data gegenüber eine sehr kritische Position. Open Data, das große Transparenzversprechen, entpuppt sich in seiner Perspektive als Reproduktion von Interessen, Sichtweisen und Weltbildern – ja sogar als disziplinierendes Machtinstrument, das den anderen (also den UserInnen von Open Data) vorgibt, womit sie sich wie zu beschäftigen hätten. Dazu kommt noch die häufig mangelnde technisch-sachliche Qualität von Open Data: Viele Open Data Repositories sind bloße Ablagen, in denen Dateien ohne durchgängiges Konzept und Modell gelagert werden, in denen Verknüpfungs- und Weiterverarbeitungsmöglichkeiten stark eingeschränkt oder mit hohem Aufwand verbunden sind. Dazu fehlen wichtige Kontextinformationen – es scheint, als würden viele Open Data-Veröffentlichungen bereits mit der Bereitstellung von Dateien als abgeschlossen betrachtet. Die eigentliche Verwendung der Daten scheint bei deren Veröffentlichung allerdings nicht mitbedacht worden zu sein (Gerade bei Open Data ist es sicherlich auch Kern der Sache, dass die Verwendung und Weiterverarbeitung bei den UserInnen liegt – die Bereitstellung und schon die Erhebung von Daten entscheiden aber schon viel darüber, wie weit und wie sinnvoll Daten verwendet und weiterverarbeitet werden können).

Ähnliche Aspekte rund um Open Data habe ich auch beispielhaft in einer ersten Analyse der Daten des Lobbyingtransparenzregisters der Europäischen Union beschrieben (mehr Visualisierungen und Auswertungen dazu gibt es auf dataanalyst.at).

Kitchins Rundumschau ist eine Bestandsaufnahme von Problem- und potentiellen Analysefeldern. Einiges davon hat sich heute bereits als Problem etabliert, anderes bleibt neu. Die Bestandsaufnahme ist eine Art Katalog für künftige datenphilosophische Forschungen; als ein erstes mögliches Projekt schlägt Kitchin unter anderem eine Genealogie von Open Data vor; auch ethnographische Forschungen, die die praktische Arbeit in Data Science beobachten, hält er für sinnvoll. Diese Projekte zählt Kitchin allerdings nur schnell im Schlusswort seines Buches auf – auffällig ist, dass auch viel spätere Literatur noch nicht wesentlich weiter ist als bei der Aufzählung möglicher Forschungsfelder (die über ethische und politisch-soziale Implikationen hinausgehen).Insofern is Data Science für Wissenschaftsphilosophen wohl noch ein dankbares und ergiebiges Forschungsgebiet …