Datenbasis

Daten bringen bessere Entscheidungen. Daten sind präzise, Zahlen lügen nicht, Algorithmen sind unbeirrt, Modelle bringen Unsichtbares zum Vorschein. Data Scientists, Analysts, Engineers und Big Data-Trittbrettfahrer sind sich dabei einig. 

Daten versprechen faktenbasierte, von Meinungen und Stimmungsschwankungen unberührte und von persönlichen Vorlieben und eingeschränkten Standpunkten befreite Entscheidungen.

Das setzt einiges voraus. 

Erstens impliziert diese Überzeugung eine normative Macht von Daten. Was die Daten sagen, das soll geschehen – denn sonst würde eine andere Instanz als die Daten selbst entscheiden, welcher Entscheidungsempfehlung nun wirklich gefolgt werden soll. 

Zweitens schließt diese Perspektive ein, dass Entscheidungen nirgendwo anders getroffen werden. Daten und deren Analyse führen entscheidungs- und alternativlos zu einem Ergebnis. Im Zuge dieses Prozesses ist bei jedem Schritt klar, was geschehen soll; Alternativen und Unklarheiten sind ausgeschlossen. Zur Entscheidung stehen nur die letzten und großen Fragen an, der Rest ist eindeutig. 

Drittens impliziert diese Perspektive, dass Entscheidungen getroffen werden – es gibt also Optionen und offene Punkte. Dabei wiederum können Konflikte mit der ersten Voraussetzung entstehen, wenn diese im Sinne eines strengen Determinismus interpretiert wird.

Die erste Voraussetzung mag Verhandlungssache sein, man kann das vereinbaren – auch wenn so gegensätzliche Welten wie Science Fiction-Ängste und europäische Grundrechte dagegen sprechen. Die Angst vor Robotern und künstlichen Intelligenzen trägt seit Jahrzehnten ganze Science Fiction Genres. Und die europäische Datenschutzgrundverordnung etwa sieht vor, das Menschen nicht zum Gegenstand rein automatisierter Entscheidungen werden dürfen. 

Die zweite Voraussetzung erinnert streckenweise an Lehrbuchdefinitionen von Algorithmen. Auch dort ist Eindeutigkeit zentrales Kriterium. Dennoch ist die umso zweifelhafter. In jeden einzelnen Schritt von Data Science und Data Analysis-Prozessen sind Entscheidungen notwendig, schließlich geschehen 80 Prozent jedes Datenprozesses noch lange bevor erste Algorithmen überhaupt konzipiert sind. Auch dabei sind sich Data Scientists und Analysts einig. 

Die dritte Voraussetzung lässt vermuten, dass nicht jeder Entscheidungsprozess so eindeutig und geradlinig verläuft, wie es für die ersten beiden Voraussetzungen notwendig wäre. Damit spielen Fragen der System- und Prozessabgrenzung eine Rolle: Welche Zusammenhänge werden betrachtet, welche können vernachlässigt werden? Welche Faktoren gelten als Einflüsse, welche als Folgen oder Handlungsoptionen? Auch dieses Bild nämlich kann wechseln.

Eine erste Entscheidung ist die Fragestellung an sich: Welches Problem soll analysiert werden, welche Fragestellungen sollen deutlich werden? Die Wahl des Datenerhebungs- oder beobachtungszeitraums sowie der eigentlich beobachteten oder gemessenen Gegenstände oder Prozesse sind weitere Entscheidungen. 

Methoden, Techniken, Werkzeuge, Speichermittel und -methoden sind ebenfalls Felder, die zu entscheidende Optionen aufwerfen. Messgrößen, Skalen, Kalibrierungen, Einheiten, Grenz- und Schwellwerte müssen auch festgelegt werden, bevor Analysen näher konzipiert werden. Und all diese Detailentscheidungen sind erst Zutaten, bevor darüber entschieden werden kann welche Berechnungs- und Auswertungsmethoden eingesetzt werden sollen. Bei keiner dieser Entscheidungen sind Alternativen zwingend entweder richtig oder falsch – es sind jeweils mehrere Optionen möglich. 

Es sei denn, Analysten kämen zu der Entscheidung, dass keine Optionen zulässig sind. Auch das ist möglich – etwa wenn Konsistenz zu Analysen aus der Vergangenheit gewährleistet sein muss; in der Praxis spielen regulatorische Vorgaben auch oft eine Rolle. Die Bandbreite dabei reicht von Handlungsvorgaben, die sich auf Berichte auswirken (wie es etwa in der Finanzbranche bei Risikobewertungen und Analysen üblich ist), bis zu pragmatisch banalen Vorschriften wie der Einigung auf gemeinsame Terminologien und Kennzahlen (etwa im Fall von Mediadatenreportings in der Verlagsbranche).

Wenn also eine Vielzahl an Entscheidungen notwendig sind, bevor Daten Entscheidungen treffen, denen zu folgen wir uns entschieden haben – wo finden dann diese Entscheidungen statt, die zu verbessern Data Science verspricht? Diese Frage wird in vielen Analysen zu Data Science in vielen Wissensdisziplinen ausgeblendet. 

Data Scientists betonen regelmäßigen hartnäckig die Notwendigkeit und Relevanz solider Datenvorbereitung. Sie bestehen auf der Wichtigkeit von konkretem Fachwissen. Sie beschwören Kontext als entscheidenden Indikator für berechnete Ergebnisse. Während der mathematisch-statistische Teil von Analysen klar geregelt ist, gelehrt und dokumentiert wird, und entgegen dieser Beteuerungen in Ausbildung, Job und Gehaltsverteilung den Löwenanteil von Data Science ausmacht, sind die so sehr betonten Soft Skills in der Analyse und Lehre von Data Science unverhältnismäßig unscharf gefasst. 

Fachwissen, Kontext, Zielsetzungen mischen sich auf eher unklare Art und Weise in Data Science Projekte. Sie sind relevante Aspekte – aber sie sind weder gut abgegrenzt noch als Probleme oder Fragestellungen scharf umrissen.  Liegt in der Klärung dieser Fragestellungen auch die Antworten auf die Fragen, wo über die besseren Entscheidungen in Data Science entschieden wird? 

Ich denke, die Frage lässt sich nicht konkret diskutieren ohne über grundlegende Technologiekonzepte zu sprechen. 

Die theoretisch-philosophische Auseinandersetzung mit Technologie kennt sehr unterschiedliche Ausprägungen. 

Deterministisch-fatalistische Konzepte sehen in Technologie den stärksten Treiber: Technologie prägt und dominiert Gesellschaft, technische Entwicklung sind unvermeidbare Konsequenzen und können durch soziale oder menschliche Entscheidungen nur geringfügig beeinflusst werden. Solche Perspektiven können dystopische und utopische Zukunftsszenarien sein, in denen Roboter, KI oder Überwachungstechnologie über die Menschen herrschen. Historisch-deterministische Auffassungen, die materielle Umstände für prägend halten, fallen ebenfalls in diese Kategorie – damit sind auch marxistische Gesellschaftsauffassungen, die die Verteilung materiell-techologischer Infrastrukturen wie Produktionsmittel für prägend halten, deterministisch-fatalistisch. 

Demgegenüber stehen antideterministische Konzepte, die Technologie als Ergebnis sozialer Handlungen verstehen. Technologie ist dabei kein treibender Akteur, sondern Ergebnis gesellschaftlicher Entwicklungen und Entscheidungen, Technologie ist in dieser Perspektive Mittel zum Zweck. Reine und eindeutige Ausprägungen sind selbstverständlich selten. Und so mischen andere Perspektiven Elemente aus beiden Konzepten und sehen Technologie weder als dominierende Instanz noch als bloßes Ergebnis sozialer Entscheidungen, aber als prägenden Akteur, der seinerseits durchaus Entwicklungen und Entscheidungen in Gang setzen kann, das aber nicht selbstständig tut. Berühmtes und pragmatisches Beispiel dafür ist Langdon Winners Perspektive auf Technologie, die Folgen zeitigt – allerdings über Artefakte, die Menschen in sozialen Prozessen geschaffen haben. Technische Verhältnisse können soziale Entwicklungen prägen – Winner illustrierte das mit dem Beispiel der Brücken zwischen New York und Long Island, die lange Zeit zu niedrig waren, um Busverkehr zu erlauben. Nach Long Island kam also nur, wer ein eigenes Auto hatte – und so wurde Long Island, nach Winner, zur begehrten Nobelgegend. 

Das ist eine, so kurz gefasst, hemdsärmelige Perspektive, die soziale Folgen von Technologie transparent macht, aber auch erkennen lässt, dass Technologie kein unabhängiger Akteur ist. Technologie wirkt über Artefakte, die ihrerseits wieder Ergebnis sozialer Entscheidungen sind. 

Eine andere Perspektive auf Technologie, sogar generell auf Artefakte als Akteure, möchte die Trennung von Sozialem und Natürlichem, von Natur und Kultur gleich überspringen. Bruno Latour stellt diese Trennung, auf die seiner Einschätzung die Moderne schlechthin beruht, infrage. Natur und Kultur, Technik und Gesellschaft sind in Handlungen, Prozessen und Artefakten so stark verwoben, dass sie nicht sinnvoll als getrennte Konzepte betrachtet werden können. 

Dinge können ebenso Akteure sein wie Menschen, umgekehrt wirken Menschen in und durch Dinge und beziehen Dinge umgekehrt ihre Wirkungskraft aus Menschen und deren Regeln – da lässt sich keine sinnvolle Trennlinie mehr ziehen. Berühmt sind Latours Analysen zur Soziologie des Türschließers, der nicht nur ein technisches Ding ist, sondern Regeln, Wünsche und Erwartungen verkörpert und damit auch soziale Realitäten schafft, oder zur Soziologie von Bodenschwellen, die aus Beton, Gesetzen und Polizisten gemacht sind.

Abhängig von der Perspektive auf Technologie ist auch die Frage, wo und von wem in technischen Prozessen Entscheidungen getroffen werden, sehr unterschiedlich einzuschätzen. 

In der deterministischen Perspektive sind Entscheidungen weder notwendig noch möglich. Prozesse sind in Gang gesetzt und führen gemäß ihrer Regeln zu Ergebnissen. Diskussionsbedarf gibt es lediglich rund um die Frage, wo und wie technische Prozesse in Gang gesetzt werden. Kann das streng genommen jemals möglich sein? Dürfte es nicht, in einer stringent deterministischen Perspektive, nur einen einzigen technischen Prozess geben, der sich eben immer weiter verzweigt?

In antideterministischen Konzeptionen dagegen sind laufend Entscheidungen notwendig. Nichts geschieht von selbst, Wahlfreiheit ist immer gegeben. Eine Mischform könnte sozialer Determinismus sein, der soziale Abläufe als zwingend, ihre Umgebung aber als kontingent betrachtet – auch dann aber sind Entscheidungen notwendig.

Mischformen wie Winner sie skizziert, lenken die Aufmerksamkeit auf wechselnde Abhängigkeiten zwischen Technik und Sozialem, Kultur und Natur. Netzwerktheorien wie bei Latour lassen Grenzen überhaupt verschwinden. Damit ist auch die Richtung und Gewichtung von Einflüssen schwer feststellbar: Wenn es in dichten Aktor-Netzwerken Entscheidungen gibt – wer trifft diese? Wer wirkt auf wen? Geschehen Entwicklungen als eigendynamische Prozesse oder werden sie von jemand oder etwas vorangetrieben? Welchen Einfluss haben Gestaltung und Konzeption des Netzwerkes, also die Frage, was in welchem Zusammenhang Teil des Netzwerks ist und was nicht?

Verlangt diese Auffassung letztlich einen universellen Einheitsprozess wie die streng deterministische Konzeption, in der Technologie alles eigengesetzlich regelt? Allerdings kann es mehrere Netzwerke geben, deren Relevanz kann situationsabhängig wechseln. Das eröffnet wiederum Spielraum für Entscheidungen.

Was lassen diese Technologiekonzepte über das Entscheidungsproblem in Data Science erkennen?

Funktioniert die Auffassung von besseren und automatisierten Entscheidungen nur in deterministischen Technologiekonzepten? Wenn das so wäre, wozu bräuchten wir dann überhaupt Data Science? Der Technologieprozess nimmt ohnehin seinen Lauf.

Können in antideterministischen Konzepten Entscheidungen unabhängig getroffen werden? Gibt es hier nicht letztlich immer einen weiteren Grund, dessen Relevanz geltend gemacht werden kann?

Inwiefern lassen Netzwerkkonzepte noch ausreichend Eindeutigkeit zu, um Entscheidungen, Endgültigkeit und Urteile über Qualität (also über bessere und schlechtere Entscheidungen) zuzulassen?

Und wie weit sind solche Fragestellungen für praktische Data Science-Prozesse relevant?

Die Vielfalt möglicher Perspektiven kann zur Kenntnis genommen werden  – das wäre bereits ein Verzicht auf den Anspruch, bessere und unabhängige Entscheidungen zu ermöglichen. Denn bei einer gleichberechtigten Vielfalt von Optionen wäre zuallererst eine Entscheidung zwischen Optionen notwendig. Erst nach dieser Entscheidung, die außerhalb des Data Science-Prozesses stattfindet, könnten die Entscheidungen des Data Science-Prozesses angestoßen werden.

Eine andere Option zum Umgang mit dieser Puralität ist die Entwicklung oder Adaption eines Technologiebegriffs, der dieser Situation gerecht wird.Das funktioniert nicht ohne einige Data Science-Szenarien näher zu betrachten, um einen solchen Technologiebegriff dann auch in konkreten Anwendungen beobachten zu können.

Das ist eine andere Geschichte.

Für jetzt muss eine Vermutung ausreichen: Behauptungen über Eindeutigkeit und Entscheidungsqualität von Data Science werden umso leichter und entschlossener aufgestellt, je weiter Fachwissen einerseits und die konkrete Überprüfbarkeit der getroffenen Entscheidungen andererseits entfernt sind. Unsaubere Praxis dagegen wirft Fragen auf, die wieder Entscheidungen notwendig machen.