John D. Kelleher, Brendan Tierney: Data Science

There is no such thing as raw data.

Data Science ist Handwerk. Und wie bei den meisten handwerklichen Tätigkeiten fließt der meiste – und am wenigsten beachtete – Aufwand in die Vorbereitung. Ohne saubere Schnittstellen im Material kann nicht ordentlich geschweißt werden, Anstriche auf der falschen Grundierung halten nicht und ohne ausreichend gesammelte, vorbereitete und aufbereitete Daten führen auch die fortgeschrittenste Mathematik oder erprobte Algorithmen nicht zu nennenswerten Ergebnissen. Das ist eine der Kernaussagen von John Kellehers und Brendan Tierneys Grundlagentext zu Data Science.

Ein entscheidender Faktor für gelingende oder scheiternde Data Science Projekte steht also ganz am Anfang, ein anderer steht am Ende: Die Integration in relevante Prozesse ist, wie in vielen Fällen technisch-organisatorisch-inhaltlicher Projekte, ausschlaggebend dafür, ob Ergebnisse als sinnvoll empfunden werden. Leisten sie das nicht, dann gelten die trotz aller technischen Finesse schnell als fehlgeschlagene Zeitverschwendung.

In Hinblick auf eine kritische Auseinandersetzung mit Data Science und mit anderen mit Daten verknüpften Verheißungen, wie sie etwa Open Data bietet, zeigen sich Kelleher und Tierney als Skeptiker. Data Science könne viele Antworten liefern, allerdings sei es sehr leicht und wahrscheinlich, die falschen Fragen zu stellen. Data Science, Analyse und Statistik müssen von fachspezifischem Knowhow begleitet werden, um sinnvolle Ergebnisse zu liefern.
Die laufend – in mehreren Iterationen – notwendige Kontextualisierung von Daten ist ein wesentliches Element diverser Hierarchie-Pyramiden, mit denen Kelleher und Tierney Data Science-Prozesse beschreiben. In der DIKW (Data-Information-Knowledge-Wisdom)-Pyramide stehen Daten als Abstraktionen auf der untersten Stufe, ihnen folgt Information. Beim Schritt von Daten zu Information wurden Daten verarbeitet, strukturiert und kontextualisiert, um für Menschen verständlich zu sein. Information wird zu Wissen, indem Information interpretiert und verstanden wird und Handlungsgrundlage werden kann. Wissen schließlich wird zu Weisheit, also zum angemessenen Handeln aufgrund von Wissen. Diese Hierarchie macht deutlich, wie weit eine pragmatische, kontextorientierte und auf Handlungen und Wirkung abzielende Perspektive relevant ist, um Sinn aus Daten zu stiften. Das ist schlüssig. Allerdings fehlt in der Darstellung von Kelleher und Tierney jeder Hinweis auf einen möglichen Bezug zu Objekten, Realität oder anderen Begriffen, mit denen sich Sphären außerhalb von Daten beschreiben lassen. Es wäre also egal, ob Information und Wissen wahr oder auch nur wahrheitstauglich sind; sie können trotzdem die Stufe der Weisheit erreichen. Philosophen wie Luciano Floridi melden dagegen Einspruch an; für Floridi müssen Daten als Information zumindest so wahr sein, wie eine Landkarte wahr ist. “Adäquates Handeln auf der Basis von Wissen”, so definieren Kelleher und Tierney Weisheit, ist kein Gegensatz dazu; allerdings bringt die Formulierung einige Probleme rund um Fragen der Adäquatheit mit sich.

Adäquatheit muss allerdings keine direkt eindeutige Relation sein; Adäquatheit wie Kelleher und Tierney sie im Data Science-Kontext beschreiben, kann auch als Viabilität funktionieren, wie Glasersfeld sie als Qualitätskriterium für Begriffe und Annahmen im radikalen Konstruktivismus beschreibt. Ein Indiz dafür ist die Betonung experimenteller Ansätze und der Iteration, die Kelleher und Tierney häufig wiederholen. Unterschiedliche Settings oder die Anwendung unterschiedlicher Algorithmen liefern unterschiedliche Ergebnisse – es liegt an der Anwendung, am Kontext und an der Einschätzung des Experten, welche davon angemessen sind. Mehrfache Iterationen machen die Entscheidungen dabei besser.

Daten sind also Material, aus dem Information gewonnen werden kann. Weder in der Sammlung von Daten noch in deren Weiterverarbeitung lässt sich allerdings ein den Prozess beeinflussender Bias vermeiden. Damit wenden sich Kelleher und Tierney gegen die Vorstellung einer neutralen und ausschließlich sachlich vorgehenden Data Science. Sie gewinnen der Vorstellung einer modellfrei und hypothesenlos forschenden Wissenschaft nichts ab; jede Datensammlung folgt einem Modell und jede Interpretation einer Hypothese. Sie wenden sich allerdings auch gegen die Vorstellung einer diesen Bias gezielt eliminierenden Data Science oder gegen den Einwand Bias sei immer sozial und politisch geprägt und könne so auch aufgelöst werden. Ohne Bias – der Entscheidungen in eine bestimmte Richtung treibt – lernen Maschinen im Machine Learning nichts, sie können keine Entscheidungen treffen, sondern nur Daten memorieren. Es liegt an Data Scientists, den jeweils aktuellen Bias und dessen Konsequenzen erkennen und einschätzen zu können – im übrigen ein Task, der nur noch wenig mit Informatik und Mathematik zu tun hat.

Einen anderen problematischen Begriff verwenden Kelleher und Tierney ebenfalls nur mit Einschränkungen – lassen dabei aber meines Erachtens noch zu viel Spielraum: Sie beschreiben Daten als Rohmaterial und verwenden öfter den Begriff “roh” im Zusammenhang mit Daten, auch wenn sie dabei zugleich stets einschränken, dass Daten gewonnen werden, sei es durch Abstraktion, durch Kategorisierung oder durch Beobachtung nach einem gewissen Schema. Daten sind immer schon verarbeitetes Material, sie sind niemals roh. “Raw Data is an Oxymoron”, beschreibt es Lisa Gitelman; Luciano Floridi experimentiert mit Begriffen wie Capta oder Relata, um mit dem Nimbus des Ursprünglichen, Unverfälschten von Daten aufzuräumen. Kelleher und Tierney vertreten keineswegs die Einstellung, Daten wären unverfälschtes Rohmaterial. Sie machen das meines Erachtens allerdings wenig deutlich. Menschen, die Entscheidungen gern Daten und Fakten überlassen möchten, die in der Politik nach Evidenz rufen oder soziale Fragen “mit Wissenschaft” entscheiden möchten, werden in Kellehers und Tierneys Formulierungen keinen Widerstand finden.

Das zeigt, wie wichtig zusätzlich zum fachlich-technischen Knowhow weitere Perspektiven in der Einschätzung Data Science-relevanter Fragen sind. Ein neues und wohl noch zukunftsträchtiges Konzept dazu bietet Sabina Leonelli mit data journeys, einer Perspektive, die vor allem Augenmerk auf die Geschichte, Entstehung, Verwendung und Veränderung von Daten legt und sich von Rob Kitchins data assemblages dadurch unterscheidet, dass die mehrfache Nutzung und Veränderung von Daten besser abgebildet werden kann.