Daten und die Bias-Banalität

Daten und die Bias-Banalität

Es ist ein merkwürdiges Missverständnis, in Daten und Technik neutrale Konzepte mit einem besonderen Naheverhältnis zur Realität zu vermuten.

Wenn Daten und Algorithmen Menschen Entscheidungen abnehmen, dann klingt das verlockend. Es klang verlockend, muss man eigentlich sagen. Denn mittlerweile gehört Zweifel an der neutral-mechanischen Entscheidungsqualität technischer Prozesse zum guten Ton. In der europäischen Datenschutzgrundverordnung ist sogar ausdrücklich verankert, dass relevante Entscheidungen über Menschen nicht ausschließlich von Maschinen getroffen werden dürfen.

Die Entscheidungsqualität wird angezweifelt, weil auch Daten und algorithmische Prozesse perspektivischen Verzerrungen unterworfen sind. 

Daten bilden Realität ab, aber Realität ist immer auch jemandes Realität – das ist die einfache Fassung des Bias-Problems, das in nahezu jeder Diskussion zu Data Science und Big Data Erwähnung findet. Diese einfachen Fassungen des Problems lassen vermuten, dass das Bias-Problem auf die eine oder andere Art und Weise gelöst werden könnte. Man müsse nur richtig hinsehen, die richtigen Prioritäten setzen und die eigenen Erwartungen kritisch hinterfragen.

Dem ist entgegenzuhalten, dass nicht nur Realität immer auch jemandes Realität ist, auch die Abbildung von Realität ist immer jemandes Abbildung. Das setzt sich fort, den letztlich ist auch der festgestellte Bias jemandes Bias – und die Feststellung ist jemandes Feststellung. Ist es also nicht möglich, hinter (oder vor) den Bias zu kommen? Welcher Umgang mit der Bias-Diagnose ist dann sinnvoll? Reicht es etwa schon, um die generelle Problematik bescheid zu wissen, muss sie gar nicht gelöst werden? 

Damit schließt die Bias-Diagnose rund um Data Science und Big Data immer auch einen guten Anteil Banalität ein.

Daten sind immer jemandes Daten, Bias ist jemandes Bias
und auch Kritik daran ist immer jemandes Kritik

Alles ist Bias: In Algorithmen abgebildete Vorurteile sind Bias, der Versuch, Vorurteile bei der Wahl der Datenquellen zu umgehen, ist Bias. Die Betonung der eigenen Perspektive ist Bias, der Versuch, Privilegien auszugleichen, ist Bias. Bias nicht zu betonen ist Bias, die Kritik an Bias ist ebenfalls Bias. 

Müssen sich Analysten und Data Engineers damit zufriedengeben? Ist die Feststellung von Bias schon der zumindest vorläufige Endpunkt, der entweder hinzunehmen ist oder auf die Unzulänglichkeit vermeintlich neutraler Analysen hinweist?

Die Allgegenwart von Bias ist nicht von der Hand zu weisen. Die Relevanz von Bias ist ebenfalls offensichtlich. Beide Selbstverständlichkeiten sind keine gute Ausgangslage, um das Bias-Problem produktiv zu analysieren und zu kritisieren. 

Eine andere Möglichkeit der Fragestellung legt das Augenmerk darauf, warum Bias insbesondere in Datenfragen besonders relevant sein soll.

Gibt es so etwas wie Abbildung? Oder eher mehr neue Bilder …

Daten sind Technologie, Daten sind Stellvertreter, die etwas abbilden, Daten wird eine Sonderstellung in Hinblick auf Klarheit, Präzision und Direktheit nachgesagt. Zahlreiche wissenschaftsphilosophische Konzepte, die sich mit Abbildung, (Re)Präsentation, und auch Technologie beschäftigen, betonen die produktiven und gestalterischen Aspekte dieser Prozesse.

Modellbildung ist keine nachbildende Abbildung, sondern ein kreativer Prozess, der eine Fülle von Entscheidungen voraussetzt und bedingt, die ihrerseits dann wieder die nächsten Entscheidungsschritte bedingen und zugleich einschränken und ermöglichen. Das lesen wir zum Beispiel bei Michael Lynch. Repräsentation gibt es eigentlich nicht, schon gar nicht über Modelle, Daten und Theorien, es gibt nur Präsentation. Jede vermeintliche Abbildung ist also auch Gestaltung – das lesen wir bei Lorraine Daston. Modelle, seien es Metaphern, physisch-technische Modelle, mathematische Modelle, Analogien oder Datenmodelle, setzen eine ganz bestimmte Perspektive auf den modellierten Sachverhalt voraus und prägen und bedingen ebensolche Perspektiven.

Dieser aktive Part von Technik, Technologie, Repräsentation und Modellierung wird in jenen Konzepten, die Bias als Schwäche und Manko betonen, als Defizit gesehen. Die Defizitperspektive stellt in den Raum, dass es auch möglich sein müsste, dieses Defizit zu beheben. Schließlich setzt die Diagnose eines Defizits eine unberührte Idealsituation voraus – diese ist also (zumindest als Konzept, wenn schon nicht als Erfahrungswert) bekannt. Also sollte es auch Mittel und Wege geben, sich ihr anzunähern; zumindest kann festgestellt werden, ob sich die defizitäre Entfernung zum Ideal durch die eine oder andere Biasbehandlung vergrößert oder reduziert hat. Es gibt also, so scheint es in dieser Perspektive, einen unverfälschten Idealzustand, eine Technik, die diesen abbilden oder operationalisieren kann, Hürden und Probleme auf dem Weg zur oder in der Anwendung der nicht verfälschenden Technik und schließlich einen Standpunkt, von dem aus Abweichungen, Probleme, Defizit – also eben der problematische Bias diagnostiziert werden kann.

»Wenn wir nur
endlich rational wären …«

Diese Problemsituation erinnert an David Bloors Strong Programme einer Soziologie des Wissens und der Wissenschaft. Bloor entlarvt in seinem Konzept die Vorstellung von einer entlang der Realität handelnden und erkennenden Rationalität als normatives Konzept. Er kritisiert die Idee, dass rationales Handeln zur Wahrheit führe, aber von diversen im weitesten Sinne irrationalen Einflüssen irritiert werde. Zu diesen Einflüssen gehört Aberglaube ebenso wie Einkommen oder soziale Stellung, der aktuelle Stand des Wissens gehört ebenso dazu wie religiös bedingte Tabus. Das sind veränderliche Größen, die Idealrationalität dagegen ist ein unveränderliches Leitbild, das von diesen schädlichen Verfälschungen befreit werden muss. Wenn erst alle Einflüsse entfernt sind und Rationalität ungehindert agiert, dann stehen Erkenntnis und Wahrheit nichts mehr im Weg.

Bloors Kritik setzt an der Fragestellung an, wie denn äußere Einflüsse von inneren Grundzügen getrennt werden können. Daran schließt die Frage an, wie schädliche von förderlichen Einflüssen unterschieden werden können. Und das schließlich wirft die Frage auf, woher das Wissen über das unverfälschzte Ideal der Rationalität kommt und wie wir feststellen, dass wir jetzt an der richtigen Stelle sind. 

Bloor plädiert – vereinfacht – für eine vernetzte Perspektive auf Wissen, WIssenschaft, Rationalität und Einflüsse, die sich nicht der Illusion von Abgrenzungen hingibt. 

Welche Rolle könnte in einem solchen Szenario der im Datendunstkreis kritisierte Bias einnehmen? 

Bias entspricht einem der störenden Einflüsse, die den direkten Zugang zur unverfälschten Rationalität, zum technoneutralen Algorithmus verstellen. 

Wenn nun Bias ebenso nicht verfälschendes Element einer Perspektive, nicht störender Irrtum ist, sondern Teil der betrachteten, eigentlich jeder Technologie? 

Wie verschiebt sich das Bild, wenn wir Bias als integralen Bestandteil von Technik, Daten und Algorithmen betrachten? 

Technik wird damit zu Gestaltung und zum Machtinstrument – wobei auch in dieser Diagnose schon wertende Argumente, also letztlich Bias, wirken.

Keine Daten ohne Zweck

Daten und Datenanalyse sind Anwendungen vermeintlich neutraler Technologie, die durch unterschiedliche Anwendungsweisen dem Risiko der Verfälschung ausgesetzt sind. Was wären Daten und Analyse allerdings ohne ihre Anwendung? Wie könnten wir uns – ohne Anwendung – ein Bild von ihnen machen? Wo, ähnlich wie bei Bloors Problem, ließe sich eine Trennlinie zwischen Technik und Anwendung festmachen? 

Dieses wiederkehrende Abgrenzungsproblem lässt erkennen, dass andere Technikbegriffe nützlich sein können, solche, die Anwendung einschließen und Technologie nicht als abgegrenzten unberührbaren Bereich darstellen, der von Menschen unabhängig agiert.

Zwischen extremen Konzepten, die Technik als determinierende Kraft begreifen oder Technik als neutrales Ideal beschreiben zeichnen sich instrumentalistische  und pragmatistische Konzepte als nützliche Alternativen ab. Diese beziehen gestalterische und produktive Komponenten mit ein und entwickeln Begriffe auf Ziele und Zwecke hin, die auch immer nur temporäre, aktuell absehbare Ziele und Zwecke sind, mit den Begriffen John Deweys: ends-in-view.

Deweys Instrumentalismus wurde in der Analyse von Larry Hickman zur einem der produktivsten Technologiekonzepte, gerade auch in Hinblick auf die mögliche Anwendung auf Datenthemen. Dewey selbst spricht gelegentlich Daten als Gegenstand von Technik an, ohne vorhersehen zu können, welche weiteren Bedeutungen seine Analysen im Rückblick bekommen konnten.

Programmieren als
Gestaltung von Welten

Gerade in der Analyse digitaler Technik, der Grundlage der Arbeit mit Daten, erscheint es praktisch unmöglich, Technik, Anwendung und Ziele zu trennen. Digitalen Technikern scheint diese Trennung auch weniger plausibel zu sein Maschinenbauern oder Physikern, die noch öfter auf unabhängige, neutrale, und vom Einsatz des Menschen abhängige Technik pochen, auch wenn diese Technik den Menschen insofern beherrscht als sie wirkt, ohne von allen Menschen verstanden zu werden. Einige allerdings haben sie geschaffen – um einen Zweck zu verfolgen. 

Im Gegensatz dazu liegt digitalen Technikern die produktive gestalterische Komponente ihrer Technik um einiges näher. Bjarne Stroustroup etwa, Erfinder der Programmiersprache C++, beschreibt ganz selbstverständlich, dass Programmierer Welt gestalten. Programmieren sei keine Aneinanderreihung von Codes, sondern das Gestalten von Abläufen in der Welt, das vor allem voraussetze, dass die Problemstellungen, die die Gestaltung dieser Abläufe notwendig machen, erst verstanden werden – das wiederum setzt voraus, dass ein Zweck im Blick behalten wird. Wir sind also mitten in einem höchst pragmatischen und instrumentalistischen Szenario, das die Idee, Technik könne unabhängig von diesem konkreten Kontext existieren, überaus fragwürdig erscheinen lässt.

Wie verträgt sich diese Diagnose mit entgegengesetzten Konzepten auch aus dem Bereich der digitalen Technologie, wie wir sie aus der theoretischen Informatik kennen? Theoretische Informatik beschäftigt sich mit verschiedenen Formen von Logik und logischem Kalkül und betont die Abgrenzung von jeglicher kontingenten Bedingungen setzenden Außenwelt. Logik beschäftigt sich mit den Regeln des korrekten Schließens. Logik urteilt nicht darüber, in welchen Fällen diese Regeln auf die richtigen Fragestellungen angewendet werden. Das zeigt sich einerseits an der Frage, wie die Prämissen der Aussagenlogik überprüfbar sind, noch deutlicher aber im Kalkül der Prädikatenlogik, in dem das gesamte Universum, für das das Kalkül gültig sein soll, konkret definiert werden muss. 

Das bedeutet: Logik formuliert abstrakte Wahrheitsbedingungen, keine konkreten Wahrheitskriterien. Die Wahrheitsbedingungen nehmen keinen Bezug auf aktuelle, kontingente oder akute Umgebungsbedingungen – aber sie machen nur in sehr konkreten und spezifischen Situationen Sinn. Über andere Situationen sagen sie nichts aus.

Das, in Verbindung mit einem pragmatischen Technikkonzept, liefert meines Erachtens Hinweise auf Auswege aus dem Bias-Dilemma. Wird dadurch die Neutralität von Daten und technischen Abläufen wiederhergestellt? Ich denke nicht. 

Ich denke, wir werden eher bei der überraschten Feststellung landen, dass neutrale Technik und unverfälschte Daten ein verlockender, aber letztlich sehr merkwürdiger Irrtum sind. Der Weg dorthin ist allerdings eine andere und etwas längere Geschichte.

Michael Hafner

Michael Hafner

Datenanalyst, Wissenschaftshistoriker, Technologiephilosoph

Zufallsempfehlungen

Zygmunt Bauman, Wieder allein

Allein sein ist nichts Schlechtes. Man muss nur bereit sein, sich zu bewegen Verantwortung zu übernehmen und für sich selbst zu sprechen – dann kann immer noch so etwas wie Ethik existieren.

Publishingmodelle #2: unbound

Unbound.co.uk ist eine themenbezogene, recht klassisch angelegte Crowdsourcing-Plattform für Bücher mit angeschlossenem Verlag. Autoren pitchen Projekte, Förderer schiessen verschiedene Beträge zu und bekommen verschiedene Goodies,

Case: Reportagen

Ein bisschen oldschool und großteils aus der Zeit, bevor das Content hiess: ein paar ausgewählte Reportagen für Printpublikationen. Was heute Contentstrategie und Storytelling heisst, war

Sonst noch neu

Don Ihde: Technology and the Lifeworld

Technik, Technologie und Wissenschaft sind Teil einer Lebenswelt und keine unabhängigen Monolithen, die neben Natur, Kultur und Gesellschaft stehen. Vor 40 Jahren war diese These neu.

Daten lösen keine Probleme

Die Idee, mit Daten Probleme lösen zu wollen, ist etwa so absurd wie die Vorstellung, Problemen und Folgen des Klimawandels sei mit der Erfindung des Thermometers bereits ausreichend begegnet.

Datenwirksamkeit und Magie

Daten können viel bewirken, aber sie wirken nicht von allein. Sie müssen in Prozesse und Organisationen übergehen – auch wenn das manchen als unwürdige Entzauberung erscheint.

Jenseits von Analytics

Zeitgemäße Analytics-Tools bieten mehr und setzen mehr voraus, als viele digitalisierende Unternehmen können.

Datenbasis

Data Science hilft zu besseren Entscheidungen, verspricht die Daten-Branche. Aber wo hören Daten auf, wo fangen Entscheidungen an?