Nicht im Datensatz, nicht in der Welt.
Daten gelten als das neue Gold. In Wissenschaft, Wirtschaft und Politik prägen sie unsere Entscheidungen, Erkenntnisse und Zukunftsvisionen. Doch was passiert, wenn Daten fehlen? Wenn bestimmte Gruppen nicht erfasst werden, wenn Lücken entstehen, die in Analysen übersehen werden? Datenlücken sind keineswegs nur ein quantitatives Problem. Sie haben tiefgreifende gesellschaftliche, politische und ethische Folgen. In der Forschung wie auch in der Künstlichen Intelligenz (KI) können diese Lücken dazu führen, dass ganze Lebensrealitäten übersehen, Diskriminierung verstärkt und Entscheidungen verfälscht werden.
Wenn Daten fehlen
Datenlücken entstehen nicht zufällig. Sie sind oft ein Resultat historischer Ausschlüsse, methodischer Entscheidungen oder ökonomischer Priorisierungen. In der medizinischen Forschung etwa wurde jahrzehntelang hauptsächlich an männlichen Probanden geforscht mit dem Ergebnis, dass Symptome bei Frauen (z. B. beim Herzinfarkt) lange unzureichend verstanden wurden. Auch im Bereich der Sozialforschung zeigen sich blinde Flecken: Bevölkerungsgruppen wie wohnungslose Menschen oder Menschen mit kognitiven Einschränkungen werden in vielen Studien nicht berücksichtigt. In der Praxis können diese fehlenden Daten verzerrte Ergebnisse in Forschung und Statistiken bedeuten, die Fehlentwicklungen in KI-Systemen begünstigen und evidenzbasierte Entscheidungen erschweren.
Künstliche Intelligenz
Im Bereich der KI sind Datenlücken besonders problematisch, da Maschinen nicht „wissen“, was sie nicht wissen. Algorithmen lernen auf Basis von Trainingsdaten und wenn diese verzerrt oder unvollständig sind, treffen sie verzerrte Entscheidungen.
Ein Beispiel: Gesichtserkennungssoftware weist deutlich höhere Fehlerraten bei Menschen mit dunkleren Hauttönen auf, insbesondere bei Frauen. Eine Studie von Buolamwini & Gebru (2018 ) zeigte, dass bei dunkleren Hauttönen die Fehlerrate bis zu 34,7 % betrug verglichen mit unter 1 % bei weißen Männern. Ursache ist ein Datensatz, der bestimmte Gruppen nicht ausreichend repräsentiert. Der Bias steckte also in den Daten, nicht im Code.
Ähnliche Verzerrungen zeigen sich in KI-Systemen zur Kreditvergabe, in der Spracherkennung oder bei automatisierten Bewerbungsverfahren. Die Folge: Die Technik reproduziert oder verstärkt manchmal strukturelle Ungleichheit.
Intersektionale Datenlücken: Die doppelte Unsichtbarkeit
Noch problematischer werden Datenlücken, wenn es um intersektionale Perspektiven geht. Der Begriff „Intersektionalität“ beschreibt die Wechselwirkungen verschiedener sozialer Kategorien wie Geschlecht, Ethnizität oder Behinderung. Wer nur eine Kategorie analysiert, übersieht oft die spezifischen Diskriminierungserfahrungen von Menschen, die an mehreren Schnittstellen marginalisiert sind, zum Beispiel queere migrantische Frauen oder alte Menschen mit Behinderung.
In der Forschung bedeutet das:
- Studien zur Diskriminierung erfassen oft nur eine Achse (z. B. Geschlecht), nicht aber deren Zusammenspiel mit anderen Merkmalen.
- Erhobene Daten lassen keine Mehrfachzugehörigkeiten erkennen, da Variablen oft unabhängig voneinander behandelt werden.
- In vielen Umfragen fehlen Fragen zu spezifischen Merkmalen vollständig. Die betroffenen Gruppen „existieren“ in den Datensätzen schlicht nicht.
Warum wir diese Lücken nicht ignorieren sollten
Datenlücken, und insbesondere intersektionale Datenlücken, sind mehr als nur ein methodisches Problem. Sie zeigen, wessen Realität als relevant betrachtet wird und wessen nicht. Das kann zu Fehlentwicklungen und Politikmaßnahmen führen, die bestimmte Gruppen systematisch benachteiligen und die an der Lebensrealität Betroffener vorbeigehen. Gleichzeitig besteht die Gefahr verpasster Innovationen, weil diverse Perspektiven nicht einbezogen werden.
Wie lassen sich intersektionale Datenlücken schließen?
Die gute Nachricht: Datenlücken sind keine Naturgesetze. Sie lassen sich, mit dem richtigen Bewusstsein und methodischer Sorgfalt, beheben oder zumindest deutlich verringern.
- Diversifizierung von Datensätzen und Open Science: Datenerhebungen sollten gezielt so gestaltet werden, dass sie Mehrfachzugehörigkeiten abbilden. Das heißt: nicht nur einzelne Merkmale, sondern deren Zusammenspiel erfassen. Die Datensätze sollten, wo immer ethisch vertretbar, öffentlich zugänglich sein.
- Interdisziplinäre Forschung: Intersektionale Perspektiven erfordern die Zusammenarbeit von verschiedenen Disziplinen. So kann verhindert werden, dass wichtige Nuancen verloren gehen.
- Betroffene einbeziehen: Partizipative Forschung und Designprozesse in der KI helfen, blinde Flecken aufzudecken und die Technik gerechter zu gestalten.
- Bildung und Sensibilisierung: Studierende, Forschende und Entwickler:innen sollten in intersektionalen Ansätzen geschult werden, auch als ethische Verantwortung gegenüber der Gesellschaft.
Fazit
Daten sind oftmals das Produkt gesellschaftlicher Entscheidungen. Wenn wir Datenlücken ignorieren, riskieren wir nicht nur verzerrte Forschung oder „ungerechte“ KI. Wir riskieren, ganze Lebensrealitäten zu übersehen und Innovationen zu verpassen. Besonders dort, wo sich Diskriminierung überschneidet, braucht es mehr Aufmerksamkeit für intersektionale Datenlücken. Denn nur wer vollständig zählt, zählt auch wirklich.