Fairer Datensatz zur Bewertung von Bild-KI
Forschungsteam stellt diversen, nach EU-Vorgaben erstellten Datensatz als Bewertungsgrundlage für faire Bild-KI vor
Qualität der Trainingsdaten relevant, da Verzerrungen zu stereotypen und diskriminierenden Ausgaben von KI-Modellen führen können
Forschende: kein Datensatz ist völlig fair, auch dieser nicht; schon kleiner, hier vorgestellter ethischer Evaluationsdatensatz kostspielig, große Trainingsdatensätze wären um einiges teurer
Ein Forschungsteam von Sony AI hat einen ethischen Bild-Datensatz für künstliche Intelligenz (KI) erstellt. Damit soll getestet werden, wie fair KI-Modelle und deren Trainingsdaten sind. Da die Ausgaben einer KI maßgeblich von ihren Trainingsdaten abhängen, sind ausgewogene und repräsentative Daten entscheidend für die Fairness der Modelle. Außerdem hätten sie sich beim Sammeln der Daten an europäische Vorgaben wie die Datenschutz-Grundverordnung (DSGVO) gehalten, schreibt das Team. Die Studie ist in der Fachzeitschrift „Nature“ erschienen (siehe Primärquelle).
Moderne, multimodale KI-Modelle sind in der Lage, Bilder zu erstellen, zu beschreiben oder Fragen zu den abgebildeten Inhalten zu beantworten. Allerdings reproduzieren sie dabei immer wieder Stereotype gegenüber Personengruppen. Das liegt auch dran, dass diese Stereotype bereits in den Trainingsdaten vorhanden sind. Das Team von Sony AI hat deshalb den öffentlich zugänglichen Datensatz „Fair Human-Centric Image Benchmark“ (FHIBE) erstellt – auf Deutsch: Maßstab für gerechte Mensch-zentrierte Bilder. FHIBE besteht aus etwa 10.000 Bildern von insgesamt rund 2000 Personen. Die Daten sollen divers, sicher und anwendungsnah sein. Die abgebildeten Personen waren mit der Nutzung ihrer Daten einverstanden und wurden bezahlt. Das Forschungsteam hielt sich außerdem an die Datenschutzvorgaben verschiedener Länder. So konnten sie etwa auch Bilder aus der Europäischen Union verwenden – eine Seltenheit in öffentlichen Datensätzen. Dieses Vorgehen war allerdings verhältnismäßig zeit-, kosten- und personalintensiv – trotz des relativ kleinen Datensatzes. Um auf ethische Datensätze zu skalieren, die groß genug für das KI-Training sind, müssten weitere Methoden erforscht werden, so die Autorinnen und Autoren.
Inhaber des Lehrstuhls für Erklärbares Maschinelles Lernen, Otto-Friedrich-Universität Bamberg
Methodik bei der Erstellung des Datensatzes
„Meiner Ansicht nach hat sich das Forschungsteam beim Erstellen des Datensatzes Gedanken über relevante ethische Aspekte gemacht: Die Datenspender:innen werden vergütet und deren Einwilligung wurde eingeholt. Außerdem besteht die Möglichkeit, die Teilnahmezustimmung zurückzunehmen und die eigenen Daten aus dem Datensatz entfernen zu lassen. Das zeigt, dass die Autor:innen tatsächlich Rücksicht auf die abgebildeten Personen nehmen. Außerdem scheint die Datenannotation – also die Beschreibung der Bilder – sauber, gründlich und vollständig zu sein. Dieser Prozess ist insgesamt relativ komplex und aufwendig.“
Methoden gegen verzerrte Ausgaben
„Die Autor:innen gehen kein neues Problem an: Auch Anbieter von großen Modellen haben das Problem unfairer künstlicher Intelligenz (KI) erkannt und gehen sensibel mit möglichen Verzerrungen (Biases) um. An manchen Stellen nehmen sie diese sogar als Geschäftsrisiko wahr. Die Trainingsdaten von Biases zu säubern, ist eine Möglichkeit, um das Risiko von unfairen Ausgaben zu reduzieren. Eine zweite Möglichkeit ist das Post-Training (Alignment). Hier kann das Modell nochmal präzise nachtrainiert werden, um bestimmte Ausgaben zu unterdrücken oder zu fördern. Gerade große, aus dem Internet zusammengetragene Datensätze sind nie frei von Biases. Mit Feinabstimmungen im Training der Modelle können mögliche Verzerrungen in den Daten ausgeglichen werden. Biases können so nicht nur unterdrückt, sondern es kann ihnen auch gezielt entgegengesteuert werden.“
Repräsentativität des Datensatzes
„Der Datensatz aus der Studie sollte allerdings nicht für diese Art der Feinabstimmung genutzt werden, denn er enthält auch Biases. Von den etwa 10.000 enthaltenen Bildern haben mehr als 8000 ihren Ursprung in wenigen Ländern in Afrika und Asien. Chinesische Teilnehmer sind mit 18 Bildern stark unterrepräsentiert, für Deutschland sind ebenfalls weniger als 20 Bilder enthalten. Viele andere Datensätze sind westlich geprägt. Es ist daher gut, dass hiermit ein Datensatz geschaffen wurde, der die Welt ganzheitlicher repräsentiert. Trotzdem bleibt die Frage, ob dieser Datensatz geeignet ist, um alle wesentlichen Bias-Formen aussagekräftig zu erfassen beziehungsweise aufzudecken.“
Verwendungsmöglichkeiten des Datensatzes
„Einen vorurteilsfreien Datensatz zu erstellen, ist mindestens extrem schwierig, wenn nicht unmöglich. Trotzdem sind solche kleineren Datensätze, bei denen der Fokus auf Fairness und Diversität liegt, wichtig für die Evaluation von KI-Systemen. In dieser Studie untersuchen die Autor:innen verschiedene Modelle – und finden Biases. Allerdings sind die meiner Ansicht nach weder überraschend, noch gravierender als gedacht – eher im Gegenteil.“
„Es ist wichtig, repräsentative Datensätze für die Evaluation zu haben. Für das Training großer Modelle sind solche fair erstellten, ausgewogenen Datensätze wohl aber kaum umsetzbar. Da ist das Post-Training der gangbarere Weg, um Biases zu reduzieren. Und auch die informierte Einwilligung und Vergütung der Bildspender:innen ist für große Trainingsdatensätze eher unrealistisch.“
Professor für Maschinelles Lernen, Eberhard Karls Universität Tübingen
Methodik bei der Erstellung des Datensatzes
„Das Vorgehen des Forschungsteams entspricht in vielen Aspekten ethischen Standards des Fachgebiets [1]. Besonders betonen die Autor:innen die Einwilligung der abgebildeten Personen. Teilweise haben diese ihre persönlichen Daten selbst angegeben (‚Self-Reporting‘). Dieses Verfahren birgt jedoch Risiken: Zum einen können unterschiedliche Interpretationen einzelner Attribute zu Inkonsistenzen in den Annotationen (Angabe der Metadaten und textliche Beschreibung der Bilder; Anm. d. Red.) führen, zum anderen besteht die Möglichkeit gezielter Manipulationen. Die Autor:innen berichten selbst von Hinweisen auf solche Manipulationen. Da die Teilnehmenden auf Basis des Mindestlohns des jeweiligen Landes bezahlt werden, kann das dazu verlocken, ein Land mit einem höheren Mindestlohn als Heimat anzugeben, um eine höhere Vergütung zu bekommen.“
Verzerrungen in KI-Modellen
„Inwiefern große Anbieter solcher Modelle ihre Datensätze auf ethischen Grundlagen erheben, kann man nur spekulieren. Zumindest deutet einiges darauf hin, dass einige Unternehmen auf qualitativ hochwertige und möglichst diverse Daten achten. Sie sind sich der Problematik potenzieller Verzerrungen bewusst und bemühen sich, möglichst viele Untergruppen in ihren Datensätzen abzubilden – nicht zuletzt, um die Leistungsfähigkeit ihrer Modelle zu erhöhen.“
Transparenz und Repräsentativität des Datensatzes
„Wirklich ‚faire‘ Datensätze zu erstellen, ist praktisch unmöglich – schon deshalb, weil es keine einheitliche Definition von Fairness gibt. Vor diesem Hintergrund erscheint es problematisch, dass die Autor:innen mit dem Begriff werben, ohne deutlich zu machen, was sie darunter verstehen. Entscheidend ist, dass die Eigenschaften des Datensatzes – einschließlich einer möglichen Unterrepräsentation einzelner Gruppen – transparent kommuniziert werden. Dies geschieht hier größtenteils, könnte aber prominenter platziert sein.“
„Der Datensatz ist beispielsweise nicht repräsentativ für die Weltbevölkerung. Etwas weniger als die Hälfte der Bilder stammt aus Afrika, während nahezu keine aus China enthalten sind. Auch innerhalb Afrikas ist die Verteilung unausgewogen, da bevölkerungsreiche Länder wie Ägypten oder Äthiopien kaum vertreten sind. Dies bedeutet jedoch nicht, dass der Datensatz schlecht ist – im Gegenteil: Viele Datensätze enthalten derartige Informationen gar nicht. Dennoch ist er im genannten Sinne nicht repräsentativ und daher nicht ‚fair‘.“
„Verzerrungen in den Trainingsdaten beeinflussen die Ausgaben der Modelle. Daher ist eine möglichst umfassende und ausgewogene Abdeckung aller Bevölkerungsgruppen, für die das Modell später eingesetzt werden soll, von zentraler Bedeutung. Wenn für gewisse Gruppen nur wenig Trainingsdaten vorliegen, kann das Modell für diese Gruppen deutlich schlechter funktionieren. Daher sollte die Zusammensetzung des Datensatzes transparent dokumentiert werden – was hier der Fall ist.“
Verwendungsmöglichkeiten des Datensatzes
„Der vorliegende Datensatz ist für die Evaluierung von KI-Modelle gedacht, explizit nicht für deren Training. Dafür ist er auch zu klein. Einen Trainingsdatensatz für ein großes Modell, mit den gleichen Ansprüchen an Konsens und Vergütung zu erstellen, halte ich für sehr kostspielig.“
Leiter der Computer Vision & Learning Group, Ludwig-Maximilians-Universität München (LMU)
Methodik bei der Erstellung des Datensatzes
„Der FHIBE-Datensatz ist ein ethisch kuratierter, einwilligungsbasierter Bilddatensatz zur Bewertung der Fairness von künstlicher Intelligenz (KI). Er wurde ausschließlich für die Analyse und nicht für das Training von KI konzipiert und deckt nur menschbezogene Aufgaben wie Gesichtserkennung ab. FHIBE zeigt, wie verantwortungsvolle Datenerhebung für die Evaluation von KI gelingen kann und mit welchem finanziellen und zeitlichen Aufwand dies verbunden ist.“
„Das Vorgehen bei FHIBE erfüllt sowohl ethisch als auch technisch die derzeit geltenden Standards. Der Datensatz wurde unter Einhaltung der Datenschutz-Grundverordnung (DSGVO) erstellt, mit informierter Einwilligung, Datenschutzmaßnahmen, fairer Entschädigung der Beteiligten sowie Transparenz über Herkunft und Nutzung der Daten. Außerdem wurden persönliche Informationen und geschützte Inhalte entfernt, um die Privatsphäre und Rechte Dritter zu schützen. Demgegenüber nutzen viele große KI-Anbieter weiterhin Web-Scraping-Daten, also automatisch aus dem Internet gesammelte Inhalte, häufig ohne Einwilligung. FHIBE zeigt, dass ethische Alternativen möglich, aber teuer und komplex in der Umsetzung sind.“
Aufwand, Verwendungsmöglichkeiten und Repräsentativität des Datensatzes
„Ein völlig vorurteilsfreier Datensatz ist nicht möglich. Jede Datensammlung spiegelt gesellschaftliche Strukturen, Machtverhältnisse und kulturelle Perspektiven wider. Auch die Definition von ‚Diversität‘ ist kulturell geprägt und damit einem ständigen Wandel unterworfen. In der Publikation wird daher ausdrücklich davor gewarnt, dass ein einzelner Benchmark neue Abhängigkeiten erzeugen kann. Wenn künftige Modelle ausschließlich anhand von FHIBE bewertet würden, könnte der dort enthaltene Bias unbeabsichtigt zur Referenznorm werden.“
„FHIBE verdeutlicht auch den erheblichen Aufwand für eine ethisch saubere Datenerhebung: mehrere Jahre Arbeit von rund 25 Fachleuten und Gesamtkosten von über 750.000 US-Dollar für ‚nur‘ etwa 10.000 Bilder der Kategorie ‚Mensch‘. Zum Vergleich: Moderne KI-Modelle werden auf Milliarden von Trainingsbeispielen trainiert. Der Datensatz ist daher ausdrücklich nicht für das Training, sondern ausschließlich zur Evaluation bereits trainierter Modelle vorgesehen und damit indirekt zur Bewertung der zugrunde liegenden Trainingsdaten.“
Verzerrungen in KI-Modellen
„Zudem liegen die größten Herausforderungen des heutigen KI-Trainings im Bereich sogenannter Open-World-Probleme, also im Umgang mit beliebigen Objektkategorien, nicht nur mit Menschen. Eine bessere Filterung und Dokumentation von Trainingsdaten findet jedoch zunehmend statt, da sie für die kommerzielle Nutzung großer KI-Systeme immer wichtiger wird. Parallel finden wichtige Diskussionen über Vergütungsmodelle für die Nutzung von Trainingsdaten kommerzieller KI statt.“
„Die Trainingsdaten sind der zentrale Faktor für Fairness in KI-Systemen: Sie bestimmen, welche Welt ein Modell ‚sieht‘ und reproduziert. Schlechte oder unausgewogene Daten führen zwangsläufig zu verzerrten Ergebnissen.
Allerdings beeinflussen auch weitere Faktoren die Fairness, etwa die Modellarchitektur, die Evaluations- und Feedbackmechanismen sowie die Nachbearbeitung durch Nachtrainieren oder das Filtern von Benutzereingaben und Modellausgaben. Solche Verfahren können einzelne Verzerrungen abmildern, den Einfluss schlechter Trainingsdaten aber nur begrenzt korrigieren.“
Professorin für Ethik in der Informationstechnologie, Universität Hamburg
Methodik bei der Erstellung des Datensatzes
„Meines Erachtens haben sich die Autor:innen ausgesprochen große Mühe gegeben, hohen ethischen und technischen Standards für die Entwicklung ihres Datensatzes zu genügen. Dies gilt erstens für den Prozess der Datenerhebung, beispielsweise hinsichtlich informierter Zustimmung oder fairer Bezahlung der Datensubjekte. Zweitens gilt es auch für das Resultat des Benchmarking-Datensatzes, insbesondere in Bezug auf Genauigkeit und intersektionale Diskriminierungsminimierung. Und drittens gilt es für die transparente Dokumentation. Ein solches Vorgehen ist leider mitnichten Standard.“
Repräsentativität des Datensatzes
„Komplett vorurteilsfreie Datensätze zu erstellen, ist unmöglich. Wichtig ist jedoch Transparenz über Daten und verwendete Methoden, damit man die Verzerrungen und deren mögliche Konsequenzen bestmöglich abschätzen und minimieren kann. Hier haben die Autor:innen meines Erachtens vorbildlich gearbeitet, indem sie sich mit vielen klassischen Fallstricken im Prozess der Datensatzerstellung auseinandergesetzt haben: Dazu zählen etwa Fragen rund um informierte Zustimmung, den Schutz der Privatsphäre und des intellektuellen Eigentums oder auch der Bezahlung.“
„Zudem haben sie im Datensatz selbst hohen Wert auf Genauigkeit und Bias-Minimierung sowie die Dokumentation und Nachvollziehbarkeit ihrer Prozesse gelegt. Besonders hervorzuheben ist die Berücksichtigung intersektionaler Biases. Das sind systematische Verzerrungen, welche nicht nur eine Kategorie, sondern mehrere Kategorien gleichzeitig betreffen, beispielsweise Geschlecht, Herkunft und Alter.“
Verwendungsmöglichkeiten des Datensatzes
„Gute Datensätze zur Evaluierung von künstlicher Intelligenz (KI) sind ganz entscheidend für die Entwicklung im KI-Bereich, weil sich Methoden- und Modellentwicklungen an diesen Benchmarks ausrichten. Der Datensatz liefert daher einen wichtigen Beitrag für bessere KI- Entwicklung – sowohl in Bezug auf Genauigkeit (accuracy) als auch Diskriminierungsminimierung.“
„Ich glaube, es ist ganz entscheidend, dass der Entwicklung fairer Datensätze mehr Gewicht zukommt. Das kann in Form von Anerkennung und Geld geschehen. Denn auch wenn ein solcher Prozess kosten- und zeitintensiv ist, so sind diese Investitionen unumgänglich, wenn wir Diskriminierung durch KI minimieren wollen.“
Wichtige Aspekte für faire KI
„Faire KI bedarf eines genauen Blicks auf alle Entscheidungen in der Entwicklung von KI-Systemen. Das reicht von der Datenerhebung und Annotation (Angabe der Metadaten und textliche Beschreibung der Bilder; Anm. d. Red.) über die Methodenauswahl und bis hin zum Post-Processing, also zu Überlegungen, was man im Nachgang noch tun kann, wenn man verzerrende Resultate entdeckt. Das heißt, ethische Fragen im Forschungs- und Entwicklungsprozess sind überaus komplex, aber dort endet Verantwortung für KI-Entwicklung noch nicht: Ich kann den fairsten Datensatz für Computervision bauen, aber wenn die resultierende Software am Ende für die Überwachung von Bürger:innen eingesetzt wird, habe ich im Grunde geholfen, ein besseres Tool für einen schlechten Zweck zu erstellen.“
„In diesem Sinne steckt Ethik in der Methodik selbst, geht aber auch über sie hinaus: Wissenschaftler:innen müssen sich eben auch fragen, welche negativen Konsequenzen die Nutzung ihrer Forschung für die Gesellschaften haben kann. Gesichtserkennung birgt große Gefahren für den Schutz der Privatsphäre und unserer Freiheiten, selbst wenn die Grundlagenforschung dazu höchsten ethischen Maßstäben genügt.“
„Für das Statement gibt es keinen Interessenkonflikt.“
„Ich habe keine Interessenkonflikte.“
„Ich habe keine Interessenkonflikte bezüglich dieser Publikation.“
„Interessenkonflikte habe ich keine.“
Primärquelle
Xiang A et al. (2025): Fair human-centric image dataset for ethical AI benchmarking. Nature. DOI: 10.1038/s41586-025-09716-2.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Gebru T et al. (2021): Datasheets for Datasets. Arxiv. DOI: 10.48550/arXiv.1803.09010.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.
Prof. Dr. Christian Ledig
Inhaber des Lehrstuhls für Erklärbares Maschinelles Lernen, Otto-Friedrich-Universität Bamberg
Angaben zu möglichen Interessenkonflikten
„Für das Statement gibt es keinen Interessenkonflikt.“
Prof. Dr. Matthias Hein
Professor für Maschinelles Lernen, Eberhard Karls Universität Tübingen
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte.“
Prof. Dr. Björn Ommer
Leiter der Computer Vision & Learning Group, Ludwig-Maximilians-Universität München (LMU)
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte bezüglich dieser Publikation.“
Prof. Dr. Judith Simon
Professorin für Ethik in der Informationstechnologie, Universität Hamburg
Angaben zu möglichen Interessenkonflikten
„Interessenkonflikte habe ich keine.“