Digitales & Technologie

Statements

14. Februar 2020

Genauigkeit von Algorithmen bei Vorhersage für Risiko von Rückfallkriminalität

Anlass

Anfang 2018 kam eine Studie [I] zu dem Schluss, die Vorhersagen von Laien bezüglich Rückfallgefahr von Straftätern wären ähnlich genau, wie die von einem in den USA zu diesem Zweck eingesetzten Algorithmus. Eine in „Science Advances“ erschienene Studie (siehe Primärquelle) kann diese Ergebnisse nur begrenzt replizieren: Wenn nur auf Basis von fünf Faktoren ein Urteil gefällt werden soll, sind zufällige Teilnehmer bei Amazons „Mechanical Turk“ Programm ähnlich treffsicher wie der zur Ermittlung der Rückfallgefahr in den USA eingesetzte Algorithmus COMPAS – genau wie es in der ursprünglichen Studie gezeigt wurde. Unter realistischeren Bedingungen mit mehr Faktoren, keinem Feedback zur Richtigkeit ihrer Entscheidungen und bei einem anderen Algorithmus – Aspekte, die in der Studie von 2018 nicht beachtet wurden – schnitten die Laien aber schlechter ab als die Algorithmen. Die Algorithmen COMPAS und LSI-R beurteilten in speziellen Fällen mit geringer Rückfallrate zwar auch nur so gut wie ein Klassifikator, der immer vorhersagt, die Person würde nicht rückfällig werden. Auch konnten die Autoren mit einem einfachen Regressionsmodell eine ähnliche Genauigkeit erreichen wie die Algorithmen. Trotzdem zeigt die Studie laut den Autoren, dass Algorithmen unter realistischen Bedingungen beim Einschätzen von Rückfallwahrscheinlichkeiten bei Verbrechen besser sind als menschliche Laien.

Andere wichtige Aspekte bei diesem Einsatz von Algorithmen waren aber nicht Teil der Studie und wurden nur am Rande erwähnt. Insbesondere COMPAS wurde in der Vergangenheit für Bias kritisiert: Laut einem Bericht von ProPublica [II] beurteilte der Algorithmus Afroamerikaner oft ungerecht. COMPAS liefert als Output einen Risikowert von eins bis zehn und eine damit korrespondierende Einteilung in die Risikogruppen niedrig (1-4), mittel (5-7) und hoch (8-10) [III, S. 8] . Afroamerikaner wurden häufiger zu Unrecht in die hohe Risikogruppe eingestuft. Von den in diese Gruppe eingestuften Weißen wurden nur 23,5 Prozent nicht rückfällig, von den Afroamerikanern allerdings 44,9 Prozent. Im Gegensatz dazu wurden Weiße häufiger zu Unrecht der niedrigen Risikogruppe zugewiesen. In dieser Gruppe wurden 47,7 Prozent der Weißen rückfällig, aber nur 28,0 Prozent der Afroamerikaner [IV].

Einer der Autoren der aktuellen Studie hat die Analyse von ProPublica zusammen mit anderen Autoren 2016 in einem Washington Post Artikel kommentiert. Sie betonen dabei, dass es in solchen Fällen weder für einen Algorithmus noch einen menschlicher Beurteiler möglich ist, alle Fairnesskriterien einzuhalten [V]. In diesen Fall gibt es zwei Fairness-Definitionen: Zum einen soll für später nicht-Rückfällige die Chance gleich sein, in die niedrige Risikogruppe einsortiert zu werden. Zum anderen soll für später Rückfällige die Chance, in die Hochrisikogruppe einsortiert zu werden, unter Afroamerikanern und Weißen gleich sein. Allerdings werden Afroamerikaner statistisch gesehen häufiger rückfällig als Weiße (52 im Vergleich zu 39 Prozent) [V]. Aufgrund der unterschiedlichen Rückfallraten ist es mathematisch unmöglich, beide Fairness-Definitionen gleichzeitig einzuhalten.

Ein Artikel auf Technology Review macht dieses Problem anschaulich [VI].

Dieses Dilemma zeigt, dass Algorithmen insbesondere in solchen Bereichen ein Problem mit Bias haben, macht aber auch klar, dass das Problem nicht immer am Algorithmus selbst liegt. Auch die Frage nach der Genauigkeit des Algorithmus stellt sich. Laut ProPublicas Berechnungen wurden 61 Prozent der von COMPAS als „likely to re-offend“ eingestuften Personen innerhalb von zwei Jahren tatsächlich rückfällig. Die aktuelle Studie attestiert COMPAS bei der korrekten Beurteilung der Rückfallgefahr eine Genauigkeit von 65 Prozent. Beide Werte liegen unter den 70 Prozent, die der Hersteller von COMPAS selbst als Grenze zur zufriedenstellenden Verlässlichkeit der Analyse angibt [VII, S. 27] .

Statements

Dr. Stephan Dreyer

Senior Researcher Medienrecht & Media Governance, Leibniz-Institut für Medienforschung | Hans-Bredow-Institut (HBI), Universität Hamburg

„Die Studie hält sich an die Grundsätze guter wissenschaftlicher Praxis; die Aussagen der AutorInnen decken sich auch mit den Untersuchungsergebnissen. Es darf aber nicht vergessen werden, dass beide Studien – die Vorliegende sowie die, auf die sie Bezug nimmt – Experimentalstudien in einem sehr engen Setting sind. Verallgemeinerungen für algorithmische und menschliche Entscheidungen sind daraus nur äußerst begrenzt zu ziehen. Was die Studie aber leisten kann: Sie zeigt auf, wie stark der Einfluss ist, den konkrete Informationsgrundlagen, Entscheidungskontexte und -verfahren für menschliche und automatische Entscheidungen haben können.“

Zur Frage, inwiefern der Einsatz solcher Algorithmen in Deutschland erlaubt oder geplant ist:
„Angesichts überlasteter Gerichte insbesondere im Strafrecht, beobachten in Deutschland Justizministerien, -behörden und Rechtspolitiker aufmerksam die Entwicklungen in diesem Bereich. Komplett automatisierte strafgerichtliche Entscheidungen werden mit Blick auf rechtsstaatliche Prinzipien und Anforderungen an die Unabhängigkeit und Überparteilichkeit der Richterschaft aber äußerst kritisch gesehen. Im Bereich des rechtlich Möglichen liegen gegebenenfalls zukünftige Verfahren, bei denen automatisierte Prozeduren richterliche Entscheidungen vorbereiten oder unterstützen. Dabei wird es allerdings auf die genaue Ausgestaltung ankommen: Wenn RichterInnen errechnete Empfehlungen nur durchwinken, wäre der Mensch nur noch ein/e Alibi-RichterIn und das Problem der rechtlichen Zulässigkeit stellte sich erneut.“

„Beide Studien sind Experimentalstudien, die so konstruiert wurden, um eine bestimmte spezielle wissenschaftliche Hypothese zu überprüfen. Sie sind auf die Entscheidungssituationen von RichterInnen und BewährungshelferInnen, wie sie die US-amerikanische Rechtsordnung erlaubt, nicht übertragbar. Die Studie zeigt aber, dass bestimmte Entscheidungskontexte und die Informationsqualität der Entscheidungsgrundlagen starke Auswirkungen auf die Genauigkeit der Entscheidungen haben. Außerdem kann (einmal mehr) das Phänomen des menschlichen sogenannten Basisratenfehlers oder Prävalenzfehlers (auf Englisch ‚base rate neglect‘) nachgewiesen werden: Menschen beziehen unterschiedliche statistische Ausgangswahrscheinlichkeiten eines Rückfalls kaum oder gar nicht mit in ihre Entscheidungen ein, sondern urteilen vor allem auf Grundlage der jeweiligen Personeninformation im Einzelfall. An dieser Stelle können statistische Voraussagen rechnerisch differenziertere Ergebnisse aufweisen als Menschen.“

Zur Frage, ob durch die nicht-Thematisierung von möglichem Bias einer der wichtigsten Aspekte außer Acht gelassen wird:
„Um die Ermittlung von Bias in algorithmischen Entscheidungssystem geht es in den Experimentalstudien aufgrund ihres begrenzten Fokus nicht. Dieses wichtige Thema wird in der internationalen wie englischsprachigen Literatur an anderer Stelle aber breit diskutiert – und auch in dieser Studie wird deutlich, dass die zusammengestellten Informationsgrundlagen zu den zu beurteilenden Personen eine hohe Relevanz für die menschlichen wie für die errechneten Entscheidungen haben. Das verlagert einen großen Teil der Weichenstellungen für die spätere Entscheidung in den Bereich der Zusammenstellung der Informationen, die (a) Aussagen zu statistischen Häufigkeiten insgesamt, (b) Aussagen zu statistischen Zusammenhängen von Rückfallquoten und persönlichen Variablen und (c) Aussagen zu einzelnen Menschen, die beurteilt werden, enthalten. An allen drei Stellen gibt es große Einflusspotenziale, bei denen sich auch in der Gesellschaft existierende Vorurteile und implizite Annahmen fortsetzen und sogar potenzieren können. Darüber müssen wir sprechen; das können und tun die hier angesprochenen Studien aber nicht.“

Dieses Statement entstand in Zusammenarbeit mit:

Johannes Schmees

Junior Researcher Medienrecht & Algorithmen und

Prof. Dr. Christian Djeffal

Professor für Recht, Wissenschaft und Technologie, Munich Center for Technology in Society, Technische Universität München (TUM), München

„Algorithmen und Heuristiken haben das Potenzial, den Menschen in immer neuen Lebensbereichen zu übertreffen und Prozesse zu verbessern. Dieses Potenzial lässt sich aber nur realisieren, wenn man die Wechselwirkungen von technischen und sozialen Prozessen besser versteht und entsprechend untersucht. Das sind wichtige Erkenntnisse der Studie von Lin et al. Diese Studie baut auf Vergleichen von Laien und technischen Systemen hinsichtlich ihrer Richtigkeit/Fehleranfälligkeit (accuracy) bei Entscheidungen über die Rückfallwahrscheinlichkeit von Straftätern auf. Sie zeichnet aber ein differenzierteres Bild.“

„Die Ergebnisse der Studie selbst sind nicht direkt für die strafrechtliche Praxis relevant. Denn die Studie vergleicht technische Systeme mit Laien und nicht mit ausgebildeten Richtern. Dennoch könnte insbesondere die Aus- und Weiterbildung von Richtern von den Ergebnissen der Studie profitieren, zum Beispiel durch Übungen für Richter anhand von historischen Datensätzen mit sofortigem Feedback, was laut der Studie die Fehlerrate menschlicher Entscheidungen erkennbar senkt. Ferner konzentriert sich die Studie ausschließlich auf das Problem der Richtigkeit/Fehleranfälligkeit (accuracy) von Risikomanagmentsystemen. Fragen von Fairness und Dis-kriminierung wurden bewusst nicht zum Gegenstand der Studie gemacht, auch wenn die Autoren diese Probleme und die Kritik am betreffenden System zur Kenntnis genommen haben. Das beschränkt die Aussagekraft der Studie, ist aber wissenschaftlich nicht zu beanstanden. Auch im Bereich Fairness und Diskriminierung kann man nicht davon ausgehen, dass Menschen pauschal besser entscheiden als Maschinen. Manchmal kommen diskriminierende Praktiken erst durch digitale Anwendungen ans Licht oder können dadurch verbessert werden.“

„Ein System, das über die Rückfallwahrscheinlichkeit von Straftätern entscheidet, kann in Ermangelung einer Rechtsgrundlage in Deutschland nicht verwendet werden. Allerdings werden ähnliche Systeme in der Verwaltung bereits eingesetzt: bei der Kasse Hamburg zum Erkennen prüfwürdiger Fälle im Hinblick auf Betrug, beim Zoll zur Ressourcenallokation, in der Polizeiarbeit zur Planung von Streifen wegen der Gefahr von Einbruchsdiebstählen oder in der Finanzverwaltung zur Aussteuerung prüfwürdiger Steuererklärungen.“

„Anstelle der Frage ‚Mensch oder Maschine‘ sollten sich zukünftige Studien vermehrt der Frage widmen, wie soziotechnische Prozesse in der Zusammenschau von Mensch und Maschine so gestaltet werden können, dass ein optimales Ergebnis durch die Kombination der Stärken erreicht werden kann.“

Prof. Dr. Kristian Kersting

Leiter des Fachgebiets Maschinelles Lernen, Fachbereich Informatik und Centre for Cognitive Science,Technische Universität Darmstadt

„Die Studie ist nicht überraschend. Lernende Systeme werden ständig weiterentwickelt. Ihre Performanz wird durch die verwendeten Daten und Algorithmen bestimmt. Ändert man einen Faktor, kann man bessere Ergebnisse erzielen. Das Spannende an der Studie ist der Vergleich mit dem Menschen. Das Verhalten von Menschen ist ebenso von solchen Faktoren abhängig. Wie wird gefragt? Wie wird die Information präsentiert? Fragt man anders, bekommt man andere Ergebnisse. Das ist zwar auch bekannt, ist aber in der aktuellen Diskussion um die Regulierung von KI-Systemen wichtig zu verstehen. Sie wird stark durch Einzelergebnisse bestimmt – wichtige Ergebnisse, die aber oft nur Momentaufnahmen sind. Die Studie gibt nun ein Indiz, dass Maschinen zur Vorhersage von Rückfallwahrscheinlichkeiten vielleicht doch besser als Menschen sein können, unter Verwendung der vorliegenden Daten. Dabei muss man immer beachten, dass Menschen so sehr viel mehr können als aktuelle Verfahren des Maschinellen Lernens. Sie können sich erklären. Sie können Stimmungen einfach wahrnehmen. Sie schließen Analogien. Kurz gesagt, wir brauchen mehr Studien, um ein besseres Bild zu bekommen. Wie verhält sich der Algorithmus beispielsweise in anderen Kulturkreisen? So wie in der Medizin, wo Zulassungsverfahren klar geregelt sind und durch große Studien belegt werden müssen. Daher muss aber auch die Regulierung von KI-Systemen gestaffelt und flexibel sein.“

Zur Frage, wie gut Algorithmen in diesem Bereich überhaupt sind:
„Diese Frage lässt sich aktuell nicht abschließend beantworten. Performanz ist ein Moving Target. Algorithmen – die ‚Kochrezepte‘, die es erlauben, Prozesse beispielsweise des Lernens und Denkens Schritt für Schritt zu beschreiben – werden ständig neu oder weiter entwickelt. Es ist zu erwarten, dass Algorithmen auch in diesem Bereich besser werden. Die Studie gibt neue Indizien, dass Maschinen dem Menschen ebenbürtig oder sogar besser seien können. Nicht mehr, aber auch nicht weniger. Und man muss jetzt wieder in weiteren Studien fragen, welchen Bias die hier erhobenen Daten haben.“

Zur Frage, inwiefern die Vorhersage von Rückfallwahrscheinlichkeiten überhaupt ein Bereich ist, in dem eine Anwendung von Algorithmen sinnvoll ist:
„Das ist die entscheidende Frage. Zum einen wollen wir aus unseren ethischen und moralischen Ansprüchen nicht, dass Maschinen über das Schicksal von Menschen bestimmen. Das ist auch richtig so. Wir wollen aber generell nicht, dass Menschen diskriminiert werden. Auch nicht durch Menschen. Das ist eine Zwickmühle, die nur im interdisziplinären Diskurs gelöst werden kann. Wir müssen als Gesellschaft entscheiden, was wir wollen. Eine interessante Auflösung dieses Dilemmas könnte eine Partnerschaft aus Mensch und Maschine sein. Die Maschine weist uns auf unsere Biases hin, die wir dann hoffentlich reduzieren. Wir müssen vermeiden, dass Diskriminierung fortschreitet. Wenn Maschinen dabei helfen können, ist das ein große Chance für die Gesellschaft. Aber eben kontrolliert. Und die Maschinen sollten aus meiner Sicht deutlich besser sein als der Mensch, gerade in einem so sensiblen Bereich wie der Vorhersage von Rückfallwahrscheinlichkeiten.“

Zur Frage, ob durch die nicht-Thematisierung von möglichem Bias einer der wichtigsten Aspekte außer Acht gelassen wird:
„Ja und nein. Die berechtigte Kritik an COMPAS besteht im menschliche Bias, der in den historischen Daten und auch dem Gelernten abgebildet ist. Es ist also der menschliche Bias, der hier zu einem Problem wird, und es wichtig, diesen mit und in KI-Systemen aufzudecken. Nur so können wir ihn bei Maschinen und Menschen beheben. Eine solche Diskussion und auch eine offene Diskussion der Implikationen fehlen im Artikel. Ein Hinweis auf Störfaktoren und mögliche Scheinkorrelationen sollte auch gegeben werden. Allerdings zeigt es den ebenso wichtigen Aspekt, dass die menschliche Baseline auch hinterfragt werden muss.“

Prof. Dr. Tobias Matzner

Professor für Medien, Algorithmen und Gesellschaft, Universität Paderborn

„Die Autoren der Studie selbst sagen, es gehe ihnen um die Aussage: ‚the widely used commercial risk assessment software COMPAS is no more accurate or fair than predictions made by people with little or no criminal justice expertise‘ Und hier liegt das Problem:“

Zur Frage, ob der in der Studie getätigte Vergleich zwischen Laien und Algorithmus Sinn macht, wenn Laien in der Studie Entscheidungen treffen, die in der Realität Richter oder Gutachter treffen würden:
„Nein. Das ist das große Problem der Studie, aber auch der Forschung an KI an sich. Wir werden durch technische Fortschritte verleitet, die Technik mit den Menschen zu vergleichen. Dabei gerät aus dem Blick, was das für Menschen sind und sein sollten. Außerhalb der Forschung an KI würden wahrscheinlich wenige auf die Idee kommen, die Fähigkeit von Laien zu testen, Rückfallwahrscheinlichkeiten zu bestimmen.“

„Die Studie fokussiert auf die Zuverlässigkeit von Vorhersagen. Dabei wird außer Acht gelassen, dass Vorhersagen über das Verhalten von Menschen generell eine sehr schwierige Sache sind, die mit größter Sorgfalt und umfassenden Kontroll- und Einspruchsmöglichkeiten eingesetzt werden sollen. Denn erkenntnistheoretisch haben solche Vorhersagen dieselbe Struktur wie Vorurteile: Menschen mit Eigenschaf A tun wahrscheinlich B. Nur dass es hier eben nicht um eine Eigentschaft geht, sondern Algorithmen sehr viele davon nutzen. Damit so etwas nicht selbst zum Vorurteil wird, muss der Kontext und die Besonderheiten der betreffenden Person genau betrachtet werden.“

Zur Frage, inwiefern es ethisch verantwortlich ist, in diesem Bereich einen Algorithmus einzusetzen, bei dem nicht klar ist, wie gut er im Vergleich zu Richtern ist und inwiefern er frei von Bias ist:
„Wenn das nicht klar ist, kann man so einen Algorithmus auch nicht einsetzen. Aber wir wissen ja im Prinzip, wie er funktioniert: Muster in Daten zu generalisieren. Momentan ist mir aber keine Technik bekannt, die die nötige Sorgfalt sicherstellen würde, um zu beurteilen, ob ein Muster auf eine Person dann auch anwendbar ist, wie das ausgebildete Gutachter tun würden.“

Angaben zu möglichen Interessenkonflikten

Alle: Keine Angaben erhalten.

Quellen

Primärquelle

Goel S et al. (2020): The limits of human predictions of recidivism. Science Advances; 6: eaaz0652.

Weiterführende Recherchequellen

Djeffal C (2018): Künstliche Intelligenz in der öffentlichen Verwaltung. Berichte des NEGZ (3), 1–32.

Djeffal C (2018): Normative Leitlinien Für Künstliche Intelligenz in Regierung und Verwaltung. In: Mohabbat Kar R et al.: (Un)Berechenbar? Algorithmen und Automatisierung in Staat und Gesellschaft, (S. 493–515). OEFIT.

Literaturstellen, die vom SMC zitiert wurden

[I] Farid H, Dressel J (2018): The accuracy, fairness, and limits of predicting recidivism. Science Advances; Vol. 4, no. 1, eaao5580. DOI: 10.1126/sciadv.aao5580.

[II] Angwin J et al. (2016): Machine Bias. ProPublica.

[III] Northpointe (2015): Practitioner's Guide to COMPAS Core.

[IV] Larson J et al. (2016): How We Analyzed the COMPAS Recidivism Algorithm. ProPublica.

[V] Goel S et al. (2016): A computer program used for bail and sentencing decisions was labeled biased against blacks. It’s actually not that clear. Washington Post.

[VI] Hao K, Stray J (2019): Can you make AI fairer than a judge? Play our courtroom algorithm game. Technology Review.

[VII] Brennan T et al. (o.J.): Evaluating the Predictive Validity of the COMPAS Risk and Needs Assesment System.

Dr. Stephan Dreyer

Senior Researcher Medienrecht & Media Governance, Leibniz-Institut für Medienforschung | Hans-Bredow-Institut (HBI), Universität Hamburg

Mehr Informationen

Prof. Dr. Christian Djeffal

Professor für Recht, Wissenschaft und Technologie, Munich Center for Technology in Society, Technische Universität München (TUM), München

Mehr Informationen