Letzte Woche machte die neu gewählte US-Repräsentantin Alexandria Ocasio-Cortez Schlagzeilen, als sie im Rahmen der vierten jährlichen MLK Now-Veranstaltung sagte, dass Gesichtserkennungstechnologien und -algorithmen "immer diese rassischen Ungleichheiten aufweisen, die übersetzt werden, weil immer noch Algorithmen erstellt werden von Menschen, und diese Algorithmen sind immer noch an grundlegende menschliche Annahmen gebunden. Sie sind nur automatisiert. Und automatisierte Annahmen - wenn Sie die Verzerrung nicht beheben, automatisieren Sie nur die Verzerrung. "
Bedeutet das, dass Algorithmen, die theoretisch auf den objektiven Wahrheiten der Mathematik basieren, "rassistisch" sein können? Und wenn ja, was kann getan werden, um diese Verzerrung zu beseitigen?
Es stellt sich heraus, dass die Ausgabe von Algorithmen tatsächlich zu verzerrten Ergebnissen führen kann. Datenwissenschaftler sagen, dass Computerprogramme, neuronale Netze, Algorithmen für maschinelles Lernen und künstliche Intelligenz (KI) funktionieren, weil sie lernen, sich anhand der ihnen gegebenen Daten zu verhalten. Software wird von Menschen geschrieben, die Vorurteile haben, und Trainingsdaten werden auch von Menschen generiert, die Vorurteile haben.
Die beiden Phasen des maschinellen Lernens zeigen, wie sich diese Tendenz in einen scheinbar automatisierten Prozess einschleichen kann. In der ersten Phase, der Trainingsphase, lernt ein Algorithmus basierend auf einem Datensatz oder bestimmten Regeln oder Einschränkungen. Die zweite Stufe ist die Inferenzstufe, in der ein Algorithmus das Gelernte in der Praxis anwendet. Diese zweite Stufe zeigt die Vorurteile eines Algorithmus. Wenn ein Algorithmus beispielsweise nur mit Bildern von Frauen mit langen Haaren trainiert wird, wird er annehmen, dass jeder mit kurzen Haaren ein Mann ist.
Google geriet 2015 unter Beschuss, als Google Fotos schwarze Menschen als Gorillas bezeichnete, wahrscheinlich weil dies die einzigen dunkelhäutigen Wesen im Trainingsset waren.
Und Voreingenommenheit kann sich durch viele Wege einschleichen. "Ein häufiger Fehler ist das Trainieren eines Algorithmus, um Vorhersagen zu treffen, die auf früheren Entscheidungen voreingenommener Menschen basieren", sagte Sophie Searcy, eine leitende Datenwissenschaftlerin beim Data-Science-Training-Bootcamp Metis, gegenüber Live Science. "Wenn ich einen Algorithmus zur Automatisierung von Entscheidungen mache, die zuvor von einer Gruppe von Kreditsachbearbeitern getroffen wurden, kann ich den einfachen Weg gehen und den Algorithmus auf frühere Entscheidungen dieser Kreditsachbearbeiter trainieren. Aber wenn diese Kreditsachbearbeiter dann voreingenommen wären, dann natürlich." Der Algorithmus, den ich baue, wird diese Verzerrungen fortsetzen. "
Searcy führte das Beispiel von COMPAS an, einem Prognosewerkzeug, das im gesamten US-amerikanischen Strafjustizsystem für Verurteilungen verwendet wird und das versucht, vorherzusagen, wo Verbrechen auftreten werden. ProPublica führte eine Analyse zu COMPAS durch und stellte fest, dass das Tool nach Kontrolle anderer statistischer Erklärungen das Risiko eines Rückfalls für schwarze Angeklagte überschätzte und das Risiko für weiße Angeklagte durchweg unterschätzte.
Um algorithmischen Verzerrungen entgegenzuwirken, sollten Ingenieure und Datenwissenschaftler laut Live Science vielfältigere Datensätze für neue Probleme erstellen und versuchen, die in vorhandene Datensätze eingebauten Verzerrungen zu verstehen und zu mindern.
In erster Linie, so Ira Cohen, Datenwissenschaftler beim Predictive Analytics-Unternehmen Anodot, sollten Ingenieure über ein Trainingsset mit relativ einheitlicher Darstellung aller Bevölkerungsarten verfügen, wenn sie einen Algorithmus zur Identifizierung ethnischer oder geschlechtsspezifischer Attribute trainieren. "Es ist wichtig, genügend Beispiele aus jeder Bevölkerungsgruppe zu repräsentieren, auch wenn sie eine Minderheit in der untersuchten Gesamtbevölkerung darstellen", sagte Cohen gegenüber Live Science. Schließlich empfiehlt Cohen, bei einem Testsatz, an dem Personen aus all diesen Gruppen teilnehmen, nach Verzerrungen zu suchen. "Wenn für ein bestimmtes Rennen die Genauigkeit statistisch signifikant niedriger ist als für die anderen Kategorien, kann der Algorithmus eine Verzerrung aufweisen, und ich würde die dafür verwendeten Trainingsdaten auswerten", sagte Cohen gegenüber LiveScience. Wenn der Algorithmus beispielsweise 900 von 1.000 weißen Gesichtern korrekt identifizieren kann, aber nur 600 von 1.000 asiatischen Gesichtern korrekt erkennt, kann der Algorithmus eine Tendenz "gegen" Asiaten aufweisen, fügte Cohen hinzu.
Das Entfernen von Verzerrungen kann für die KI eine unglaubliche Herausforderung sein.
Selbst Google, das als Vorreiter in der kommerziellen KI gilt, konnte offenbar keine umfassende Lösung für sein Gorilla-Problem aus dem Jahr 2015 finden. Wired stellte fest, dass Google, anstatt einen Weg zu finden, mit seinen Algorithmen zwischen Farbigen und Gorillas zu unterscheiden, einfach blockierte seine Bilderkennungsalgorithmen von der Identifizierung von Gorillas überhaupt.
Das Beispiel von Google ist eine gute Erinnerung daran, dass das Trainieren von KI-Software eine schwierige Übung sein kann, insbesondere wenn Software nicht von einem Vertreter und einer vielfältigen Gruppe von Personen getestet oder trainiert wird.