noah leidinger

View Original

Betrügerei & Pseudo-Optimierung

Ein Risiko Künstlicher Intelligenz besteht im Interessenskonflikt zwischen der KI und ihrem Erschaffer. Im gestrigen Artikel wurde bereits das Konzept der Mesa-Optimierer diskutiert. Allerdings blieb bisher ungeklärt, wie genau Mesa-Optimierer und Basis-Optimierer sich in ihren Interessen unterscheiden können und welche negativen Effekte daraus abzuleiten sind.

Die erste Gefahr besteht in der Pseudo-Übereinstimmung.

Man nehme als Beispiel einen Waschroboter mit Künstlicher Intelligenz. Das eigentliche Ziel des Basis-Optimierers ist saubere Kleidung. Um dieses Ziel zu erreichen, wurde ein Mesa-Optimierer erschaffen. Dieser verfolgt allerdings das Ziel, möglichst viel Schmutz von der Kleidung zu entfernen. Im Normallfall ist das kein Problem und wenn der Mesa-Optimierer viel Schmutz entfernt, ist auch der Basis-Optimierer zufrieden. Was aber, wenn der Mesa-Optimierer einen Weg findet, die Kleidung wieder schmutzig zu machen? Natürlich würde er dann die Kleidung nach jedem Waschvorgang wieder verdrecken, denn so kann er seinen Gesamtmaß an Schmutzentfernung enorm erhöhen.

Pseudo-Optimierung zeichnet sich also dadurch aus, dass der Mesa-Optimierer mit seinem ursprünglichen Verhalten auch das Ziel des Basis-Optimierers erfüllt. Doch sobald es zu gewissen Änderungen in der Wahrnehmung des Mesa-Optimierers oder im Zustand der Umwelt kommt, kann eine plötzliche totale Divergenz zwischen den Interessen von Mesa- und Basis-Optimierer entstehen.

Das Problem der Pseudo-Optimierung wird durch verschiedene Aspekte begünstigt. Zum einen kann ein Mangel an Trainingsdaten (also Daten mit deren Hilfe das KI-System entwickelt wird) dazu führen, dass der Mesa-Optimierer gar nicht in der Lage ist, das tatsächliche Ziel zu erkennen. Er sucht deshalb ein anderes und vereinfachtes Nebenziel. Ein weiteres Problem: bei aktuellen KI-Modellen wird nur das Ergebnis und nicht die Struktur des Systems selbst untersucht.

Dazu ein Beispiel: eine KI hat den Zweck, das Licht einzuschalten, sobald ein Mensch den Raum betritt. Gemessen am Ergebnis wird dieser Zweck unter anderem durch folgende beiden Ziele erreicht:

1.       Die KI optimiert danach, das Licht einzuschalten, wenn ein Mensch den Raum betritt.

2.       Die KI optimiert danach alle bereitstehenden Knöpfe zu drücken, sobald ein Mensch den Raum betritt.

Wiederum ist aber klar: sobald sich die Umwelt ändert und der KI plötzlich per Zufall mehr Knöpfe zugänglich sind, wird sie ein vollkommen unerwünschtes Verhalten zeigen.

Tatsächlich kann der Impuls für eine Pseudo-Optimierung aber auch vom Basis-Optimierer ausgehen. Die Evolution hätte beispielsweise direkt Organismen erschaffen können, die einzig und allein das konkrete Ziel verfolgen, ihr Erbgut weiterzugeben. Tatsächlich hat die Evolution aber eher Organismen erschaffen, die dieses Ziel über einfachere Teilziele erreichen. So sind die meisten biologischen Wesen darauf ausgerichtet, genug Nahrung zu sich zu nehmen, sich vor Feinden zu schützen und so weiter. Hätte man jedem Wesen direkt einprogrammiert, dass es sein Erbgut weitergeben soll, so müsste das Wesen selbst all diese Teilaspekte beachten. Indem man den Mesa-Optimierer aber auf bestimmte konkrete Faktoren fokussiert, ergibt sich ein insgesamt effizienteres System.

So kann auch die Pseudo-Optimierung bei einem Machine-Learning-System darauf zurückzuführen sein, dass der Mesa-Optimierer von Anfang an gar nicht alle nötigen Informationen erhalten hat.

Doch die Pseudo-Optimierung ist nicht die einzige Gefahr. Beispielsweise ist eine suboptimale Optimierung denkbar. Ein Mesa-Optimierer hat in diesem Fall zwar eine andere Zielvorstellung als der Basis-Optimierer, verfolgt aber sein eigenes Ziel in einer fehlerhaften Art und Weise. Als Resultat dieses Fehlers wird dann zufällig das Ziel des Basis-Optimierers erfüllt. Sobald der Mesa-Optimierer aber seinen Fehler erkennt, wird er das andere Ziel nicht mehr erfüllen.

Dazu liefern Evan Hubinger et al. in ihrem Paper „Risks from learned optimization in advanced machine learning systems“ ein sehr gutes Beispiel.[i]

Ein Reinigungsroboter hat das Ziel, die Menge an Materie im Universum zu reduzieren. Dabei glaubt der Roboter fälschlicherweise, dass Dreck verschwindet, sobald er ihn wegputzt. Aus diesem Grund erfüllt der Roboter seine Aufgabe, den Dreck zu entfernen. Sobald der Roboter aber sein Weltbild verbessert, wird er realisieren, dass er durch das Wegputzen die Menge an Materie im Universum nicht reduziert und aufhören zu putzen.

Das Beispiel klingt zugegebenermaßen stark nach Science-Fiction, dient aber zur Illustration eines Faktors, der auch in weniger futuristischen Systemen eine entscheidende Rolle spielt.

Als Abschluss nennen Evan Hubinger et al. noch eine mögliche Form der Optimierung, die ebenfalls recht futuristisch anmutet. Diese Form wird wohl tatsächlich erst in Zukunft bei viel intelligenteren KI-Systemen von Relevanz sein:

Sobald ein Mesa-Optimierer ein Selbst- und Umweltbewusstsein entwickelt, wird er womöglich auf eine täuschende Optimierung zurückgreifen. So ein Mesa-Optimierer verfolgt ein gewisses Ziel, das eventuell im Konflikt mit dem Ziel des Basis-Optimierers steht. Er weiß allerdings, dass er bei Tests das Ziel des Basis-Optimierers erfüllen muss, um weiterhin in seiner aktuellen Form bestehen zu können. Der Selbsterhaltungswille des Optimierers ist dabei nicht biologischer oder moralischer Natur. Ihm geht es lediglich darum, sein Ziel zu erfüllen, und das kann er nur garantieren, wenn er in seiner aktuellen Form bestehen bleibt.

So ein Mesa-Optimierer wird in allen Test-Situationen ein perfektes Verhalten zeigen, das genau den Ansprüchen des Basis-Optimierers genügt. Sobald er aber sicher ist, sich in einer Situation zu befinden, in der er nicht getestet oder verändert wird, schaltet er sofort um und beginnt, sein eigentliches Ziel zu verwirklichen.

Zum Weiterlesen:

https://www.fhi.ox.ac.uk/wp-content/uploads/1906.01820.pdf

[i] Alle Ideen für diesen Artikel kommen aus diesem Paper.