Die erste Gefahr besteht in der Pseudo-Übereinstimmung.
Man nehme als Beispiel einen Waschroboter mit Künstlicher Intelligenz. Das eigentliche Ziel des Basis-Optimierers ist saubere Kleidung. Um dieses Ziel zu erreichen, wurde ein Mesa-Optimierer erschaffen. Dieser verfolgt allerdings das Ziel, möglichst viel Schmutz von der Kleidung zu entfernen. Im Normallfall ist das kein Problem und wenn der Mesa-Optimierer viel Schmutz entfernt, ist auch der Basis-Optimierer zufrieden. Was aber, wenn der Mesa-Optimierer einen Weg findet, die Kleidung wieder schmutzig zu machen? Natürlich würde er dann die Kleidung nach jedem Waschvorgang wieder verdrecken, denn so kann er seinen Gesamtmaß an Schmutzentfernung enorm erhöhen.
Pseudo-Optimierung zeichnet sich also dadurch aus, dass der Mesa-Optimierer mit seinem ursprünglichen Verhalten auch das Ziel des Basis-Optimierers erfüllt. Doch sobald es zu gewissen Änderungen in der Wahrnehmung des Mesa-Optimierers oder im Zustand der Umwelt kommt, kann eine plötzliche totale Divergenz zwischen den Interessen von Mesa- und Basis-Optimierer entstehen.
Read More