text

Vergessliche KI-Systeme

In den letzten Jahren gab es auf dem Gebiet der Künstlichen Intelligenz einige herausragende Durchbrüche. In vielen Fällen beziehen sich diese Durchbrüche aber auf einzelne Aufgaben. KI-Systeme werden also immer besser darin, spezifische Aufgaben möglichst optimal durchzuführen.

In Bezug auf das Erinnerungsvermögen sind KI-Systeme der tierischen Intelligenz aber oft noch weit unterlegen. Wenn ein KI-System zuerst die Aufgabe A und dann die Aufgabe B lernt, kommt es bei vielen Systemen zu katastrophalem Vergessen. Die Modelle stellen sich also so genau auf die neue Aufgabe B ein, dass sie die alte Aufgabe A nicht mehr durchführen können.

Aus diesem Grund fokussieren sich viele Entwickler auf das sogenannte Multitasking-Lernparadigma. Dabei gibt man der KI gleichzeitig die Daten von verschiedenen Aufgaben. Dadurch stellt sich das System gleichzeitig auf alle Aufgaben ein und muss sich keine „alten“ Aufgaben merken.

In der Praxis sind solche Systeme aber nicht immer umsetzbar. In manchen Anwendungsgebieten muss die KI in der Lage sein, neue Aufgaben zu lernen, ohne ältere Aufgaben zu vergessen.

Eine potentielle Lösung für dieses Problem lieferten einige DeepMind-Forscher in ihrem 2017 erschienenen Paper „Overcoming catastrophic forgetting in neural networks“.

Für ihre Lösung der elastischen Gewichtsverstärkung orientierten sich die Forscher an Erkenntnissen rund um die kognitiven Prozesse von Mäusen. Bei den neuronalen Netzwerken von Mäusen und anderen Säugetieren verlieren bestehende Synapsen ihre Plastizität, wenn sie besonders wichtig für eine bestimmte Aufgabe sind.[i]

Bei der elastischen Gewichtsverstärkung greift man auf das exakt selbe Prinzip zurück. Wenn die Gewichte in einem Machine-Learning-Netzwerk besonders wichtig für eine bestehende Aufgabe sind, werden sie in darauffolgenden Lernprozessen weniger verändert.

Dieses System funktioniert, weil ein und dieselbe Aufgabe durch verschiedene Netzwerkkonstellationen durchgeführt werden kann. Mit der elastischen Gewichtsverstärkung findet man nun genau jene Netzwerkkonstellationen für Aufgabe A, die auch für Aufgabe B ein optimales Ergebnis liefern.

Zum Weiterlesen:

https://arxiv.org/pdf/1612.00796.pdf

[i] Die Funktionsweise ist hier sehr vereinfacht formuliert.