Bias-Varianz-Dilemma
Mit besser werdender Rechenleistung und größeren Datenzentren erhalten auch Modelle immer mehr Einzug in die Entscheidungsprozesse von Unternehmen und Einzelpersonen. Gerade sehr komplexe Situationen benötigen auch komplizierte und ausgeklügelte Modelle – so die weitläufige These.
Der Fehler dieser weitläufigen These: Sie missachtet das Bias-Varianz-Dilemma.
Denn schlussendlich geht es nur darum, dass die Modelle möglichst wenige Fehler machen.
Ein einfaches Modell macht in komplizierten Situationen unweigerlich Fehler. Denn ein einfaches Modell kann bei Weitem nicht alle Faktoren miteinbeziehen, die in der komplizierten Entscheidungssituation eine Rolle spielen.
Den durchschnittlichen Fehler des Modelles – die durchschnittliche Abweichung von der Realität - bezeichnet man im statistischen Fachjargon als Bias. Ein einfaches Modell hat in der Regel einen höheren Bias als ein kompliziertes Modell.
Allerdings übersehen viele, dass nicht nur der Bias eine Rolle spielt – auch die Varianz kann zu fehlerhaften Ergebnissen führen.
Die Varianz beschreibt – vereinfacht gesprochen – wie stark die einzelnen Ergebnisse des Modelles im Schnitt vom Mittelwert des Modells abweichen. Im Grunde bedeutet eine hohe Varianz also, dass ein Modell sehr sensibel auf Unterschiede in den zugrundeliegenden Daten reagiert.
Ein einfaches Modell hat in der Regel eine geringere Varianz als ein kompliziertes Modell.
Der Grund dafür ist ganz einfach: Ein komplexes Modell ist sehr flexibel, kann also die verschiedensten Zusammenhänge und Korrelationen aus der Datenbasis herauslesen. Dadurch wird der Bias gering. Allerdings identifiziert so ein komplexes Modell auch jene Zusammenhänge und Korrelationen in der Datenbasis, die nur auf Fehler oder Störungen in den Daten zurückzuführen sind. Dadurch wird die Varianz groß.
Bei einer qualitativ hochwertigen und quantitativ ausgiebigen Datenlage ist der Bias die größte Fehlerquelle eines Modells. Befindet man sich aber in einem Umfeld mit schlechten Daten, viel Unsicherheit oder einer großen Menge an verschiedenen Optionen, so wird die Varianz zur Hauptfehlerquelle.[i]
Zum Weiterlesen:
https://onlinelibrary.wiley.com/doi/epdf/10.1111/j.1756-8765.2008.01006.x
https://towardsdatascience.com/bias-variance-dilemma-74e5f1f52b12
[i] Die Menge an Optionen ist deshalb relevant, weil für jede Option eigene Daten benötigt werden, die Gesamtvarianz steigt also stark an, wenn es mehr Alternativen gibt. Jede Option ist sozusagen ein eigener Varianzfaktor.