Varianz
Varianz ist ein zentraler Begriff in der Statistik und Maschinelles Lernen, der die Streuung oder Schwankung von Daten oder Vorhersagen misst. Im Kontext des Maschinellen Lernens beschreibt die Varianz, wie sehr die Vorhersagen eines Modells variieren können, wenn es auf unterschiedliche Trainingsdatensätze angewendet wird. Eine hohe Varianz bedeutet, dass das Modell empfindlich auf Änderungen im Trainingsdatensatz reagiert, was oft zu Überanpassung (Overfitting) führen kann. Ein Modell mit hoher Varianz passt sich zwar gut an die Trainingsdaten an, liefert aber möglicherweise schlechte Vorhersagen für neue, unbekannte Daten.
Die Varianz steht im Zusammenhang mit dem Bias-Varianz-Tradeoff, einem grundlegenden Konzept im Maschinellen Lernen. Während der Bias die systematische Abweichung des Modells von den tatsächlichen Werten beschreibt, umfasst die Varianz die Schwankungsbreite der Vorhersagen. Ein gutes Modell zielt auf eine ausgewogene Kombination aus geringem Bias und geringer Varianz ab, um sowohl genaue als auch zuverlässige Vorhersagen zu liefern.
In der Praxis kann eine hohe Varianz durch verschiedene Techniken wie Regularisierung, Cross-Validation oder Ensemble-Methoden reduziert werden. Diese Ansätze helfen, die Stabilität des Modells zu erhöhen und seine Vorhersagen zuverlässiger zu machen.