Bagging

Bagging, oder Bootstrap Aggregating, ist eine Technik im Maschinellen Lernen, die dazu dient, die Stabilität und Genauigkeit von Modellen zu verbessern. Die Grundidee besteht darin, multiple Instanzen eines Modells zu erstellen und deren Vorhersagen zu kombinieren, um so die Gesamtleistung zu steigern.

Bagging funktioniert, indem man mehrere Teilmengen der Trainingsdaten erzeugt, wobei jede Teilmenge als Bootstrap-Stichprobe bezeichnet wird. Eine Bootstrap-Stichprobe ist eine Zufallsstichprobe, die mit Zurücklegen der Elemente gewählt wird, was bedeutet, dass jede Stichprobe die gleiche Größe wie die ursprünglichen Daten hat, aber einige Beobachtungen mehrfach vorkommen können. Auf jede dieser Teilmengen wird dann ein Modell trainiert, und die Vorhersagen dieser Modelle werden anschließend kombiniert, typischerweise durch Abstimmung oder Mittelwertbildung.

Diese Methode hilft, Überanpassung zu reduzieren, da jedes Modell auf einem leicht unterschiedlichen Datensatz trainiert wird, wodurch die Überanpassung der einzelnen Modelle gemittelt wird. Zudem macht Bagging Modelle unempfindlicher gegenüber Ausreißern, da nicht jedes Modell jeden Ausreißer sieht und die Kombination der Vorhersagen diese Effekte glättet.

Bagging eignet sich besonders gut für Modelle, die anfällig für Überanpassung sind, wie beispielsweise Entscheidungsbäume. Techniken wie Random Forests nutzen Bagging in Kombination mit zufälliger Merkmalsauswahl, um multiple Bäume zu erstellen und deren Vorhersagen zu kombinieren.

Durch die Kombination mehrerer Modelle kann Bagging die allgemeine Genauigkeit verbessern und die Varianz der Vorhersagen reduzieren, was zu robusteren und zuverlässigeren Modellen führt.