Momentum (Optimierung)

Momentum ist eine Technik, die im Bereich des maschinellen Lernens und der Optimierung eingesetzt wird, um den Prozess des Gradientenabstiegs zu beschleunigen. Der Gradientenabstieg ist ein grundlegendes Verfahren zur Minimierung der Fehlerfunktion in neuronalen Netzen. Ohne Momentum kann dieser Prozess manchmal langsam sein oder in lokalen Minima stecken bleiben, was die Konvergenz verzögert.

Die Idee hinter dem Momentum besteht darin, dem Update-Prozess eine gewisse „Trägheit“ zu verleihen. Konkret wird dabei ein Teil des letzten Updates zum aktuellen Update hinzugefügt. Dieser Anteil wird durch ein sogenanntes Momentum-Koeffizient (in der Regel als β bezeichnet) bestimmt, dessen Wert usually zwischen 0 und 1 liegt. Die Aktualisierung der Gewichte erfolgt somit nicht nur auf Basis des aktuellen Gradienten, sondern auch auf Basis der vorherigen Aktualisierungen.

Durch die Hinzufügung des Momentum-Terms wird der Optimierungsprozess stabilisiert und die Konvergenz beschleunigt. Dies liegt daran, dass das Momentum hilft, über lokale Minima hinwegzukommen und die Schritte in Richtung des globalen Minimums zu glätten. Darüber hinaus reduziert das Momentum das Rauschen, das durch stochastische Gradientenabstiege entstehen kann.

In der Praxis wird Momentum häufig in Kombination mit anderen Optimierungstechniken wie Adam oder RMSProp eingesetzt, um die Leistung weiter zu verbessern. Es ist ein wichtiger Bestandteil moderner Deep-Learning-Algorithmen und trägt maßgeblich zur Effizienz der Schulung neuronaler Netze bei.