Empirisches Risiko bezeichnet im Bereich des Maschinellen Lernens die Fähigkeit eines Modells, die ihm präsentierten Trainingsdaten korrekt zu klassifizieren oder vorherzusagen. Es handelt sich um den Fehler, der auf dem Trainingsdatensatz auftritt, und dient als Maß für die Leistung des Modells auf bekannten Daten. Das empirische Risiko wird typischerweise durch den durchschnittlichen Fehler berechnet, der bei der Anwendung des Modells auf die Trainingsdaten auftritt.
Ein geringes empirisches Risiko bedeutet, dass das Modell die Trainingsdaten gut verstanden hat. Allerdings ist es wichtig zu beachten, dass ein geringes empirisches Risiko nicht unbedingt bedeutet, dass das Modell auch auf neuen, unbekannten Daten gut performen wird. Dieses Phänomen wird als Überanpassung (Overfitting) bezeichnet und tritt auf, wenn das Modell zu sehr auf die Besonderheiten des Trainingsdatensatzes ausgerichtet ist.
Um das empirische Risiko zu managen, werden verschiedene Techniken eingesetzt, wie z.B. Regularisierung, die das Modell davon abhält, sich zu sehr an die Trainingsdaten anzupassen, oder die Verwendung von Validierungstechniken wie dem K-fach-Kreuzvalidierung (Cross-Validation), um die allgemeine Leistungsfähigkeit des Modells besser abzuschätzen.
Das Verständnis des empirischen Risikos ist entscheidend für den Aufbau zuverlässiger und allgemein anwendbarer Modelle im Bereich des Maschinellen Lernens.