Ein Korpus bezeichnet in der künstlichen Intelligenz (KI) eine umfangreiche und strukturierte Sammlung von Daten, meist in Form von Texten, die zur Trainierung und Entwicklung von KI-Modellen, insbesondere im Bereich der natürlichen Sprachverarbeitung (NLP), verwendet wird. Der Begriff leitet sich vom englischen „corpus“ ab, was wörtlich übersetzt „Körper“ bedeutet und in diesem Kontext eine zentrale Rolle bei der Ausbildung von Sprachmodellen spielt.
Die Bedeutung eines Korpus liegt darin, dass es KI-Systemen ermöglicht, Muster, Grammatik und Vokabular einer Sprache zu lernen. Ohne einen repräsentativen und vielfältigen Datensatz können KI-Modelle nicht effektiv trainiert werden. Ein Korpus dient somit als Grundlage für Anwendungen wie maschinelle Übersetzung, Textgenerierung, Sentiment-Analyse und viele weitere sprachbasierte Aufgaben.
Ein guter Korpus zeichnet sich durch mehrere Eigenschaften aus: Er sollte groß genug sein, um die Vielfalt der Sprache abzubilden, und gleichzeitig spezifisch genug, um die Anforderungen einer bestimmten Aufgabe zu erfüllen. Es gibt allgemeine Korpora, die aus großen Mengen an Texten aus dem Internet oder Büchern bestehen, sowie spezialisierte Korpora, die für bestimmte Domänen wie Medizin oder Recht erstellt werden.
Die Qualität eines Korpus ist entscheidend für die Leistungsfähigkeit eines KI-Modells. Dies umfasst die Repräsentativität der Daten, die Freiheit von Voreingenommenheiten und die Sicherstellung, dass die Daten nicht mit unerwünschten Informationen kontaminiert sind. Zudem spielt die Privatsphäre eine Rolle, da personenbezogene Daten oft im Korpus enthalten sein können.
Insgesamt ist ein Korpus ein unverzichtbarer Bestandteil der KI-Entwicklung, da es die Grundlage für das Lernen und die Verbesserung von Sprachmodellen bildet. Ohne einen zuverlässigen und umfangreichen Datensatz können KI-Systeme nicht die gewünschte Präzision und Zuverlässigkeit erreichen.