Qualität von Large Language Models für praxisnahe Applikationen (QuaLlamA )
Generative Künstliche Intelligenz (GenAI) hat als Technologie über ihre prominenteste Anwendung ChatGPT breite Bekanntheit erlangt. Mittlerweile hat sich der Hype gelegt und die dahinterliegende Methodik muss sich einer kritischen Befragung stellen. In der Praxis begeistert die Technologie mit überraschend vielfältigen Anwendungsfällen, die jedoch überraschend häufig am Ende doch enttäuschen.
Ein Blick auf die Qualität von Large Language Models ist dringend nötig: als prominentes Qualitätsproblem ist die Neigung von GenAI-Modellen zu Halluzinationen bekannt: ChatGPT lügt manchmal dreist. Danebengibt aber es zahlreiche weitere Aspekte, z.B. Datenbias, unplausible Antworten, fehlende Interpretierbarkeit, Kontrolle von Datenschutz und Urheberrecht, irreführende/ sprachlich unangemessene Antworten, aber auch technische Fragen der Skalierung, Performanz sowie monetäre Faktoren
Das Projekt QuaLlamA - Qualität von Large Language Models für praxisnahe Applikationen - strebt eine systematische Auseinandersetzung mit der Frage der Qualitätsbewertung und-Sicherung des Outputs von GenAI unter realistischen, unternehmensnahen Bedingungen an. Der Schwerpunkt soll dabei auf realen Anwendungsfällen aus dem Produktionsbereich liegen, vorzugsweise im direkten Feedback-Austausch mit institutionellen oder unternehmerischen Entwicklungspartnern.
Projektlaufzeit
Projektleitung
- Prof. Dr. Christina Kratsch (Projektleitung)