Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (2024)

Zahlreiche Metriken und Benchmarks wollen dabei helfen, das "beste" LLM auszuwählen. Ganz so einfach ist es aber nicht.

Artikel verschenken

In Pocket speichern vorlesen Druckansicht

21.05.2024, 14:30 Uhr

Lesezeit: 18Min.

iX Magazin

Von

Andreas Christian
Kush Varshney

Inhaltsverzeichnis

Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick
- Übersicht zu Bewertungsansätzen für LLMs
- Bewertung von LLMs im Modelllebenszyklus
- Feintunen, Prompt Engineering und Monitoring
- Metriken für die Bewertung von LLMs
- BERTScore: Schwächen älterer Metriken ausgleichen
- Benchmarks und Bewertungsframeworks für LLMs
- HELM, Evaluation Harness und FM-eval
- Vollautomatisierte Bewertung – LLM as a Judge
- Human Red Teaming
- Fazit

Artikel in iX 6/2024 lesen

Zwar verfügen große Sprachmodelle (Large Language Models, LLMs) über nützliche Fähigkeiten, das Einbinden in die alltägliche Arbeit gestaltet sich jedoch schwierig: Oft fehlen verlässliche Informationen zur Qualität der Modelle und der für das Training verwendeten Daten, es gibt eine stetig wachsende Zahl von Benchmarks und Metriken zur Beurteilung der Modelle und schließlich entstehen weltweit umfangreiche gesetzliche Regelwerke für den Einsatz von KI, die verstanden und eingehalten werden müssen. Für Anwender wird es deshalb immer wichtiger, generative KI-Modelle sinnvoll zu bewerten.

Große Foundation-Modelle, zu denen die LLMs gehören, können zwar immer öfter auch mit multimodalen Daten wie Text, Bild oder Audio umgehen. Dieser Artikel konzentriert sich jedoch auf aktuelle Bewertungsmethoden für große generative Sprachmodelle, also Metriken und Benchmarks für die Verarbeitung von Sprachdaten (Natural Language Processing).

Mehr zum Thema Künstliche Intelligenz (KI)

Warum sich Datenschutzbehörden mit ChatGPT und Co. schwertun
Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick
Marktübersicht: KI-Server mit GPUs im Überblick
Künstliche Intelligenz: teuer, US-amerikanisch, Big-Tech-dominiert
PyTorch: Eigene Bildgenerierungs-KI mit Python bauen
Website per KI hacken: Browser-Skripte mit ChatGPT und Co. generieren
Trend-Beruf: Mit diesen Fähigkeiten wird man KI-Experte
Transkriptionsdienste: Whisper V3 im Vergleich mit Online-Diensten
Projekt noFake trainiert Datenmodelle für Faktenchecks
Lokale KI verschlagwortet Fotosammlung auf NAS
Multi-Agenten-Systeme: Automatisierte Leistungsanpassung für bessere KI
Fremdsprachen lernen: Wie man ChatGPT zum Sprechtrainer aufrüstet

Andreas Christian

Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (2)

Andreas Christian ist Senior Information Architecture und Technical Sales Specialist bei IBM DACH.

Kush R. Varshney

Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (3)

Kush R. Varshney ist IBM Fellow für AI Governance bei IBM Research.

Trotz des weitreichenden Einsatzes großer Sprachmodelle fehlt es derzeit an einem klaren Verständnis dafür, wie sie funktionieren, wozu sie grundsätzlich fähig sind und wann sie versagen könnten. Weiterhin decken die aktuell verfügbaren Bewertungsansätze für LLMs nicht alle Risikobereiche ab. Es gibt also viele gute Gründe, sich vor dem Einsatz von LLMs mit deren Risiken vertraut zu machen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Raspi: Eigene Serverdienste mit einem Klick einrichtenDie Software Umbrel ermöglicht, Cloud-Dienste wie Home Assistant mit einemKlick einzurichten. Dadurch wird die Softwareverwaltung auf einem Raspi erleichtert.

Kamera-Objektive: Telezooms im VergleichZoomobjektive eignen sich für viele Motive und sind günstiger als mehrere Festbrennweiten. Wir haben vier Telezooms mit Brennweiten bis 600 Millimeter getestet.

Gebrauchter Sophos-Hardware neues Leben einhauchenWir zeigen am Beispiel dreier Sophos-Modelle, wie Sie gebrauchte Firewalls wieder in Lohn und Brot bringen und wofür die Hardware sich noch lohnt.

IT-Gehälter 2024: Das verdienen Security-Experten in Deutschland IT-Security-Experten sichern Firmen vor Angriffen, entsprechend hoch ist ihre Verantwortung. Dafür zahlen Firmen hohe Gehälter.

Freiberufler: Was 2024 wichtig ist

Prompt-Engineering erklärt: Von der Kunst, die KI zu nutzenUnternehmen wollen jetzt den nächsten Schritt gehen und die Anwendung von KI professionalisieren. Für Mitarbeiter bleibt Frage, ob ihr Job in Gefahr ist.

Deutsche Hersteller bereiten sich auf Kernfusionstechnik vorKernfusion als Energiequelle der Zukunft gilt als nahezu unerschöpflich, aus menschlicher Perspektive. Deutsche Hersteller entwickeln wesentliche Grundlagen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Gebrauchter Sophos-Hardware neues Leben einhauchenWir zeigen am Beispiel dreier Sophos-Modelle, wie Sie gebrauchte Firewalls wieder in Lohn und Brot bringen und wofür die Hardware sich noch lohnt.

IT-Gehälter 2024: Das verdienen Security-Experten in Deutschland IT-Security-Experten sichern Firmen vor Angriffen, entsprechend hoch ist ihre Verantwortung. Dafür zahlen Firmen hohe Gehälter.

Freiberufler: Was 2024 wichtig ist