Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (2024)

Zahlreiche Metriken und Benchmarks wollen dabei helfen, das "beste" LLM auszuwählen. Ganz so einfach ist es aber nicht.

Artikel verschenken

In Pocket speichern vorlesen Druckansicht

Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (1)

Inhaltsverzeichnis

Zwar verfügen große Sprachmodelle (Large Language Models, LLMs) über nützliche Fähigkeiten, das Einbinden in die alltägliche Arbeit gestaltet sich jedoch schwierig: Oft fehlen verlässliche Informationen zur Qualität der Modelle und der für das Training verwendeten Daten, es gibt eine stetig wachsende Zahl von Benchmarks und Metriken zur Beurteilung der Modelle und schließlich entstehen weltweit umfangreiche gesetzliche Regelwerke für den Einsatz von KI, die verstanden und eingehalten werden müssen. Für Anwender wird es deshalb immer wichtiger, generative KI-Modelle sinnvoll zu bewerten.

Große Foundation-Modelle, zu denen die LLMs gehören, können zwar immer öfter auch mit multimodalen Daten wie Text, Bild oder Audio umgehen. Dieser Artikel konzentriert sich jedoch auf aktuelle Bewertungsmethoden für große generative Sprachmodelle, also Metriken und Benchmarks für die Verarbeitung von Sprachdaten (Natural Language Processing).

Mehr zum Thema Künstliche Intelligenz (KI)
  • Warum sich Datenschutzbehörden mit ChatGPT und Co. schwertun
  • Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick
  • Marktübersicht: KI-Server mit GPUs im Überblick
  • Künstliche Intelligenz: teuer, US-amerikanisch, Big-Tech-dominiert
  • PyTorch: Eigene Bildgenerierungs-KI mit Python bauen
  • Website per KI hacken: Browser-Skripte mit ChatGPT und Co. generieren
  • Trend-Beruf: Mit diesen Fähigkeiten wird man KI-Experte
  • Transkriptionsdienste: Whisper V3 im Vergleich mit Online-Diensten
  • Projekt noFake trainiert Datenmodelle für Faktenchecks
  • Lokale KI verschlagwortet Fotosammlung auf NAS
  • Multi-Agenten-Systeme: Automatisierte Leistungsanpassung für bessere KI
  • Fremdsprachen lernen: Wie man ChatGPT zum Sprechtrainer aufrüstet
Andreas Christian
Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (2)

Andreas Christian ist Senior Information Architecture und Technical Sales Specialist bei IBM DACH.

Kush R. Varshney
Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (3)

Kush R. Varshney ist IBM Fellow für AI Governance bei IBM Research.

Trotz des weitreichenden Einsatzes großer Sprachmodelle fehlt es derzeit an einem klaren Verständnis dafür, wie sie funktionieren, wozu sie grundsätzlich fähig sind und wann sie versagen könnten. Weiterhin decken die aktuell verfügbaren Bewertungsansätze für LLMs nicht alle Risikobereiche ab. Es gibt also viele gute Gründe, sich vor dem Einsatz von LLMs mit deren Risiken vertraut zu machen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Raspi: Eigene Serverdienste mit einem Klick einrichtenDie Software Umbrel ermöglicht, Cloud-Dienste wie Home Assistant mit einemKlick einzurichten. Dadurch wird die Softwareverwaltung auf einem Raspi erleichtert.
Kamera-Objektive: Telezooms im VergleichZoomobjektive eignen sich für viele Motive und sind günstiger als mehrere Festbrennweiten. Wir haben vier Telezooms mit Brennweiten bis 600 Millimeter getestet.
Gebrauchter Sophos-Hardware neues Leben einhauchenWir zeigen am Beispiel dreier Sophos-Modelle, wie Sie gebrauchte Firewalls wieder in Lohn und Brot bringen und wofür die Hardware sich noch lohnt.
IT-Gehälter 2024: Das verdienen Security-Experten in Deutschland​ IT-Security-Experten sichern Firmen vor Angriffen, entsprechend hoch ist ihre Verantwortung. Dafür zahlen Firmen hohe Gehälter.
  • Freiberufler: Was 2024 wichtig ist
Prompt-Engineering erklärt: Von der Kunst, die KI zu nutzenUnternehmen wollen jetzt den nächsten Schritt gehen und die Anwendung von KI professionalisieren. Für Mitarbeiter bleibt Frage, ob ihr Job in Gefahr ist.
Deutsche Hersteller bereiten sich auf Kernfusionstechnik vorKernfusion als Energiequelle der Zukunft gilt als nahezu unerschöpflich, aus menschlicher Perspektive. Deutsche Hersteller entwickeln wesentliche Grundlagen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Raspi: Eigene Serverdienste mit einem Klick einrichtenDie Software Umbrel ermöglicht, Cloud-Dienste wie Home Assistant mit einemKlick einzurichten. Dadurch wird die Softwareverwaltung auf einem Raspi erleichtert.
Kamera-Objektive: Telezooms im VergleichZoomobjektive eignen sich für viele Motive und sind günstiger als mehrere Festbrennweiten. Wir haben vier Telezooms mit Brennweiten bis 600 Millimeter getestet.
Gebrauchter Sophos-Hardware neues Leben einhauchenWir zeigen am Beispiel dreier Sophos-Modelle, wie Sie gebrauchte Firewalls wieder in Lohn und Brot bringen und wofür die Hardware sich noch lohnt.
IT-Gehälter 2024: Das verdienen Security-Experten in Deutschland​ IT-Security-Experten sichern Firmen vor Angriffen, entsprechend hoch ist ihre Verantwortung. Dafür zahlen Firmen hohe Gehälter.
  • Freiberufler: Was 2024 wichtig ist
Prompt-Engineering erklärt: Von der Kunst, die KI zu nutzenUnternehmen wollen jetzt den nächsten Schritt gehen und die Anwendung von KI professionalisieren. Für Mitarbeiter bleibt Frage, ob ihr Job in Gefahr ist.
Deutsche Hersteller bereiten sich auf Kernfusionstechnik vorKernfusion als Energiequelle der Zukunft gilt als nahezu unerschöpflich, aus menschlicher Perspektive. Deutsche Hersteller entwickeln wesentliche Grundlagen.
Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (2024)
Top Articles
Latest Posts
Article information

Author: Dan Stracke

Last Updated:

Views: 6111

Rating: 4.2 / 5 (43 voted)

Reviews: 90% of readers found this page helpful

Author information

Name: Dan Stracke

Birthday: 1992-08-25

Address: 2253 Brown Springs, East Alla, OH 38634-0309

Phone: +398735162064

Job: Investor Government Associate

Hobby: Shopping, LARPing, Scrapbooking, Surfing, Slacklining, Dance, Glassblowing

Introduction: My name is Dan Stracke, I am a homely, gleaming, glamorous, inquisitive, homely, gorgeous, light person who loves writing and wants to share my knowledge and understanding with you.