SkillsBench: Kuratierte Skills verbessern die Leistung von LLM-Agenten, doch die Selbsterzeugung scheitert überraschend

Einleitung: LLM-Agenten sind das Herzstück vieler innovativer Anwendungen im Bereich der Künstlicher Intelligenz. Doch wie effektiv sind die sogenannten „Skills“ – vorgefertigte oder selbstgenerierte Anleitungen und Wissensmodule –, die ihre Problemlösungsfähigkeiten erweitern sollen? Eine bahnbrechende Studie namens SkillsBench liefert nun umfassende Antworten und überraschende Erkenntnisse.

SkillsBench: Ein neuer Maßstab für LLM-Agenten-Fähigkeiten

SkillsBench ist das erste Forschungsvorhaben und der erste Benchmark, der Agent Skills als eigenständiges Artefakt systematisch testet. Ein internationales Team von Autor:innen aus über 15 führenden Universitäten hat hierfür eine beeindruckende Studie durchgeführt.

Die Forscher:innen stellten sich der Aufgabe, die tatsächliche Wirkung von Skills unter die Lupe zu nehmen. Dafür wurden:

86 Aufgaben aus 11 verschiedenen Domänen (z.B. Medizin, Produktion, Softwareentwicklung) gesammelt.
7 unterschiedliche Modellkonfigurationen evaluiert (u.a. Claude-Modelle wie Opus, Sonnet und Haiku in den Versionen 4.5 und 4.6, sowie Gemini-Modelle wie Gemini 3 Pro und Flash, und eine Konfiguration basierend auf GPT-5.2).
3 Bedingungen untersucht: Ohne Skills, mit fertig kuratierten Skills und mit selbstgenerierten Skills.

Insgesamt resultierten daraus über 7.308 Trajektorien, deren Ergebnisse mittels deterministischer Verifikatoren auf Basis von pytest überprüft wurden.

Kuratierte Skills: Ein deutlicher Leistungsschub

Die Ergebnisse sind eindeutig, wenn es um gut kuratierte, also vorgefertigte Skills geht: Sie steigern die durchschnittliche Erfolgsrate signifikant.

Effekt von Kuratierten Skills auf die Erfolgsrate:

Bedingung	Durchschnittliche Erfolgsrate	Anstieg (Prozentpunkte)
Ohne Skills	24,3 %	-
Mit Kuratierten Skills	40,6 %	+16,3

Dieser Anstieg von 16,3 Prozentpunkten ist beachtlich, doch die Effekte verteilen sich nicht gleichmäßig über alle Domänen.

Domänenspezifische Unterschiede

Wo Modelle im Training weniger gut abgedeckt sind, entfalten Skills ihre größte Wirkung:

Medizin: +51,9 %
Produktion: +41,9 %
Softwareentwicklung: +4,5 %

Dies ist logisch: In Bereichen wie klinischen Protokollen oder industriellen Workflows, in denen die Modelle standardmäßig wenig spezifisches Wissen besitzen, liefern externe Skills den größten Mehrwert. Dort, wo ein Modell den Domäneninhalt bereits gut kennt (wie oft in der allgemeinen Softwareentwicklung), ist der zusätzliche Nutzen durch Skills geringer.

Die unerwartete Ernüchterung: Selbstgenerierte Skills versagen

Der wohl überraschendste und wichtigste Befund der Studie ist die Ineffektivität der selbstgenerierten Skills. Wenn LLM-Agenten beauftragt wurden, zuerst die notwendigen Anleitungen oder „Guides“ selbst zu erstellen und anschließend die Aufgabe zu lösen, fielen die Ergebnisse dramatisch ab.

Leistungsvergleich: Selbstgenerierte Skills vs. Ohne Skills

Bedingung	Durchschnittliche Veränderung (Prozentpunkte)
Selbstgenerierte Skills (Durchschnitt)	-1,3 %
Claude Opus 4.6	+1,4 %
GPT-5.2	-5,6 %

Im Durchschnitt sank die Erfolgsrate sogar um 1,3 Prozentpunkte im Vergleich zur Arbeit ganz ohne Skills. Lediglich Claude Opus 4.6 zeigte einen minimalen positiven Effekt, während Modelle wie GPT-5.2 deutliche Einbußen hinnehmen mussten.

Fazit: Modelle sind derzeit nicht in der Lage, das Wissen zuverlässig zu generieren, das sie anschließend effektiv nutzen könnten. Dies unterstreicht eine fundamentale Herausforderung in der Entwicklung autonomer Agenten.

Die Dosis macht das Gift: Optimaler Umfang von Skills

Ein weiterer interessanter Aspekt ist der Umfang der bereitgestellten Skills. Mehr ist nicht immer besser.

2–3 Module: Bester Zuwachs von +18,6 % bei der Erfolgsrate.
4 oder mehr Module: Nur +5,9 % Zuwachs.
Detaillierte Dokumentation: Negativer Effekt von –2,9 %.

Eine übermäßige und detaillierte Dokumentation kann sogar kontraproduktiv sein, da der Agent im „Kontext“ ertrinkt und die relevanten Informationen nicht effizient extrahieren kann. Dies ist ein wichtiger Hinweis für Entwickler:innen, die Skills für ihre Agenten designen.

Kosteneffizienz: Kleine Modelle mit Skills schlagen Große ohne

Die Studie lieferte auch spannende Einblicke in die Kosteneffizienz:

Haiku 4.5 mit Skills konnte Opus 4.5 ohne Skills übertreffen. Eine kleinere und günstigere Modellkonfiguration mit den richtigen Skills schlägt die größere und teurere Variante ohne diese Unterstützung.
Gemini 3 Flash zeigte mit Skills den besten Wert unter allen Konfigurationen: 48,7 % Erfolgsrate bei Kosten von nur $0,57 pro Aufgabe. Dies steht im Kontrast zu Gemini 3 Pro, das $1,06 pro Aufgabe kostete.

Diese Ergebnisse zeigen, dass eine strategische Integration von Skills nicht nur die Leistung verbessert, sondern auch die Betriebskosten von LLM-Agenten deutlich senken kann.

Fazit und Ausblick

SkillsBench liefert kritische Einblicke in die Welt der LLM-Agenten. Während gut kuratierte Skills ein mächtiges Werkzeug zur Leistungssteigerung darstellen, insbesondere in spezialisierten Domänen, ist die Fähigkeit zur Selbstgenerierung von Wissen noch ein ungelöstes Problem. Entwickler:innen sollten sich auf die Bereitstellung prägnanter, relevanter Skills konzentrieren und die Illusion einer autonomen Wissensgenerierung durch Agenten vorerst hinter sich lassen.

Die Studie unterstreicht das Potenzial optimierter Agenten-Workflows, bei denen der Mensch eine entscheidende Rolle bei der Kuration und dem Design effektiver Fähigkeiten spielt. Dies ebnet den Weg für effizientere und kostengünstigere KI-Anwendungen.

Quelle: https://www.skillsbench.ai/