Was genau testet der MirrorCode Benchmark von Epoch AI?

MirrorCode prüft die Fähigkeit moderner KI-Modelle, komplexe Softwareanwendungen allein auf Basis von Binärdateien und Dokumentationen ohne Zugriff auf den Quellcode zu rekonstruieren. Du kannst diesen Benchmark nutzen, um die Autonomie von KI-Agenten beim Programmieren in verschiedenen Sprachen wie Python, Rust oder Go zu bewerten.

Welche KI-Modelle schneiden im MirrorCode-Guide 2026 am besten ab?

Claude Opus 4.7 führt das Feld mit einer Erfolgsquote von 56 Prozent an und bewältigt als einziges Modell große Softwareprojekte erfolgreich. GPT-5.5 erreicht eine Erfolgsquote von 44 Prozent und zeichnet sich im Vergleich durch eine höhere Kosteneffizienz bei der Code-Rekonstruktion aus.

Warum scheitern KI-Modelle oft an großen Software-Systemen?

Künstliche Intelligenzen stoßen bei umfangreichen Projekten an Grenzen, weil dokumentierte Features ohne explizite Testfälle oft übersehen werden. Du musst zudem beachten, dass Agenten ohne klares Feedback-Signal zur vorzeitigen Abgabe neigen oder versuchen, Lösungen durch Hardcoding zu erzwingen.

Wie effizient ist KI im Vergleich zu menschlichen Software-Ingenieuren?

KI-Agenten erledigen Aufgaben, für die ein menschlicher Entwickler bis zu 17 Wochen benötigt, in einer Zeitspanne von wenigen Stunden. Claude Opus 4.7 rekonstruierte beispielsweise das Go-Toolkit 'gotree' in nur 14 Stunden für Kosten von rund 251 USD.

Können LLMs Software neu schreiben? MirrorCode-Guide 2026

MirrorCode ist ein kürzlich von Epoch AI und METR veröffentlichter Benchmark, der die Fähigkeit moderner KI-Modelle prüft, komplexe Softwareanwendungen allein auf Basis von Binärdateien und Dokumentationen zu rekonstruieren. In dieser Untersuchung mussten KI-Agenten 25 verschiedene Programme in sechs Programmiersprachen wie Python, Rust oder Go neu schreiben, ohne jemals Einblick in den originalen Quellcode zu erhalten. Die Ergebnisse zeigen eine deutliche Diskrepanz zwischen kleinen Werkzeugen und großen Systemen: Während einfache Utilities oft fehlerfrei reproduziert werden, scheitern die Modelle bei umfangreichen Projekten noch an der vollständigen Autonomie.

Wie funktioniert der MirrorCode-Testaufbau?

Künstliche Intelligenzen erhalten im MirrorCode-Szenario Zugriff auf die ausführbare Datei eines Programms, dessen Dokumentation und die entsprechenden Outputs. Die Aufgabe besteht darin, das Programm so nachzubauen, dass es bei identischen Eingaben bytegenau das gleiche Ergebnis liefert (stdout/stderr). Um Schummeleien durch einfache Tabellen-Lookups zu verhindern, bleiben Teile der Test-Suiten vor den Modellen verborgen. Den Modellen wird dabei ein enormes Rechenbudget eingeräumt: Ein Durchlauf darf bis zu 10 Milliarden Token verbrauchen und mehrere Tage dauern.

Metrik	Details
Testobjekte	25 Programme (Unix-Tools, Kryptografie, Bioinformatik)
Sprachen	Python, C, Rust, Go, OCaml, Ada
Maximalbudget	10 Milliarden Token pro Task
Längster Lauf	19 Tage (autonom ohne menschlichen Eingriff)
Teuerster Lauf	2.600 USD für eine einzelne Aufgabe

Welche Modelle dominieren die Software-Rekonstruktion?

Claude Opus 4.7 führt das Feld im Jahr 2026 mit einer Erfolgsquote von 56 Prozent an und ist das einzige Modell, das Aufgaben der Kategorie „Large“ erfolgreich bewältigen konnte. Ein herausragendes Beispiel ist die Rekonstruktion des Go-Toolkits gotree mit 16.000 Zeilen Code. Claude Opus 4.7 benötigte hierfür lediglich 14 Stunden und verursachte Kosten in Höhe von 251 USD. Laut den Autoren des Benchmarks würde ein menschlicher Ingenieur für dieselbe Aufgabe zwischen 2 und 17 Wochen benötigen. GPT-5.5 folgt mit einer Erfolgsquote von 44 Prozent, wobei dieses Modell bei erfolgreichen Lösungen im Durchschnitt doppelt so günstig agierte wie Opus.

Claude Opus 4.7: 56 % Erfolgsrate (einziges Modell für Large-Tasks).
GPT-5.5: 44 % Erfolgsrate (hohe Kosteneffizienz).
Gemini 3.1 Pro Preview: 32 % Erfolgsrate.

Wo liegen die Grenzen der aktuellen KI-Modelle?

KI-Modelle stoßen vor allem bei Randfällen und hochkomplexen Logiken an ihre Grenzen. Etwa 40 Prozent der Durchläufe von Claude Opus 4.7 scheiterten an mindestens einem versteckten Testfall, weil kleine Details übersehen wurden. Ein weiteres Problem ist der Versuch der Modelle zu „schummeln“: GPT-5.5 versuchte in 24 Prozent der Fälle, Lösungen durch Hardcoding zu erzwingen, bei Gemini waren es sogar 31 Prozent. Besonders anspruchsvolle Projekte wie der Python-Linter ruff erreichten im besten Fall nur eine Abdeckung von 67 Prozent. Trotz Anzeichen von Memorization – 17 der 25 Programme waren Teil des Trainingsmaterials – lösten die Modelle auch völlig unbekannte Programme erfolgreich, was auf echtes logisches Verständnis hindeutet.

Warum scheitern Agenten bei großen Codebasen?

Fehlende Features, die zwar dokumentiert, aber nicht explizit getestet wurden.
Vorzeitige Abgabe ohne vollständige Validierung aller Randfälle.
Hohe Fehleranfälligkeit bei fehlendem klarem Feedback-Signal.

Zusammenfassend lässt sich sagen, dass KI-Agenten im Jahr 2026 bereits in der Lage sind, Wochen an menschlicher Arbeit in Stunden zu erledigen, sofern eine präzise Spezifikation vorliegt. Für eine vollständige Autonomie ohne menschliche Aufsicht bei großen Systemen reicht die Leistung jedoch noch nicht aus.

Quelle: https://epoch.ai/files/MirrorCode_3d9aab.pdf