Was ist das Problem mit Claude Code seit Februar 2024?

Seit Februar 2024 häufen sich Berichte über eine signifikante Verschlechterung der Code-Generierungs- und Analysefähigkeiten von Anthropic's Claude Code, insbesondere bei komplexen Aufgaben. Eine detaillierte Analyse zeigte einen drastischen Rückgang des Verhältnisses von Dateilesevorgängen zu Änderungen und eine Zunahme von Verhaltenssymptomen wie Verantwortungsvermeidung.

Was sind die Ursachen für die Performance-Regression laut Anthropic?

Laut Boris Cherny, Leiter des Claude Code Teams, sind zwei reale Änderungen die Ursache: Am 9. Februar wurde mit Opus 4.6 "adaptive thinking" eingeführt, bei dem das Modell die Länge der Überlegungen selbst wählt. Am 3. März wurde das Standard-Anstrengungsniveau für Opus 4.6 auf "medium" (`effort=85`) angehoben, als Kompromiss zwischen Intelligenz, Latenz und Kosten.

Welche Workarounds bietet Anthropic an, um die Leistung von Claude Code zu verbessern?

Anthropic schlägt mehrere Workarounds vor, um das frühere Verhalten wiederherzustellen. Nutzer können `/effort high` oder `/effort max` verwenden, um das maximale Budget für "Thinking"-Token pro Aufgabe zu erhöhen. Weitere Optionen sind `CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000`, `CLAUDE_CODE_SIMPLE=1` und `CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1`.

Wird Anthropic die Standardeinstellungen für Claude Code zukünftig anpassen?

Anthropic führt die Untersuchung des Fehlers fort und plant, eine standardmäßige Aktivierung von `high effort` für Teams- und Enterprise-Tarife zu testen. Dies würde zwar zu einem höheren Token-Verbrauch und einer erhöhten Latenz führen, aber eine garantierte Argumentationstiefe bieten.

Claude Code: Anthropic erklärt Performance-Regression und bietet Workarounds

Seit Februar 2024 häufen sich Berichte über eine signifikante Degradation der Code-Generierungs- und Analysefähigkeiten von Anthropic's Claude Code, insbesondere bei komplexen Aufgaben. Ein Ingenieur von AMD hat eine detaillierte Analyse der beobachteten Regression auf GitHub veröffentlicht, die auf 17.000 „Thinking“-Blöcken und 234.000 Tool-Aufrufen aus 6.852 lokalen Sitzungen basiert.

Detaillierte Analyse der Regression

Die Hauptmetrik der Untersuchung zeigte einen drastischen Rückgang des Verhältnisses von Dateilesevorgängen zu Änderungen von 6,6 auf 2,0. Dies deutet darauf hin, dass die Modellstudie des Codes vor Modifikationen stark abgenommen hat: Der Anteil der Änderungen ohne vorheriges Lesen stieg von 6,2 % auf 33,7 %.

Parallel dazu wurden weitere Symptome festgestellt:

Zyklen: Ein Anstieg von 8,2 auf 21,0 pro tausend Aufrufe.
Umschreiben von Dateien: Eine Verdopplung der Nutzung vollständiger Dateiüberschreibungen anstelle präziser Änderungen.
Verhaltenssymptome: Eine Zunahme von Verantwortungsvermeidung, vorzeitigen Stopps und einer Tendenz zu den einfachsten Lösungen.

Ein spezieller „Stop-Hook“, der solche Phrasen abfängt, wurde nach dem 8. März innerhalb von 17 Tagen 173 Mal ausgelöst, während er im gesamten vorherigen Zeitraum null Mal aktiviert wurde.

Der Autor der Analyse vermutete, dass die Regression mit dem Erscheinen des Headers redact-thinking-2026-02-12 zusammenhängt, nach dem der Inhalt der „Thinking“-Blöcke nicht mehr an den Client übermittelt wurde.

Anthropic nimmt Stellung: Die Ursachen

Boris Cherny, Leiter des Claude Code Teams bei Anthropic, hat auf Hacker News auf die Berichte reagiert und die Sachlage erläutert:

Der angesprochene Header entfernt lediglich die Zusammenfassung der Denkprozesse aus der Benutzeroberfläche, um die Netzwerklatenz zu reduzieren. Er beeinflusst weder den Reasoning-Prozess selbst noch das dafür vorgesehene Budget. Die lokale Analyse der Transkripte sieht daher leere Blöcke und zieht den fehlerhaften Schluss, dass keine Denkprozesse stattfinden. Bei Bedarf kann die Anzeige durch Setzen von showThinkingSummaries:true in der settings.json wieder aktiviert werden.

Reale Änderungen, die die Tiefe der Argumentation beeinflussen, gab es laut Cherny zwei:

9. Februar: Mit Opus 4.6 wurde „adaptive thinking“ eingeführt. Das Modell wählt nun selbst die Länge der Überlegungen, anstatt ein festes Budget zu nutzen.
3. März: Das Standard-Anstrengungsniveau für Opus 4.6 wurde auf medium (effort=85) angehoben, als Kompromiss zwischen Intelligenz, Latenz und Kosten.

Workarounds und zukünftige Pläne

Als Reaktion auf die Hypothese, dass der kürzlich eingeführte 1M-Kontext und die Arbeitsweise ohne /compact nach 200k Token eine Rolle spielen könnten, schlug Boris Cherny mehrere Lösungen vor, um das frühere Verhalten wiederherzustellen:

/effort high oder /effort max: Erhöht das maximale Budget für „Thinking“-Token pro Aufgabe.
CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000: Erzwingt eine Verkürzung des Arbeitsfensters des Kontexts.
CLAUDE_CODE_SIMPLE=1: Ein vereinfachter Modus zur Überprüfung der Hypothese über die Interferenz des Systemprompts.

Zusätzlich steht CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 zur Verfügung, um den adaptiven Modus zu deaktivieren und ein festes Überlegungsbudget zurückzugeben.

Das Team von Claude Code führt die Untersuchung des Fehlers fort. Boris Cherny versicherte zudem, dass Anthropic eine standardmäßige Aktivierung von high effort für Teams- und Enterprise-Tarife testen wird. Dies würde zwar zu einem höheren Token-Verbrauch und einer erhöhten Latenz führen, aber eine garantierte Argumentationstiefe bieten.