Andrej Karpathy stellt bahnbrechenden KI-Forscher vor: Autonom bis zu 12 Experimente pro Stunde
Andrej Karpathy präsentiert 'autoresearch', einen KI-Agenten, der autonom Sprachmodelle trainiert und bis zu 12 Experimente pro Stunde durchführt.
Andrej Karpathy, eine prominente Figur in der KI-Welt – Gründer von Eureka Labs, ehemaliger KI-Direktor bei Tesla und Mitbegründer von OpenAI – hat ein neues, vielversprechendes Projekt namens autoresearch der Öffentlichkeit zugänglich gemacht. Es handelt sich um ein System, bei dem ein KI-Agent autonom Experimente zum Training von Sprachmodellen auf einer einzigen GPU durchführt.
Autonome KI-Forschung im Schnelldurchlauf
Der Kern von autoresearch ist ein intelligenter Agent, der in der Lage ist, Code eigenständig zu modifizieren, einen fünfminütigen Trainingszyklus zu starten, die Qualitätsmetrik zu überprüfen und dann zu entscheiden, ob die vorgenommenen Änderungen beibehalten oder rückgängig gemacht werden sollen. Dieser Zyklus wiederholt sich kontinuierlich. Beeindruckend ist die Geschwindigkeit: Innerhalb einer Stunde können so etwa 12 Experimente durchgeführt werden, was über Nacht bis zu einhundert Experimente bedeutet.
Die zentrale Idee hinter dem Projekt ist eine grundlegende Verschiebung der Rolle des menschlichen Forschenden. Anstatt Python-Code wie herkömmliche Entwickler zu schreiben, interagiert der Mensch mit dem System, indem er eine Markdown-Datei namens program.md bearbeitet. Diese Datei dient als detaillierte Anweisung für den Agenten: Was soll ausprobiert werden, wie sollen die Ergebnisse bewertet werden und wann sollen Änderungen rückgängig gemacht werden.
Der Agent selbst iteriert auf einer einzigen Datei, train.py, die rund 630 Zeilen umfasst. In dieser Datei sind die GPT-Architektur, die Optimierer Muon und AdamW sowie der gesamte Trainingszyklus implementiert. Als entscheidende Metrik dient val_bpb (Bits pro Byte bei der Validierung), die unabhängig von der Vokabulargröße ist. Dies gewährleistet, dass Experimente vergleichbar bleiben, selbst wenn die Architektur ausgetauscht wird.
Fünf-Minuten-Experimente für Vergleichbarkeit
Jedes Experiment in autoresearch dauert exakt 5 Minuten, unabhängig davon, welche Parameter der Agent geändert hat – sei es die Modellgröße, die Batch-Größe, Hyperparameter oder sogar die gesamte Architektur. Diese feste Dauer sorgt für eine hohe Vergleichbarkeit der Ergebnisse, bindet sie jedoch auch an die verwendete GPU (das Projekt wurde auf einer H100 getestet).
Karpathy schlägt vor, das Projekt als eine Art Wettbewerb zu betrachten: Wer die beste program.md-Datei schreibt, wird den schnellsten Forschungsfortschritt erzielen. In einem humorvollen Epigraph im Repository scherzt er, dass die Ära der „Fleischcomputer“, die sich bei „Gruppenbesprechungen“ über Schallwellen synchronisierten, längst vorbei sei – heute werde Forschung von autonomen Schwärmen von Agenten betrieben.
Weitere Informationen zum Projekt finden Sie im offiziellen GitHub-Repository: