Google DiffusionGemma: 1000 Token/s durch Text-Diffusion 2026

Google hat kürzlich mit DiffusionGemma eine experimentelle, offene Modellfamilie vorgestellt, die einen radikal neuen Weg in der NLP-Verarbeitung einschlägt. Unter der Apache 2.0-Lizenz veröffentlicht, bricht dieses Modell mit dem klassischen „Token-für-Token“-Ansatz herkömmlicher Large Language Models (LLMs).

Während gewöhnliche Modelle Text sequenziell generieren – vergleichbar mit einer Schreibmaschine –, erzeugt DiffusionGemma ganze Textblöcke parallel. Dieser Prozess ähnelt der Arbeitsweise von Diffusionsmodellen in der Bildgenerierung (wie Stable Diffusion), was zu einer massiven Beschleunigung der Inferenz führt.

Technische Highlights und Architektur

DiffusionGemma basiert auf einer hocheffizienten Architektur, die Geschwindigkeit mit moderaten Hardwareansprüchen kombiniert:

Parameter-Effizienz: Das Modell verfügt über insgesamt 26 Milliarden Parameter. Dank der Mixture of Experts (MoE)-Architektur sind jedoch zu jedem Zeitpunkt nur 3,8 Milliarden Parameter aktiv.
Hardwareanforderungen: Mit einem VRAM-Bedarf von etwa 18 GB (je nach Konfiguration) lässt sich das Modell auch auf leistungsstarken Consumer-PCs lokal betreiben.
Bidirektionale Aufmerksamkeit: Die Modellstruktur erlaubt es, Blöcke von bis zu 256 Token gleichzeitig zu verarbeiten. Dies bietet enorme Vorteile bei Aufgaben wie Text-Editing, Infilling bei der Programmierung oder komplexen mathematischen Berechnungen.

Benchmarks und Performance

In Sachen Geschwindigkeit setzt DiffusionGemma neue Maßstäbe für Open-Source-Modelle im Jahr 2026:

Hardware	Performance (ca.)
NVIDIA H100	> 1.000 Token/s
NVIDIA RTX 5090	> 700 Token/s

Stärken und Schwächen

Stärken

Extreme Geschwindigkeit: Die parallele Block-Generierung ist ideal für Anwendungen, die eine geringe Latenz erfordern.
Open Source: Die Apache 2.0-Lizenz erlaubt eine flexible Nutzung und Weiterentwicklung durch die Community.
Editing-Power: Durch das Verständnis ganzer Kontexte (Canvas) eignet sich das Modell hervorragend für das Umschreiben und Ergänzen bestehender Texte.

Schwächen

Experimenteller Status: Da es sich um einen neuen Ansatz handelt, befindet sich die Integration in bestehende Toolchains noch in einer frühen Phase.
VRAM-Sensitivität: Für maximale Performance auf Consumer-Hardware sind Quantisierungen notwendig.

Weitere Informationen und technische Details finden Entwickler in der offiziellen Dokumentation unter: developers.googleblog.com

Häufige Fragen

Was macht DiffusionGemma schneller als herkömmliche Sprachmodelle?

DiffusionGemma nutzt die parallele Generierung von Textblöcken anstelle des klassischen Token-für-Token-Ansatzes. Diese Architektur ähnelt der Bildgenerierung durch Diffusionsmodelle und ermöglicht Geschwindigkeiten von über 1.000 Token pro Sekunde auf High-End-Hardware.

Welche Hardware benötigst du für den lokalen Betrieb von DiffusionGemma?

Du brauchst für den lokalen Einsatz auf einem Consumer-PC etwa 18 GB VRAM. Auf einer NVIDIA RTX 5090 erreicht das Modell eine Performance von über 700 Token pro Sekunde, wobei für maximale Effizienz Quantisierungen empfohlen werden.

Wie funktioniert die Mixture of Experts Architektur bei diesem Modell?

Die Mixture of Experts Struktur sorgt dafür, dass von den insgesamt 26 Milliarden Parametern immer nur 3,8 Milliarden gleichzeitig aktiv sind. Dieses Design kombiniert hohe Modellkapazität mit moderaten Hardwareanforderungen und gesteigerter Effizienz.

Für welche Aufgaben eignet sich DiffusionGemma besonders gut?

DiffusionGemma glänzt durch seine bidirektionale Aufmerksamkeit vor allem beim Text-Editing und Infilling in der Programmierung. Du profitierst bei komplexen mathematischen Berechnungen und Anwendungen mit geringer Latenz von der gleichzeitigen Verarbeitung von bis zu 256 Token.