Was ist LFM2.5-8B-A1B? Das neue On-Device MoE-Modell 2026 Guide
LFM2.5-8B-A1B ist ein effizientes MoE-Modell von Liquid AI für 2026. Es bietet 128k Kontext und Top-Performance für mobile Geräte im aktuellen Testbericht.
LFM2.5-8B-A1B ist ein hocheffizientes Mixture-of-Experts-Sprachmodell (MoE) von Liquid AI, das speziell für den lokalen Einsatz auf Endgeräten entwickelt wurde. Dieses Modell verfügt über insgesamt 8 Milliarden Parameter, von denen lediglich eine Milliarde aktiv genutzt wird, um eine hohe Rechengeschwindigkeit bei minimalem Ressourcenverbrauch zu gewährleisten. Die Neuvorstellung ergänzt die bestehende LFM2-Produktlinie und baut auf dem im Oktober 2025 erschienenen Vorgänger LFM2-8B-A1B auf, wobei die Leistungswerte im Jahr 2026 signifikant gesteigert wurden.
Welche technischen Neuerungen bietet das Modell?
Das LFM2.5-8B-A1B bringt umfassende Upgrades in der Architektur und im Training mit sich. Das Kontextfenster wurde massiv von 32.000 auf 128.000 Token erweitert, was die Verarbeitung sehr langer Dokumente ermöglicht. Zudem wurde das Pretraining-Volumen von 12 Billionen auf insgesamt 38 Billionen Token erhöht, ergänzt durch eine großflächige Reinforcement-Learning-Pipeline (RL). Der Tokenizer wurde auf 128.000 Einheiten verdoppelt, was die Effizienz bei nicht-lateinischen Schriften wie Russisch um 6 % und bei Sprachen wie Thai oder Hindi sogar um ein Vielfaches steigert.
| Feature | LFM2-8B-A1B (2025) | LFM2.5-8B-A1B (2026) |
|---|---|---|
| Kontextfenster | 32k Token | 128k Token |
| Pretraining-Daten | 12 Bio. Token | 38 Bio. Token |
| Tokenizer-Vokabular | 65,5k Einheiten | 128k Einheiten |
| Aktive Parameter | 1 Mrd. | 1 Mrd. |
Wie schlägt sich das Modell in der Performance?
Liquid AI legt bei dieser Veröffentlichung einen klaren Fokus auf die Geschwindigkeit und die Fähigkeit zur Werkzeugnutzung (Tool-Calling). In Messwerten erreicht das Modell auf einem Apple M5 Max eine Geschwindigkeit von bis zu 253 Token pro Sekunde und benötigt dabei weniger als 6 GB Arbeitsspeicher. Selbst auf modernen Smartphones erzielt die Architektur eine Performance von rund 30 Token pro Sekunde. Damit eignet sich das Modell ideal für Agenten-Szenarien und komplexes Reasoning direkt auf der Hardware des Nutzers.
- Apple M5 Max: 253 Token/s
- Smartphone: 30 Token/s
- RAM-Bedarf: Unter 6 GB
Wann solltest du LFM2.5-8B-A1B einsetzen?
Du solltest dieses Modell einsetzen, wenn du leistungsstarke KI-Funktionen lokal ohne Cloud-Anbindung realisieren möchtest. In Benchmarks zur Befolgung von Anweisungen und in agentenbasierten Szenarien ist LFM2.5-8B-A1B vergleichbar mit deutlich größeren Modellen wie der Gemma-4-26B – trotz der weitaus geringeren Anzahl aktiver Parameter. Die breite Software-Unterstützung erleichtert die Integration in bestehende Workflows erheblich. Das Modell ist unter der LFM Open License lizenziert und unterstützt gängige Frameworks für die Implementierung.
Folgende Laufzeitumgebungen werden unterstützt:
- llama.cpp
- MLX (für Apple Silicon)
- vLLM und SGLang
- ONNX Runtime
Häufige Fragen
Was zeichnet die Architektur von LFM2.5-8B-A1B aus?
Liquid AI nutzt eine hocheffiziente Mixture-of-Experts-Architektur mit insgesamt 8 Milliarden Parametern. Das Modell aktiviert pro Rechenschritt nur eine Milliarde Parameter, um maximale Geschwindigkeit bei geringem Ressourcenverbrauch auf Endgeräten zu erzielen.
Welche technischen Verbesserungen bietet das 2026er Modell gegenüber dem Vorgänger?
Das Kontextfenster wurde signifikant von 32.000 auf 128.000 Token erweitert und das Pretraining-Volumen auf 38 Billionen Token verdreifacht. Ein optimierter Tokenizer steigert zudem die Effizienz bei der Verarbeitung nicht-lateinischer Schriften wie Russisch oder Hindi.
Wie performant ist das Modell im lokalen Einsatz auf Hardware?
LFM2.5-8B-A1B erreicht auf einem Apple M5 Max Spitzenwerte von bis zu 253 Token pro Sekunde bei einem Arbeitsspeicherbedarf von unter 6 GB. Die Performance auf modernen Smartphones liegt bei rund 30 Token pro Sekunde, was flüssige lokale Agenten-Szenarien ermöglicht.
In welchen Szenarien ist der Einsatz von LFM2.5-8B-A1B sinnvoll?
Du kannst dieses Modell ideal für komplexe Reasoning-Aufgaben und KI-Agenten nutzen, die ohne Cloud-Anbindung direkt auf deiner Hardware laufen sollen. Die Leistung ist trotz der geringen Größe vergleichbar mit deutlich schwerfälligeren Modellen wie Gemma-4-26B.
Quellen
- liquid.ai — liquid.ai (abgerufen 2026-06-14)
- marktechpost.com — marktechpost.com (abgerufen 2026-06-14)
- openrouter.ai — openrouter.ai (abgerufen 2026-06-14)
- liquid.ai — liquid.ai (abgerufen 2026-06-14)
- huggingface.co — huggingface.co (abgerufen 2026-06-14)