Zai stellt GLM-5V-Turbo vor: Multimodale KI für visuelles Coding
Zai (ehemals Zhipu AI) präsentiert GLM-5V-Turbo, eine multimodale KI, die Bilder, Videos und Text für Coding-Aufgaben verarbeitet.
Zai, ehemals bekannt als Zhipu AI auf dem internationalen Markt, hat eine spannende Neuheit im Bereich der Künstlichen Intelligenz vorgestellt: das multimodale Modell GLM-5V-Turbo. Diese Innovation ist speziell darauf ausgelegt, Coding-Aufgaben zu bewältigen, indem sie eine Vielzahl von Eingabeformaten wie Bilder, Videos und Text verarbeitet.
Es ist wichtig, die GLM-5V-Turbo nicht mit der kürzlich erschienenen GLM-5-Turbo zu verwechseln. Letztere war ein rein textbasiertes Sprachmodell, das für Agenten-Szenarien optimiert wurde.
Multimodalität für Coding-Agenten
Die GLM-5V-Turbo implementiert ein Konzept, das den Zyklus von Wahrnehmung → Planung → Ausführung für Coding-Agenten abbildet. Das bedeutet, das Modell kann einen Design-Entwurf oder einen Screenshot einer Benutzeroberfläche entgegennehmen, dessen Layout, Farbpalette und Hierarchie der Komponenten verstehen und anschließend ein funktionierendes Frontend-Projekt generieren.
Bei Wireframes stellt es die Struktur und Interaktionslogik wieder her, während es bei Mockups eine pixelgenaue Reproduktion anstrebt.
Erweiterte Funktionen und Integrationen
Über die direkte Codegenerierung aus Bildern hinaus arbeitet die GLM-5V-Turbo auch in Verbindung mit Claude Code und OpenClaw. In dieser Konstellation kann es Ziel-Websites analysieren, visuelle Elemente und Navigationsdetails sammeln und daraus Code generieren.
Technisch basiert das Modell auf einem visuellen Encoder namens CogViT und einer Multi-Token Prediction-Architektur. Es verfügt über ein Kontextfenster von 200.000 Tokens und eine maximale Ausgabe von 128.000 Tokens.
Benchmarks und Verfügbarkeit
Z.ai beansprucht basierend auf ihren eigenen Benchmarks führende Ergebnisse in den Bereichen Design-to-Code, visueller Codegenerierung und der Arbeit mit GUI-Umgebungen wie AndroidWorld und WebVoyager. Interessanterweise sollen die rein textbasierten Coding-Fähigkeiten des Modells, gemessen am CC-Bench-V2, durch die Hinzunahme der visuellen Funktionen nicht beeinträchtigt worden sein. Unabhängige Bestätigungen dieser Ergebnisse stehen derzeit noch aus.
Die GLM-5V-Turbo ist über die API von Z.ai sowie über OpenRouter zugänglich. Die Preisgestaltung liegt bei 1,20 US-Dollar pro Million Eingabetokens und 4,00 US-Dollar pro Million Ausgabetokens.