VIBE CODING
NEWS2 min read

Microsofts MAI-Familie erweitert: Neue Modelle für Sprache und Bild vorgestellt

Microsoft stellt MAI-Transcribe-1, MAI-Voice-1 und MAI-Image-2 vor, um KI-Lösungen für Sprache und Bild in den Produktionsbetrieb zu bringen.

Microsoft hat mit der Vorstellung von drei neuen Modellen unter der Marke MAI (Microsoft AI) einen weiteren Schritt in der KI-Entwicklung gemacht. MAI-Transcribe-1 für Spracherkennung, MAI-Voice-1 für Sprachsynthese und MAI-Image-2 für die Bildgenerierung aus Textbeschreibungen positionieren sich als Lösungen für Produktionsanforderungen mit wettbewerbsfähigen Inferenzkosten.

MAI-Transcribe-1: Hochgeschwindigkeits-Spracherkennung

MAI-Transcribe-1 ist ein Speech-to-Text-Modell, das sich durch hochgeschwindigkeits Transkription in 25 Sprachen, einschließlich Russisch, auszeichnet. Auf dem FLEURS-Benchmark erzielt es mit einem durchschnittlichen Word Error Rate (WER) von 3,86 % die besten Ergebnisse unter den Konkurrenten. Das Modell übertrifft Whisper in allen 25 Sprachen und Gemini 3.1 Flash in 22 von 25 Sprachen. Es akzeptiert Audioformate wie WAV, MP3 und FLAC.

Funktionen wie Echtzeit-Transkription, Diarisierung und kontextuelles Biasing sind für die Zukunft angekündigt. Die Kosten für die Nutzung betragen 0,36 $ pro Stunde Audio.

MAI-Voice-1: Realistische Sprachgenerierung

MAI-Voice-1 ist ein Text-to-Speech (TTS)-Modell, das realistische Sprache mit emotionalem Ausdruck und natürlicher Intonation generieren kann. Eine besondere Funktion ist die Möglichkeit des Voice Clonings mittels eines Referenz-Sprachmusters. Der Zugang zum Voice Cloning erfordert eine Genehmigung von Microsoft und das Hochladen einer aufgezeichneten Zustimmung des Stimmbesitzers.

Das Modell soll eine Generierungsgeschwindigkeit von einer Minute Audio pro Sekunde erreichen und unterstützt die Steuerung von Emotionen auf Satzebene über SSML. Es ist für lange Inhalte wie Hörbücher, Podcasts und Vorlesungen konzipiert. Aktuell ist es nur für Englisch verfügbar, aber die Unterstützung von über 10 weiteren Sprachen ist geplant. MAI-Voice-1 ist in den Azure-Regionen Central US, Japan West und Sweden Central verfügbar. Die Kosten liegen bei 22 $ pro Million Zeichen.

MAI-Image-2: Leistungsstarke Bildgenerierung

MAI-Image-2 ist ein Diffusionsmodell für die Generierung von Bildern aus Textprompts, das Microsoft seit dem 20. März im Beta-Test erprobt hat. Das Modell umfasst zwischen 10 und 50 Milliarden Parameter (ohne Embeddings), verarbeitet Kontexte von bis zu 32.000 Token und generiert Bilder mit einer maximalen Auflösung von 1024x1024 Pixeln.

Interne Bewertungen mittels Elo-Rating zeigen, dass MAI-Image-2 mit 1190 ± 8 Punkten seine Vorgängerin MAI-Image-1 (1093 ± 4 Punkte) übertrifft, insbesondere in fotorealistischen und Porträtkategorien (1201 Punkte). Auf dem ArenaAI-Leaderboard platzierte sich das Modell unter den Top 3. Die Kosten betragen 5 $ pro Million Token Texteingabe und 33 $ pro Million Token für die Ausgabe (Bilder).

Alle Modelle sind über Microsoft Foundry zugänglich. Eine interaktive Testumgebung, MAI Playground, ist derzeit nur aus den USA verfügbar.

Quelle: https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry/