Google Gemini Embedding 2: Revolutionäre Multimodalität für Entwickler

Google hat mit der Veröffentlichung von Gemini Embedding 2 einen wichtigen Schritt in der Entwicklung multimodaler KI-Modelle gemacht. Dieses Modell ist das erste seiner Art, das nativ multimodale Embedding-Funktionen bietet und es ermöglicht, verschiedene Datentypen in einer einzigen Anfrage zu verarbeiten.

Gemini Embedding 2: Eine neue Ära der multimodalen KI

Gemini Embedding 2 zeichnet sich dadurch aus, dass es gleichzeitig mehrere Datenformate in einem einzigen Request verarbeiten kann. Dies bedeutet, dass ein Prompt beispielsweise ein Bild und begleitenden Text enthalten kann, die das Modell gemeinsam analysiert, um tiefergehende semantische Zusammenhänge zwischen den verschiedenen Modalitäten zu erfassen. Das Modell unterstützt zudem über 100 Sprachen, was seine Anwendbarkeit global erweitert.

Technische Spezifikationen und Fähigkeiten

Das Modell bietet beeindruckende Kapazitäten für verschiedene Datentypen:

Text: Bis zu 8.192 Token pro Anfrage.
Bilder: Es können bis zu 6 Bilder (PNG, JPEG) pro Anfrage verarbeitet werden.
Video: Unterstützung für bis zu 120 Sekunden Videomaterial (MP4, MOV).
PDF: Bis zu 6 Seiten PDF-Dokumente können interpretiert werden.
Audio: Audioinhalte werden direkt verstanden, ohne die Notwendigkeit einer vorherigen Transkription.

Die Standarddimensionalität der generierten Vektoren beträgt 3072. Dank der Anwendung der Matryoshka RL-Technik können diese Vektoren jedoch auf 1536 oder 768 Dimensionen reduziert werden. Dies ermöglicht eine Optimierung hinsichtlich Speicherverbrauch und Suchgeschwindigkeit, wenngleich mit einem geringen Verlust an Präzision. Diese Technik der verschachtelten Darstellungen ist Google-Nutzern bereits von früheren Modellen bekannt und wird nun auch auf multimodale Daten angewendet.

Verfügbarkeit und Integrationen

Gemini Embedding 2 ist ab sofort über die Gemini API und Vertex AI im Public Preview-Modus verfügbar. Dies bietet Entwicklern die Möglichkeit, die neuen Funktionen frühzeitig zu erkunden und in ihre Anwendungen zu integrieren.

Das Modell ist zudem sofort kompatibel mit einer Reihe populärer Frameworks und Datenbanken, darunter LangChain, LlamaIndex, Haystack, Weaviate, Qdrant und ChromaDB. Diese breite Unterstützung erleichtert die Implementierung in bestehende Ökosysteme.

Für Entwickler, die tiefer eintauchen möchten, sind Notebook-Beispiele für Gemini und Vertex auf GitHub verfügbar. Außerdem steht ein Demo für die multimodale semantische Suche bereit, um die Leistungsfähigkeit des Modells direkt zu erleben.

Weitere Informationen finden Sie im offiziellen Blogbeitrag von Google: blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/