Embedding — Text als Zahlenvektor verstehen

Was ist ein Embedding?

Ein Embedding ist eine mathematische Darstellung von Text als Zahlenvektor. Klingt abstrakt? Stell dir vor, jedes Wort oder jeder Satz bekommt eine Position in einem riesigen Koordinatensystem. Texte mit ähnlicher Bedeutung landen dabei nahe beieinander — „Hund" und „Welpe" wären fast Nachbarn, während „Hund" und „Buchhaltung" weit auseinander liegen.

Ein typischer Embedding-Vektor besteht aus Hunderten oder Tausenden von Zahlen. OpenAIs Modell text-embedding-3-small erzeugt beispielsweise Vektoren mit 1.536 Dimensionen. Du musst diese Zahlen nicht selbst verstehen — das übernimmt die Mathematik für dich.

Warum sind Embeddings wichtig?

Embeddings sind die Grundlage für zwei entscheidende Technologien:

Semantische Suche: Statt nur nach exakten Schlüsselwörtern zu suchen, findest du Inhalte nach Bedeutung. Eine Suche nach „Wie erstelle ich eine Webseite?" findet auch Texte über „Website-Entwicklung für Anfänger".
RAG (Retrieval-Augmented Generation): Bevor ein LLM antwortet, werden relevante Dokumente über Embedding-Ähnlichkeit gefunden und als Kontext mitgegeben.

Welche Embedding-Modelle gibt es?

Die bekanntesten Modelle sind:

OpenAI Ada (text-embedding-3-small/large): Weit verbreitet, einfach über die API nutzbar.
Cohere Embed: Starke mehrsprachige Unterstützung, auch für deutsche Texte.
Open-Source-Alternativen: Modelle wie sentence-transformers von Hugging Face laufen kostenlos lokal.

Embeddings in der Praxis

Im Vibe-Coding-Alltag begegnest du Embeddings vor allem, wenn du einen KI-Chatbot für deine eigenen Dokumente baust. Der typische Ablauf sieht so aus: Du zerlegst deine Texte in Abschnitte, erzeugst für jeden Abschnitt einen Embedding-Vektor, speicherst diese in einer Vektordatenbank wie Pinecone oder Chroma, und bei einer Nutzeranfrage wird der ähnlichste Abschnitt gefunden und dem LLM als Kontext übergeben.

Du musst die Mathematik hinter Embeddings nicht im Detail verstehen. Wichtig ist nur: Sie machen es möglich, dass KI die Bedeutung deiner Texte „versteht" — und genau das macht sie so mächtig.

Häufige Fragen

Was ist ein Embedding?

Ein Embedding ist eine mathematische Darstellung von Text als Zahlenvektor. Jedes Wort oder jeder Satz bekommt eine Position in einem riesigen Koordinatensystem, wobei Texte mit ähnlicher Bedeutung nahe beieinander landen. Ein typischer Embedding-Vektor besteht aus Hunderten oder Tausenden von Zahlen — OpenAIs Modell text-embedding-3-small erzeugt beispielsweise Vektoren mit 1.536 Dimensionen.

Wofür werden Embeddings verwendet?

Embeddings sind die Grundlage für semantische Suche und RAG. Bei der semantischen Suche findest du Inhalte nach Bedeutung statt nur nach exakten Schlüsselwörtern. Bei RAG (Retrieval-Augmented Generation) werden relevante Dokumente über Embedding-Ähnlichkeit gefunden und dem LLM als Kontext mitgegeben, bevor es antwortet — etwa für Chatbots, die Fragen zu eigenen Dokumenten beantworten.

Welche Embedding-Modelle gibt es?

Zu den bekanntesten Embedding-Modellen zählen OpenAIs text-embedding-3-small und text-embedding-3-large, die einfach über die API nutzbar sind, sowie Cohere Embed mit starker mehrsprachiger Unterstützung, auch für deutsche Texte. Als Open-Source-Alternative laufen Modelle wie sentence-transformers von Hugging Face kostenlos lokal auf dem eigenen Rechner.

Embedding — Text als Zahlenvektor verstehen

Was ist ein Embedding?

Warum sind Embeddings wichtig?

Welche Embedding-Modelle gibt es?

Embeddings in der Praxis

Häufige Fragen

Was ist ein Embedding?

Wofür werden Embeddings verwendet?

Welche Embedding-Modelle gibt es?

Quellen

Verwandte Artikel

RAG (Retrieval Augmented Generation) — KI mit eigenen Daten füttern

Context Window — Das Gedächtnis eines KI-Modells

Fine-Tuning — Ein LLM auf eigene Daten spezialisieren