Embedding — Text als Zahlenvektor verstehen
Ein Embedding wandelt Text in einen Zahlenvektor um, sodass ähnliche Bedeutungen mathematisch nahe beieinander liegen.
Was ist ein Embedding?
Ein Embedding ist eine mathematische Darstellung von Text als Zahlenvektor. Klingt abstrakt? Stell dir vor, jedes Wort oder jeder Satz bekommt eine Position in einem riesigen Koordinatensystem. Texte mit ähnlicher Bedeutung landen dabei nahe beieinander — „Hund" und „Welpe" wären fast Nachbarn, während „Hund" und „Buchhaltung" weit auseinander liegen.
Ein typischer Embedding-Vektor besteht aus Hunderten oder Tausenden von Zahlen. OpenAIs Modell text-embedding-3-small erzeugt beispielsweise Vektoren mit 1.536 Dimensionen. Du musst diese Zahlen nicht selbst verstehen — das übernimmt die Mathematik für dich.
Warum sind Embeddings wichtig?
Embeddings sind die Grundlage für zwei entscheidende Technologien:
- Semantische Suche: Statt nur nach exakten Schlüsselwörtern zu suchen, findest du Inhalte nach Bedeutung. Eine Suche nach „Wie erstelle ich eine Webseite?" findet auch Texte über „Website-Entwicklung für Anfänger".
- RAG (Retrieval-Augmented Generation): Bevor ein LLM antwortet, werden relevante Dokumente über Embedding-Ähnlichkeit gefunden und als Kontext mitgegeben.
Welche Embedding-Modelle gibt es?
Die bekanntesten Modelle sind:
- OpenAI Ada (text-embedding-3-small/large): Weit verbreitet, einfach über die API nutzbar.
- Cohere Embed: Starke mehrsprachige Unterstützung, auch für deutsche Texte.
- Open-Source-Alternativen: Modelle wie
sentence-transformersvon Hugging Face laufen kostenlos lokal.
Embeddings in der Praxis
Im Vibe-Coding-Alltag begegnest du Embeddings vor allem, wenn du einen KI-Chatbot für deine eigenen Dokumente baust. Der typische Ablauf sieht so aus: Du zerlegst deine Texte in Abschnitte, erzeugst für jeden Abschnitt einen Embedding-Vektor, speicherst diese in einer Vektordatenbank wie Pinecone oder Chroma, und bei einer Nutzeranfrage wird der ähnlichste Abschnitt gefunden und dem LLM als Kontext übergeben.
Du musst die Mathematik hinter Embeddings nicht im Detail verstehen. Wichtig ist nur: Sie machen es möglich, dass KI die Bedeutung deiner Texte „versteht" — und genau das macht sie so mächtig.