Inference — Wenn das KI-Modell eine Antwort generiert
Inference ist der Prozess, bei dem ein trainiertes LLM eine Eingabe verarbeitet und eine Antwort generiert.
Was ist Inference?
Inference (auf Deutsch: Inferenz) ist der Vorgang, bei dem ein bereits trainiertes LLM eine Eingabe empfängt und daraus eine Antwort erzeugt. Jedes Mal, wenn du eine Frage an ChatGPT, Claude oder ein anderes Sprachmodell stellst, findet Inference statt. Das Modell lernt dabei nichts Neues — es wendet nur an, was es bereits gelernt hat.
Stell dir Inference wie eine Prüfung vor: Das Training war das Lernen, die Inference ist die Klausur, in der das gelernte Wissen angewendet wird.
Warum kostet Inference Geld?
Inference erfordert enorme Rechenleistung. Jede Antwort, die ein LLM generiert, durchläuft Milliarden von mathematischen Operationen auf spezialisierten GPUs. Diese Hardware ist teuer in Anschaffung und Betrieb — Strom, Kühlung, Wartung. Deshalb berechnen Anbieter wie OpenAI und Anthropic pro Token, das verarbeitet oder generiert wird.
Die Kosten variieren je nach Modell erheblich:
- Kleine Modelle (GPT-4o mini, Claude Haiku): Günstig, wenige Cent pro tausend Anfragen.
- Große Modelle (GPT-4o, Claude Opus): Teurer, aber leistungsfähiger bei komplexen Aufgaben.
Inference vs. Training
Training und Inference sind zwei grundverschiedene Phasen:
- Training findet einmalig statt, dauert Wochen bis Monate und kostet Millionen von Dollar. Dabei lernt das Modell aus riesigen Textmengen.
- Inference findet bei jeder Nutzung statt, dauert Sekunden und kostet Bruchteile eines Cents pro Anfrage.
Du als Nutzer oder Entwickler hast mit dem Training nichts zu tun — du nutzt ausschließlich die Inference-Phase.
Lokale vs. Cloud Inference
Cloud Inference: Du sendest deine Anfrage an einen Anbieter (OpenAI, Anthropic, Google), der die Berechnung auf seinen Servern durchführt. Einfach, schnell, aber kostet pro Nutzung.
Lokale Inference: Du betreibst ein Open-Source-Modell auf deinem eigenen Rechner. Keine laufenden Kosten, volle Datenkontrolle — aber du brauchst leistungsstarke Hardware, und die Modelle sind oft kleiner.
Inference im Vibe-Coding-Kontext
Jedes Mal, wenn Cursor Code vorschlägt, Claude Code eine Datei bearbeitet oder du im Chat eine Frage stellst, läuft im Hintergrund Inference. Ein Bewusstsein dafür hilft dir, Kosten zu kontrollieren: Formuliere präzise Prompts, wähle das passende Modell für die Aufgabe und vermeide unnötig lange Konversationen mit großen Modellen.