Zweistufige KI-Pipeline: Wie man die Kosten für die Generierung halbiert

87 $ pro Monat für Chat-Zusammenfassung. Logs geprüft – Pro-Modell verbraucht 80 % der Tokens für die Themensuche in JSON. In zwei Schritte aufgeteilt. Jetzt 35 $.

Problem

Ich erstelle einen Bot für Zusammenfassungen von Chats. 200-400 Nachrichten pro Tag. Ergebnis: strukturierte Übersicht mit Ressourcen, Lösungen, Tools.

Erste Version: alles in Pro. Es extrahiert Themen und schreibt den Text. Funktioniert, aber die Rechnung für Januar:

80-120.000 Tokens Input (abhängig von der Chat-Aktivität)
2,5-3,5 $ pro Zusammenfassung
30 Zusammenfassungen → 87 $

Pro schreibt ausgezeichnet. Aber 2 $/1M Tokens, um die benötigten Felder in JSON zu finden und zu gruppieren? Teuer.

Lösung

Zwei Schritte statt einem:

Schritt 1 (Flash): Finde alle Themen in den Nachrichten, gib JSON zurück. Schritt 2 (Pro): Hier sind 12 Themen – schreibe daraus eine Zusammenfassung.

Flash kostet 0,50 $/1M – viermal günstiger als Pro. Erledigt die Extraktion problemlos. Strukturierte Ausgabe über Pydantic garantiert das Format – Gemini API unterstützt response_schema seit November 2025.

Pro erhält eine fertige Liste von 10-15 Themen anstelle von Hunderten von Nachrichten. Der Kontext wurde von 100.000 auf 8-12.000 Tokens reduziert.

Implementierung

Claude Code auf Opus 4.5 geschrieben:

Teile die Digest-Generierung in zwei Schritte auf. Schritt 1: Flash extrahiert Themen aus Nachrichten und gibt JSON mit Kategorien (resource, solution, insight, tool) zurück. Schritt 2: Pro erhält die fertigen Themen und schreibt den endgültigen Text. Verwende Pydantic-Schema für strukturierte Ausgabe.

Agent hat gemacht:

Erstellt TopicsResponse-Schema mit Feldern category, title, summary, url
Konfiguriert Gemini API mit response_schema – JSON ist garantiert valide
Teilt DigestGenerator in _extract_topics() und die finale Generierung auf

Retry mit Eskalation

Flash schneidet bei großen Eingaben manchmal JSON ab. Ich habe um das Hinzufügen von Wiederholungsversuchen gebeten:

Füge eine Eskalation der Limits beim Abschneiden hinzu: 16K → 32K → 65K Token. Bei TokenLimitExceeded – wiederholen Sie den Vorgang mit einem höheren Limit.

Innerhalb eines Monats (31 Digests) wurde der Wiederholungsversuch zweimal ausgelöst. Beide Male reichten 32K.

Ergebnis

Metrik	Vorher	Nachher
Pro-Token	80-120K	8-12K
Kosten/Zusammenfassung	$2.5-3.5	$1.0-1.2
Januar 2026	$87	$35

Bonus: Pro schreibt sauberer mit vorbereiteten Daten. Ohne Rauschen aus 300 Nachrichten – weniger "Füllmaterial" im Ergebnis.

Wann anwenden

Das Muster funktioniert, wenn:

Extraktion von Generierung getrennt ist – zuerst finden, dann schreiben
Eingabedaten groß sind – Hunderte von Dokumenten, Logs, Chats
Struktur bekannt ist – beschreibbar mit einem Pydantic-Modell

Nicht geeignet für die Zusammenfassung (der gesamte Kontext wird benötigt) und kurze Anfragen (der Overhead lohnt sich nicht).

Quellen

OverFill: Two-Stage Models for Efficient LLM Decoding – akademischer Ansatz zur Trennung von Prefill und Decode
xRouter: Cost-Aware LLM Orchestration – RL zur Auswahl des passenden Modells für die Aufgabe
The Economics of RAG: Cost Optimization – Strategien zur Kostenoptimierung in RAG

Häufige Fragen

Warum waren die Kosten für die Chat-Zusammenfassung ursprünglich so hoch?

Die ursprüngliche Version des Bots nutzte ausschließlich ein "Pro"-Modell für die Chat-Zusammenfassung. Dieses Modell verbrauchte 80 % der Tokens für die Themensuche und Extraktion in JSON, was mit 2 $/1M Tokens sehr teuer war. Eine einzelne Zusammenfassung kostete so zwischen 2,5 und 3,5 US-Dollar, was sich auf 87 US-Dollar pro Monat summierte.

Wie funktioniert die zweistufige KI-Pipeline zur Kostensenkung?

Die Pipeline teilt den Prozess in zwei Schritte auf. Schritt 1 nutzt ein günstigeres "Flash"-Modell, um alle Themen aus den Nachrichten zu extrahieren und als JSON zurückzugeben. Schritt 2 verwendet dann das hochwertige "Pro"-Modell, um aus dieser vorbereiteten Liste von 10-15 Themen die finale Zusammenfassung zu schreiben.

Welche Kostenersparnis wurde durch die zweistufige Pipeline erzielt?

Durch die Implementierung der zweistufigen Pipeline konnten die Kosten pro Zusammenfassung von 2,5-3,5 US-Dollar auf 1,0-1,2 US-Dollar gesenkt werden. Dies führte zu einer monatlichen Ersparnis von 87 US-Dollar auf 35 US-Dollar, da das Pro-Modell deutlich weniger Tokens verbraucht.

Wann sollte man die zweistufige KI-Pipeline anwenden?

Dieses Muster ist ideal, wenn die Extraktion von Informationen klar von der Generierung getrennt werden kann und die Eingabedaten sehr groß sind, wie bei Hunderten von Dokumenten oder Chat-Logs. Zudem muss die gewünschte Ausgabestruktur bekannt und mit einem Pydantic-Modell beschreibbar sein.

Was ist der Vorteil der Trennung von Extraktion und Generierung?

Die Trennung ermöglicht es, für die kostspielige Extraktion ein günstigeres Modell (Flash) zu verwenden, während das teurere, aber qualitativ hochwertige Modell (Pro) nur für die eigentliche Textgenerierung mit bereits aufbereiteten Daten eingesetzt wird. Dies reduziert nicht nur die Token-Kosten erheblich, sondern führt auch zu saubereren und präziseren Ergebnissen, da das Pro-Modell weniger "Rauschen" verarbeiten muss.