Was ist Baidu Unlimited OCR? 3B-MoE-Modell für lange Dokumente

Baidu Unlimited OCR ist ein spezialisiertes KI-Modell zur Texterkennung, das mehr als 40 Seiten Text in einem einzigen Rechendurchlauf (Forward Pass) präzise digitalisiert. Das System basiert auf einer Architektur mit insgesamt 3 Milliarden Parametern, wovon dank Mixture-of-Experts-Technologie (MoE) lediglich 500 Millionen Parameter pro Rechenschritt aktiv sind. In aktuellen Benchmarks der Jahre 2025 und 2026 erzielte das Modell neue Bestwerte (SOTA) auf den Datensätzen OmniDocBench v1.5 und v1.6.

Wie funktioniert die Reference Sliding Window Attention?

Die technische Innovation hinter Unlimited OCR ist die sogenannte Reference Sliding Window Attention (R-SWA). Im Gegensatz zu herkömmlichen Transformatoren, bei denen die Rechenlast mit zunehmender Textlänge quadratisch ansteigt, hält dieses Modell den KV-Cache auf einer konstanten Größe. Dies verhindert, dass das System bei langen Dokumenten langsamer wird oder den Kontext verliert.

Das Modell fokussiert sich dabei auf drei wesentliche Bereiche:

Das ursprüngliche Quelldokument als Referenz.
Den unmittelbar vorangegangenen Kontext.
Die Vorhersage der nächsten Wörter.

Unwichtige Informationen werden sukzessive aus dem Speicher entfernt, um die Berechnungseffizienz hochzuhalten. Dadurch bleibt der Ressourcenverbrauch auch bei massiven Dokumentenstapeln stabil.

Welche Vorteile bietet die Architektur gegenüber Standard-OCR?

Ein wesentlicher Vorteil ist die Verarbeitungsgeschwindigkeit bei hoher Präzision. Während herkömmliche Tools Dokumente oft in kleine Stücke zerteilen müssen, bewahrt Unlimited OCR den globalen Zusammenhang über dutzende Seiten hinweg. Die folgende Tabelle verdeutlicht die Effizienzmerkmale:

Feature	Unlimited OCR (Baidu)	Herkömmliche OCR-Modelle
Parameter (aktiv)	500 Millionen	Oft mehrere Milliarden
Seiten pro Durchgang	40+ Seiten	Meist 1-5 Seiten
KV Cache Typ	Konstante Größe	Linear wachsend
Benchmark SOTA	OmniDocBench v1.6	Variabel

Durch diese Optimierungen ist die Lösung etwa dreimal effizienter bei der Verarbeitung langer PDF-Dateien als vergleichbare Modelle ohne Sliding-Window-Mechanismus.

Wo ist Unlimited OCR verfügbar?

Baidu hat das Modell für die Entwickler-Community frei zugänglich gemacht. Es kann seit kurzem direkt über gängige KI-Plattformen heruntergeladen und in eigene Workflows integriert werden. Du findest den Quellcode und die Modellgewichte unter folgenden Links:

GitHub: github.com/baidu/Unlimited-OCR
Hugging Face: huggingface.co/baidu/Unlimited-OCR

Die Implementierung unterstützt moderne Inferenz-Frameworks, was die Integration in bestehende Pipeline-Strukturen für Unternehmen im Jahr 2026 erheblich erleichtert.

Häufige Fragen

Was zeichnet Baidu Unlimited OCR technisch aus?

Baidu Unlimited OCR nutzt eine Mixture-of-Experts-Architektur mit 3 Milliarden Parametern, wovon lediglich 500 Millionen aktiv pro Rechenschritt genutzt werden. Das Modell digitalisiert über 40 Seiten Text in einem einzigen Durchgang und setzt dabei auf die Reference Sliding Window Attention (R-SWA), um den KV-Cache konstant zu halten.

Welche Vorteile bietet die Reference Sliding Window Attention?

Die R-SWA-Technologie verhindert den quadratischen Anstieg der Rechenlast bei zunehmender Textlänge und stabilisiert den Ressourcenverbrauch. Das System bewahrt den globalen Zusammenhang über dutzende Seiten hinweg, indem es unwichtige Informationen sukzessive aus dem Speicher entfernt.

Wo kann ich auf das Modell und den Code zugreifen?

Du findest die Modellgewichte und den Quellcode frei zugänglich auf den Plattformen GitHub und Hugging Face unter dem Repository-Namen Baidu Unlimited-OCR. Die Integration in bestehende Unternehmens-Pipelines wird durch die Unterstützung moderner Inferenz-Frameworks im Jahr 2026 erleichtert.

Wie schneidet Unlimited OCR in aktuellen Benchmarks ab?

Baidu Unlimited OCR erzielte in den Jahren 2025 und 2026 neue Bestwerte auf den Datensätzen OmniDocBench v1.5 und v1.6. Die Lösung arbeitet etwa dreimal effizienter bei der Verarbeitung langer PDF-Dateien als vergleichbare Modelle ohne Sliding-Window-Mechanismus.

Quellen

github.com — github.com (abgerufen 2026-06-24)

huggingface.co — huggingface.co (abgerufen 2026-06-24)

x.com — x.com (abgerufen 2026-06-24)

youtube.com — youtube.com (abgerufen 2026-06-24)

pandaily.com — pandaily.com (abgerufen 2026-06-24)

youtube.com — youtube.com (abgerufen 2026-06-24)

arxiv.org — arxiv.org (abgerufen 2026-06-24)

reddit.com — reddit.com (abgerufen 2026-06-24)

arxiv.org — arxiv.org (abgerufen 2026-06-24)