OCR (Optische Zeichenerkennung): Wie es funktioniert

31. März 2026 · 12 Min. Lesezeit

Inhaltsverzeichnis

Was ist OCR?
Wie OCR funktioniert
Faktoren für OCR-Genauigkeit
Vorverarbeitungstechniken
Sprachunterstützung
Handschrifterkennung
Vergleich von OCR-Engines
Anwendungsfälle aus der Praxis
Implementierungsleitfaden
Behebung häufiger Probleme
Häufig gestellte Fragen
Verwandte Artikel

OCR (Optische Zeichenerkennung) wandelt Bilder von Text – gescannte Dokumente, Fotos von Schildern, Screenshots, handschriftliche Notizen – in maschinenlesbaren Text um, den Sie durchsuchen, bearbeiten und verarbeiten können. Von der Digitalisierung jahrhundertealter Archive bis zur Extraktion von Belegdaten für Spesenabrechnungen ist OCR zu einer unverzichtbaren Technologie in unserer zunehmend digitalen Welt geworden.

Egal, ob Sie ein Dokumentenmanagementsystem aufbauen, eine mobile Scan-App erstellen oder einfach nur versuchen, Text aus einem PDF zu extrahieren – das Verständnis der Funktionsweise von OCR hilft Ihnen, bessere Ergebnisse zu erzielen und häufige Fallstricke zu vermeiden.

Was ist OCR?

Optische Zeichenerkennung ist die elektronische Umwandlung von Bildern, die getippten, gedruckten oder handgeschriebenen Text enthalten, in maschinencodierten Text. Im Kern analysiert OCR die visuellen Muster in einem Bild, um einzelne Zeichen, Wörter und Textstruktur zu identifizieren.

Frühe OCR-Systeme aus den 1970er und 1980er Jahren basierten auf Template-Matching – dem Vergleich jeder Zeichenform mit einer Datenbank bekannter Muster. Diese Systeme waren starr und erforderten spezifische Schriftarten und hochwertige Eingaben. Modernes OCR verwendet Deep-Learning-Neuronale-Netze, die Zeichen über große Bereiche von Schriftarten, Größen, Ausrichtungen und Qualitätsstufen hinweg erkennen können.

Die heutige OCR-Technologie treibt unzählige Anwendungen an:

Dokumentendigitalisierung: Umwandlung von Papierarchiven in durchsuchbare digitale Datenbanken
Mobiles Scannen: Verwandlung von Smartphone-Fotos in bearbeitbaren Text
Automatisierte Dateneingabe: Extraktion von Informationen aus Rechnungen, Belegen und Formularen
Kennzeichenerkennung: Identifizierung von Fahrzeugen für Park- und Mautsysteme
Scheckverarbeitung: Lesen von Kontonummern und Beträgen auf Bankschecks
Buchdigitalisierung: Erstellung durchsuchbarer E-Books aus gedruckten Bänden
Echtzeitübersetzung: Übersetzung von Schildern und Speisekarten durch Kamera-Apps
Barrierefreiheits-Tools: Vorlesen von gedrucktem Text für sehbehinderte Benutzer

Schneller Tipp: Müssen Sie jetzt sofort Text aus einem Bild extrahieren? Probieren Sie unser Bild zu Text (OCR)-Tool für sofortige Ergebnisse ohne jegliche Einrichtung.

Wie OCR funktioniert

Modernes OCR ist eine mehrstufige Pipeline, die rohe Bildpixel in strukturierten Text umwandelt. Das Verständnis jeder Stufe hilft Ihnen, Eingaben zu optimieren und Probleme zu beheben.

Stufe 1: Bilderfassung

Der Prozess beginnt mit der Aufnahme oder dem Laden des Bildes. Dies kann ein Foto von einer Smartphone-Kamera, ein Scan von einem Flachbettscanner oder ein Screenshot sein. Die Qualität dieses anfänglichen Bildes beeinflusst die endgültige Genauigkeit erheblich.

Wichtige Überlegungen bei der Erfassung:

Die Auflösung sollte mindestens 300 DPI für gedruckten Text betragen
Die Farbtiefe kann 24-Bit-Farbe, 8-Bit-Graustufen oder 1-Bit-Schwarzweiß sein
Das Dateiformat ist weniger wichtig als die Bildqualität (JPEG, PNG, TIFF funktionieren alle)
Die Beleuchtung sollte gleichmäßig ohne Schatten oder Blendung sein

Stufe 2: Vorverarbeitung

Rohbilder bieten selten optimale Eingaben für die Zeichenerkennung. Die Vorverarbeitung verbessert das Bild und entfernt Rauschen, das die OCR-Engine verwirren könnte.

Häufige Vorverarbeitungsoperationen umfassen:

Entzerrung: Drehen des Bildes, um Text horizontal auszurichten
Fleckenentfernung: Entfernen kleiner Punkte und Artefakte vom Scannen
Binarisierung: Umwandlung in reinen schwarzen Text auf weißem Hintergrund
Randentfernung: Eliminierung von Seitenkanten und Rändern
Layout-Analyse: Identifizierung von Textbereichen, Spalten und Lesereihenfolge
Zeilenerkennung: Segmentierung von Text in einzelne Zeilen
Wortsegmentierung: Trennung von Zeilen in Wörter
Zeichensegmentierung: Isolierung einzelner Zeichen (für einige Engines)

Stufe 3: Zeichenerkennung

Hier findet das eigentliche "Lesen" statt. Moderne OCR-Engines verwenden LSTM (Long Short-Term Memory) neuronale Netze, die Text zeilenweise verarbeiten und den Kontext berücksichtigen, um ähnlich aussehende Zeichen zu unterscheiden.

Zum Beispiel lernt das Netzwerk, dass "l" (kleines L) und "1" (Zahl eins) ähnlich aussehen, aber in unterschiedlichen Kontexten erscheinen – "l" erscheint in Wörtern, während "1" in Zahlen erscheint. Ebenso werden "O" (Buchstabe) versus "0" (Null), "S" versus "5" und "B" versus "8" durch umgebende Zeichen unterschieden.

Die Erkennungs-Engine gibt nicht nur Zeichen aus, sondern auch Konfidenzwerte für jede Erkennung. Ein mit 99% Konfidenz erkanntes Zeichen ist zuverlässiger als eines mit 60% Konfidenz.

Stufe 4: Nachbearbeitung

Rohe OCR-Ausgaben enthalten oft Fehler. Die Nachbearbeitung wendet linguistisches Wissen an, um wahrscheinliche Fehler zu korrigieren:

Wörterbuch-Suche: Überprüfung, ob erkannte Wörter in der Sprache existieren
Rechtschreibprüfung: Korrektur von "rnedicine" zu "medicine" (häufige rn/m-Verwechslung)
Sprachmodelle: Verwendung von Kontext zur Fehlerkorrektur ("die Katze" nicht "die K@tze")
Format-Validierung: Sicherstellung, dass Daten, Telefonnummern und E-Mails erwarteten Mustern entsprechen
Konfidenz-Filterung: Kennzeichnung von Erkennungen mit niedriger Konfidenz zur manuellen Überprüfung

Stufe 5: Ausgabegenerierung

Schließlich wird der erkannte Text für die Ausgabe formatiert. Dies kann sein:

Klartext mit entfernter Formatierung
Strukturierte Daten (JSON, XML) mit Positionskoordinaten
Durchsuchbares PDF mit unsichtbarer Textebene über dem Originalbild
HTML unter Beibehaltung von Layout, Schriftarten und Formatierung
Word- oder Excel-Dokumente mit bearbeitbarem Inhalt

Faktoren für OCR-Genauigkeit

Die OCR-Genauigkeit variiert dramatisch basierend auf der Eingabequalität. Das Verständnis dessen, was die Genauigkeit beeinflusst, hilft Ihnen, bessere Eingaben vorzubereiten und realistische Erwartungen zu setzen.

Faktor	Optimal	Problematisch	Auswirkung
Auflösung	300+ DPI	<150 DPI	Hoch - Zeichen werden pixelig
Kontrast	Dunkler Text auf Weiß	Niedriger Kontrast, verblasst	Hoch - Kanten werden unklar
Fokus	Scharf, klare Kanten	Verschwommen, unscharf	Kritisch - Hauptursache für Fehler
Beleuchtung	Gleichmäßig, diffus	Schatten, Blendung, Blitz	Mittel - erzeugt falsche Markierungen
Ausrichtung	Gerade, horizontal	Schräg >5 Grad	Mittel - verwirrt Layout
Schriftgröße	10-14 pt gedruckt	<8 pt oder >72 pt	Niedrig - Engines passen sich gut an
Hintergrund	Sauber, einheitlich	Texturiert, gemustert	Mittel - erzeugt Rauschen
Dokumentzustand	Flach, sauber	Zerknittert, fleckig, zerrissen	Hoch - verzerrt Zeichen

Praktische Genauigkeitstipps

Zum Scannen von Dokumenten:

Verwenden Sie 300 DPI für Standarddokumente, 400-600 DPI für kleinen Text
Glätten Sie zerknitterte Seiten vor dem Scannen (verwenden Sie ein Buch oder schweres Objekt)
Reinigen Sie das Scannerglas, um Staub und Flecken zu entfernen
Verwenden Sie den Graustufen-Modus für Schwarzweiß-Dokumente (besser als Farbe)
Aktivieren Sie die automatische Entzerrung in der Scanner-Software, falls verfügbar

Für Smartphone-Fotos:

Halten Sie das Telefon parallel zum Dokument (nicht in einem Winkel)
Verwenden Sie natürliches Tageslicht oder helle Innenbeleuchtung
Vermeiden Sie Blitz – er erzeugt Blendung und harte Schatten
Tippen Sie zum Fokussieren auf den Text, bevor Sie aufnehmen
Füllen Sie den Rahmen mit dem Dokument (gehen Sie nah heran)
Verwenden Sie Dokumentenscan-Apps, die automatisch zuschneiden und verbessern

Für Screenshots:

Erfassen Sie in nativer Auflösung (nicht vor OCR skalieren)
Vermeiden Sie Kompressionsartefakte (verwenden Sie PNG statt JPEG)
Stellen Sie sicher, dass Text klar gerendert wird (zoomen Sie bei Bedarf)
Deaktivieren Sie Schriftglättung/Anti-Aliasing, wenn möglich

Profi-Tipp: Wenn Sie schlechte Ergebnisse erhalten, versuchen Sie, Ihr Bild vor OCR in Graustufen umzuwandeln und den Kontrast zu erhöhen. Viele Engines funktionieren besser bei kontrastreichen Schwarzweiß-Bildern als bei Farbfotos. Unser Bildkonverter-Tool kann bei der schnellen Vorverarbeitung helfen.

Vorverarbeitungstechniken

Vorverarbeitung kann die OCR-Genauigkeit dramatisch verbessern. Hier sind die effektivsten Techniken und wann sie einzusetzen sind.

Binarisierung (Schwellenwertbildung)

Die Umwandlung von Graustufenbildern in reines Schwarzweiß vereinfacht die Erkennung. Die Herausforderung besteht darin, den richtigen Schwellenwert zu wählen.

Globale Schwellenwertbildung verwendet einen einzigen Schwellenwert für das gesamte Bild. Funktioniert gut für gleichmäßig beleuchtete Dokumente, versagt aber, wenn die Beleuchtung über die Seite variiert.

Adaptive Schwellenwertbildung berechnet unterschiedliche Schwellenwerte für verschiedene Bereiche. Unverzichtbar für Fotos mit ungleichmäßiger Beleuchtung oder Schatten. Otsus Methode ist ein beliebter automatischer Ansatz.

Rauschunterdrückung

Gescannte Dokumente enthalten oft Flecken, Staubspuren und Scan-Artefakte. Die Rauschunterdrückung entfernt diese, ohne den Text zu beschädigen.

Häufige Techniken:

Medianfilterung: Entfernt Salz-und-Pfeffer-Rauschen
Morphologische Operationen: Opening entfernt kleine weiße Flecken, Closing entfernt kleine schwarze Flecken
Verbundene Komponentenanalyse: Entfernt Objekte, die zu klein sind, um Text zu sein

Entzerrung

Text muss horizontal sein für optimale Erkennung. Die Entzerrung erkennt den Textwinkel und dreht das Bild, um ihn zu korrigieren.

Die meisten OCR-Engines beinhalten automatische Entzerrung, aber manuelle Korrektur kann für stark gedrehte Bilder (mehr als 10-15 Grad) erforderlich sein.

Randentfernung

Seitenkanten, Scanner-Ränder und Seitenränder können die Layout-Analyse verwirren. Das Erkennen und Entfernen dieser verbessert die Ergebnisse, besonders bei mehrspaltigen Dokumenten.

Kontrastverbesserung

Verblasste Dokumente profitieren von Kontrastverbesserung. Histogrammausgleich verteilt Intensitätswerte, um den Kontrast zu maximieren. Seien Sie vorsichtig, nicht zu stark zu verbessern, was Artefakte erzeugen kann.

Sprachunterstützung

Moderne OCR-Engines unterstützen über 100 Sprachen, aber die Genauigkeit variiert erheblich basierend auf Schrifttyp, Zeichenkomplexität und Verfügbarkeit von Trainingsdaten.

Sprachen mit lateinischer Schrift

Sprachen, die das lateinische Alphabet verwenden (Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch usw.), erreichen die höchste Genauigkeit – oft 99%+ bei sauberem gedrucktem Text. Diese Sprachen haben:

Begrenzte Zeichensätze