Blog 11

Was ist OCR?
Gizem Baruk  I   14.12.2021

Die optische Zeichenerkennung, auch genannt OCR (engl. Optical Character Recognition) ist eine Technologie, die handgeschriebene oder gedruckte Textzeichen aus digitalen Dokumenten z. B. einem eingescannten Papierdokument erkennen und auslesen kann. Dabei wird der Text des Dokumentes untersucht und Zeichen in einen Code übersetzt, der für die Datenverarbeitung genutzt wird. Die optische Zeichenerkennung besteht oftmals aus einer Hard – und Software, die physische Dokumente in Maschinen lesbare Texte umwandelt. Wird eine Kameraaufnahme, ein Scanner oder ein Multifunktionsgerät für das Einlesen und Kopieren des Dokumentes verwendet, übernimmt die Software die wesentliche Verarbeitung. Mit der Strukturen Erkennung (Layout Analyse) kann sie Textblöcke von grafischen Elementen unterscheiden, Texte in Sätze, Wörter und Zeichen zerlegen und diese für die Kontextanalyse speichern, um später inhaltliche Zusammenhänge zu erschließen. Bei einer erweiterten Methode der Zeichenerkennung, kann der Einsatz von künstlicher Intelligenz (KI) von Bedeutung sein, wie z. B. bei der Erkennung unterschiedlicher Sprachen oder Handschriften. 
Wie funktioniert die optische Zeichenerkennung?
Das physische Dokument wird durch mit einem Multifunktionsgerät oder einem Scanner digitalisiert. Das eingescannte Dokument wird auf helle und dunkle Bereiche analysiert. Dabei werden die hellen Bereiche als Hintergrund und die dunklen Bereiche als zu erkennende Zeichen identifiziert.
Um alphabetische Buchstaben oder numerische Ziffern zu finden, werden die dunklen Bereiche weiterverarbeitet. Häufig wird nur ein Wort, ein Zeichen oder ein Textblock auf einmal erkannt. 

Zwei Verfahren der Zeichenerkennung:
1.) Merkmalserkennung (Feature Matching): Anhand bestimmter Merkmale kann jedes Zeichen identifiziert werden. Dazu gehört die Anzahl der abgewickelten Linien, gekreuzte Linien oder Kurven. Beispielsweise kann der Buchstabe A als zwei diagonale Linien gespeichert werden, die in der Mitte mit einer horizontalen Linie verbunden ist. Im nächsten Schritt wird das Zeichen identifiziert und in einen Code für die weitere Verarbeitung im Computer umgewandelt. 

2.) Mustererkennung (Pattern Matching): Die Software verwendet hierbei die eigene Zeichen-Datenbank, um die zu erkennenden Zeichen damit abzugleichen.

Anwendungsbereiche der OCR-Technologie?
Die automatische Verarbeitung von Dokumenten (Lieferscheine, Bestelldokumente, Aufträge).
Die Automatisierung von Dateneingabe, Verarbeitung und Extraktion.
Das Verarbeiten von gedruckten Dokumenten, die mit Microsoft Word etc. bearbeitet werden können.
Das Übersetzen von bestimmten Wörtern innerhalb eines erfassten Dokumentes in eine andere Sprache.
Das Aufnehmen wichtiger rechtlicher Dokumente in eine Datenbank.
Das Sortieren von Briefen für die Postzustellung.
Etc.

Welche Vorteile ergeben sich aus dieser Technologie?  
Ein großer Vorteil der OCR-Technologie ist die Schnelligkeit, mit der die Software - im Gegensatz zum händischen Abtippen durch einen Mitarbeiter-, Texte erfasst. Zudem ermöglicht es uns große Textmengen zu durchsuchen, zu bearbeiten und zuzuordnen. Dank dieser Technologie spart man Zeit und umgeht eintönige Arbeitsprozesse. 
Share by: