Klassische und moderne Methoden zur optischen Zeichenerkennung (OCR) sowie zur regelbasierten und ML-basierten Extraktion strukturierter Informationen aus Dokumenten (Rechnungen, Formulare, PDFs).
Relevanz: OCR-Preprocessing-Schritte (Normalisierung, Binarisierung, Deskewing, Noise Removal) kennen; Segmentierungsverfahren (Connected Component Analysis, Projection Profiles, PSM) erklären; Unterschied regelbasierte vs. ML-basierte Extraktion verstehen; Layout-Analyse-Grenzen beschreiben.
OCR (Optical Character Recognition)Automatische Erkennung und Digitalisierung von Text aus Bildern oder gescannten Dokumenten.TesseractOpen-Source-OCR-Engine; Standard-Tool, seit 2006 von Google gepflegt; konfigurierbar via PSM und OEM.BinarisierungUmwandlung eines Graustufenbilds in ein Schwarzweiss-Bild; Grundlage für OCR; Otsu-Verfahren bestimmt den optimalen Schwellwert.Otsu-VerfahrenAlgorithmus zur automatischen Schwellwertbestimmung bei der Binarisierung; minimiert die intraklassen-Varianz im Histogramm.DeskewingKorrektur der Schräglage eines gescannten Dokuments; Winkelschätzung via Hough-Transformation oder Projektionsprofile.PSM (Page Segmentation Mode)Konfigurationsparameter in Tesseract/Pytesseract; definiert, wie die Seitensegmentierung durchgeführt wird (z.B. einzelne Zeile, Block, Spalte).CCA (Connected Component Analysis)Segmentierungsverfahren, das zusammenhängende Pixelgruppen im Binärbild zu Zeichenkandidaten gruppiert.Projection ProfileSumme der schwarzen Pixel pro Zeile (horizontal) oder Spalte (vertikal) eines Binärbildes; dient zur Zeilen- und Worttrennnung.XY-CutTop-down-Layoutanalyse; rekursive horizontale und vertikale Schnitte entlang von Leeräumen erzeugen einen Baum aus Inhaltsblöcken.Template MatchingKlassische OCR-Methode; vergleicht Pixel-für-Pixel mit gespeicherten Zeichenschablonen; nur für bekannte Schriftarten und -grössen geeignet.Anker-TokenBekanntes, eindeutiges Schlüsselwort in einem Dokument (z.B. «Rechnungsnummer:»), das als Startpunkt für die regelbasierte Informationsextraktion dient.Wrapper InductionVerfahren zur automatischen Regelableitung aus wenigen annotierten Beispieldokumenten; Halbautomatisierung der Extraktionsregeln.Ink BleedingUnerwünschtes «Ausbluten» von Druckertinte, das Buchstaben verdickt oder verbindet; wird durch Erosion/Dilation im Preprocessing korrigiert.DPI (Dots Per Inch)Bildauflösung; beeinflusst OCR-Qualität massgeblich; Faustregel: ≥ 300 dpi für Standardschriftgrössen. ---