Direkt zum InhaltDirekt zur SucheDirekt zur Navigation
▼ Zielgruppen ▼

Humboldt-Universität zu Berlin - Digitale Medien

Wie kann ich Texte aus Bildern durchsuchbar machen?

Wie nutze ich das Plugin OCRStream, um Texte aus Bildern maschinenlesbar und durchsuchbar zu machen?

Texterkennung

Das Akronym OCR entstammt dem Englischen und steht für optical character recognition -- auf Deutsch Optische Zeichenerkennung. Damit ist es beispielsweise möglich, eine eingescannte A4-Seite mit Text so aufzubereiten, dass der dort enthaltene Text maschinenlesbar wird. Dadurch kann nach den dort enhaltenen Texten gesucht werden, wie es auch in direkt am Computer eingegebenen Texten möglich ist.

In der Praxis hängt der Erfolg einer solchen Texterkennung von vielen Faktoren ab, wie z.B. der Qualität des Scans (Auflösung und Kontrast), der verwendenten Schriften/Glyphen und der Sprache des Textes.

Plugin OCRStream

Das Plugin OCRStream ist standardmäßig aktiviert. Dadurch steht beim Upload von Dokumenten die Option zur Texterkennung zur Verfügung, die standardmäßig deaktiviert ist. Zur Verbesserung der Texterkennungsleistung sollte die passende Sprache ausgewählt sein. Die etwas kryptisch klingende Option Tesseract page segmentation mode bietet die Möglichkeit, verschiedene Arbeitsmodi zu verwenden und ggf. durch eine Änderung ein besseres Ergebnis zu erzielen. Die Texterkennung kann auch durch Bearbeiten einer Ressource (erneut) durchgeführt werden.