ORC Probleme mit Tesseract


#1

Hallo,

leider hat die ILS Nürnberg die Schriftart ihrer Faxe geändert. Seit diesem Zeitpunkt kann Tesseract die Schriftzeichen nur noch schlecht erkennen.

Gibt es eine Möglichkeit Tesseract an die neue Schriftart zu gewöhnen?

Schöne Grüße und schon mal Danke.


#2

Ich habe Tesseract wieder zu akzeptablen Ergebnissen gebracht. Dazu habe ich ein deutsches Dictionary hinzugefügt, und den Aufruf dahingehend erweitert, dass das deutsche Dictionary verwendet werden soll. Das funktioniert dann zum größten Teil, allerdings kommt es bei “Mitteiler” oder auch “Patient” noch zu Fehlerkennungen, da in der neuen Schriftart manchen Buchstaben zusammenkleben.

Das habe ich dann dahingend umschifft, als dass ich den Parser erweitert habe. Der sucht nun vor der Behandlung des Faxes nach diesen fehlerhaften Treffern und ersetzt sie durch die korrekten Werte.

Damit läuft die Erkennung wieder sauber. In der Hoffnung, dass da nicht wieder dran geschraubt wird in den kommenden Wochen.

Grüße


#3

Danke für die Unterstützung.

Habe mittlerweile eine ähnliche Lösung gefunden.
Ich habe auch ein Deutsches Wörterbuch eingebunden, allerdings habe ich dann bei Fehlerkennung (bei uns war es Bemerkung) einfach in der Configuration eine Regel erstellt. Damit läuft es jetzt auch wunderbar.

Um das Wörterbuch einzubinden habe ich einfach die Datei eng.trained ersetzt durch das deutsche Wörterbuch.

Laut ILS resultiert das Problem aus dem Update der Faxsoftware.


#4

Ja, da wurde wohl Faxware durch DAVID Fax ersetzt. Die Qualität war vorher besser.


#5

Hallo,

bei uns im Leitstellenbereich Straubing haben wir das selbe Problem. Nach Rücksürache mit der ILS haben sie ihr System geupdated.

Könnte jemand seine Lösung hier hochladen, beim Einbinden neuer .traineddata-Dateien wertet bei uns das Fax nicht mehr aus (werd wohl nicht die richtigen Dateien für die Tesseract-Version gefunden haben).

Schonmal vielen Dank im Voraus!


#6

Servus,

ich hab eine funktionierend Datei gefunden. Sie ist unten angehängt.
Einfach nur mit der Bestehenden ersetzen.
eng-traineddata.zip (978 KB)