Tesseract Problem(chen) scheint nicht die deutsche sprache


#1

Mein Alarmworkflow arbeitet zzt schon ein wenig, aber hat defizite bei der Texterkennung sowie dem passenden Parser.

  • Fax kommt an .tif
  • Fax wird verarbeitet
  • 2 Ausdrucke werden korrekt erzeugt
  • Tesseract versucht sich an der auswertung (*1)
  • Fax wird ins Archiv geschoben .tif (neuer Name)
  • Die Kopfzeile des Faxes wird mit einer Leerzeile teilweise “überschrieben”
  • Als Parser wir derzeit die falsche Leitstelle verwendet (*2)(für uns gibts noch nix passendes)
  • Der ausgewertete Text wird in der Alarmanzeige versucht darzustellen
  • Email klappt nicht (keine Priorität, Fehlersuche nicht begonnen)
  • Karte wird nicht angezeigt (Kann nicht besser getestet werden solang Tesseract die Buchstaben zerhackt)

Wenn ich tesseract händisch auf die .tif loslasse kann ich den parameter “-l deu” (deutsch) angeben
Dann wird alles (ausserder kaputten Kopfzeile) sehr gut erkannt.

Bestimmt totale Anfägerfragen:

Wie kann ich tesseract standardmäßig auf deutsch lesen lassen?
Wie bekomme ich die Kopfzeile heil?
Wie kann ich dem Parser Lübeck beibringen?

Beste grüße aus Schleswig-Holstein


#2

Hi,
tesseract ist in unserem Fall für für die Schriftart der bayrischen ILSen trainiert.
Das weicht von Leitstelle zu Leitstelle stark ab. Ich schau mir gleich mal dein Fax an.

Ohne funktionierenden Parser kann man wenig anfangen mit den Daten auf dem Fax.
Für mich klingt es so als hättest du tesseract direkt installiert?