Tesseract Version Update


#1

Nachdem immer mehr Personen Probleme mit der aktuellen Texterkennung haben, habe ich mich entschieden, die aktuelle Tesseract-Version im Nightly vom 08.02.2019 zu löschen und die aktuellste Version (4.0) im Code zu implementieren. Wichtig: Leider ist dieser Version nicht abwärtskompatibel (das bedeutet, ihr müsst Tesseract installieren, falls ihr diese Version benutzt). Damit wird es für euch einfacher, neue Versionen direkt zu installieren. Wie gehe ich hierzu vor?

  1. Downloade & installiere die aktuellste Version
    Die UB Mannheim stellt hierbei die aktuellste Version zum Download (https://github.com/UB-Mannheim/tesseract/wiki) bereit. Downloade und installiere diese.
  2. Download die richtige Sprachdatei
    Wir empfehlen die Deutsche Sprachdatei aus “tessdata_best”. Hiermit dauert der Vorgang etwas länger, es wird jedoch auch ein bessere Ergebnis erzielt. (https://github.com/tesseract-ocr/tessdata_best/blob/95593f0b017280f55c77c8a40765c53336de179d/deu.traineddata). Downloade diese und speichere sie im tessdata-Verzeichnis deiner Tesseract-Installation (im Normalfall C:\Program Files (x86)\Tesseract-OCR\tessdata)
  3. Stelle den Pfad in der AlarmWorkflow-Configuration ein
  4. Überprüfe den OCR-Vorgang
    Nach einem Test-Fax solltest du den OCR-Vorgang überprüfen. Gehe hierzu in dein “Analysis”-Verzeichnis (C:\Fax\Analysis per Default) und wähle die letzte Datei aus. Dort überprüfst du, ob das Fax richtig in eine Textdatei umgewandelt wurde. Falls du Fehler findest, trägst du sie im Cofnigurationswörterbuch ein.
    Bekannte Fehler:
    • EINSATZAGRUND anstatt EINSATZAGRUND

Ich hoffe, diese kleine Anleitung hat euch ein wenig geholfen, und verbessert eure Erkennungsrate der Faxe. Lasst bitte ein kurzes Statement dazu da, ob es nun für euch besser ist!

Für mehr Infos: https://github.com/OpenFireSource/AlarmWorkflow/pull/188

Gruß
F4lcon


#2

Hallo F4lcon,

vielen Dank für deine Mühen.
Die Erkennung funktioniert jetzt viel besser.
Ich hab aber leider keine Ahnung wo sich das Configurationswörterbuch befindet bzw wie ich eines anlegen kann. Über Google bin ich auf eine user-words Datei gestoßen.
Eine deu.user-words im tessdata Verzeichnis hat bei mir aber keinerlei Effekt.

Gruß
Schouster


#3

Hallo Schouster,
ich denke, dass damit das Korrekturwörterbuch gemeint ist (in der AWF Konfiguration)!


#4

Ich bekomme leider diese Version nicht zum Laufen. Beim Installieren des Service bekomme ich folgende Meldung:
1
Hat jemand eine Idee?


#5

Hallo
Ich konnte die neue version kurz testen und es läuft wieder alles prima.
Danke für die mühen.

@firetronic diese meldung hatte ich auch versuche das installationspacket nicht mit Windows boardmitteln zu entpacken sondern probiere es mit z.B.winrar so hats bei mir geklappt.


#6

Hallo firetronic,
vielen Dank für den Tipp.
Jetzt wird die Erkennung nochmal verbessert und sieht sehr gut aus.

Gruß
Schouster