Tesseract Version Update


#1

Nachdem immer mehr Personen Probleme mit der aktuellen Texterkennung haben, habe ich mich entschieden, die aktuelle Tesseract-Version im Nightly vom 08.02.2019 zu löschen und die aktuellste Version (4.0) im Code zu implementieren. Wichtig: Leider ist dieser Version nicht abwärtskompatibel (das bedeutet, ihr müsst Tesseract installieren, falls ihr diese Version benutzt). Damit wird es für euch einfacher, neue Versionen direkt zu installieren. Wie gehe ich hierzu vor?

  1. Downloade & installiere die aktuellste Version
    Die UB Mannheim stellt hierbei die aktuellste Version zum Download (https://github.com/UB-Mannheim/tesseract/wiki) bereit. Downloade und installiere diese.
  2. Download die richtige Sprachdatei
    Wir empfehlen die Deutsche Sprachdatei aus “tessdata_best”. Hiermit dauert der Vorgang etwas länger, es wird jedoch auch ein bessere Ergebnis erzielt. (https://github.com/tesseract-ocr/tessdata_best/blob/95593f0b017280f55c77c8a40765c53336de179d/deu.traineddata). Downloade diese und speichere sie im tessdata-Verzeichnis deiner Tesseract-Installation (im Normalfall C:\Program Files (x86)\Tesseract-OCR\tessdata)
  3. Stelle den Pfad in der AlarmWorkflow-Configuration ein
  4. Überprüfe den OCR-Vorgang
    Nach einem Test-Fax solltest du den OCR-Vorgang überprüfen. Gehe hierzu in dein “Analysis”-Verzeichnis (C:\Fax\Analysis per Default) und wähle die letzte Datei aus. Dort überprüfst du, ob das Fax richtig in eine Textdatei umgewandelt wurde. Falls du Fehler findest, trägst du sie im Cofnigurationswörterbuch ein.
    Bekannte Fehler:
    • EINSATZAGRUND anstatt EINSATZAGRUND

Ich hoffe, diese kleine Anleitung hat euch ein wenig geholfen, und verbessert eure Erkennungsrate der Faxe. Lasst bitte ein kurzes Statement dazu da, ob es nun für euch besser ist!

Für mehr Infos: https://github.com/OpenFireSource/AlarmWorkflow/pull/188

Gruß
F4lcon


Schlechte Texterkennung schon beim Testfax
Update Nightly vom 08.02.2019
#2

Hallo F4lcon,

vielen Dank für deine Mühen.
Die Erkennung funktioniert jetzt viel besser.
Ich hab aber leider keine Ahnung wo sich das Configurationswörterbuch befindet bzw wie ich eines anlegen kann. Über Google bin ich auf eine user-words Datei gestoßen.
Eine deu.user-words im tessdata Verzeichnis hat bei mir aber keinerlei Effekt.

Gruß
Schouster


#3

Hallo Schouster,
ich denke, dass damit das Korrekturwörterbuch gemeint ist (in der AWF Konfiguration)!


#4

Ich bekomme leider diese Version nicht zum Laufen. Beim Installieren des Service bekomme ich folgende Meldung:
1
Hat jemand eine Idee?


#5

Hallo
Ich konnte die neue version kurz testen und es läuft wieder alles prima.
Danke für die mühen.

@firetronic diese meldung hatte ich auch versuche das installationspacket nicht mit Windows boardmitteln zu entpacken sondern probiere es mit z.B.winrar so hats bei mir geklappt.


#6

Hallo firetronic,
vielen Dank für den Tipp.
Jetzt wird die Erkennung nochmal verbessert und sieht sehr gut aus.

Gruß
Schouster


#7

Hallo,

ich habe die aktuelle Version bei uns Installiert. Funktioniert auch. Allerdings ist mir auftefallen das userer ILS (Traunstein) ein Wort im Alarmfax geändert hat. Es heißt jetzt “Schlagwort” und nicht mehr “Schlagw.”.
Ich habe auch schon verucht das anzupassen. Bekomm es aber irgendwie nicht hin. Das Schlagwort wird nicht erkannt.
Kann mir hier wer helfen?

Gruß
Johannes

Edit:
Habs doch hinbekommen :sweat_smile:
Kann ich die Datei irgendwie hochladen? Im mom sind nur Bilddateien erlaubt.

Allerdings wenn die Koordinaten falsch erkannt werden, wird kein Alarm ausgelöst.
Was muss ich denn hier ändern?


#8

Kannst du mir möglicherweise per PN ein akutelles Alarmfax zukommen lassen, wo die Erkennung der Koordinaten nicht geht? Möglicherweise kann ich da was machen :slight_smile:


#9

Hallo ,

Nach dem Update werden keine Faxe mehr ausgewertet bei mir.
Leider kann ich nicht nachvolziehen was tesseract erkennt da die Faxe auch nicht in der Analyse auftauchen.

Hat jemand eine idee woran das liegen könnte?
Mit Grüßen
Rene


#10

Hört sich für mich so an, als wäre der Pfad zur tesseract Installation im Config Programm von Alarmworkflow nicht korrekt angegeben. Falls du in C:\Programme (x86) installiert hast muss das auch exakt so eingegeben werden. Ich muss bei mir nach jeder Änderung die mit gelbem ! speicherbar ist den Service stoppen, PC neustarten und dann Service wieder starten.

MkG Bernd


#11

Guten Morgen
Ich bin nochmal alles durchgegangen und habe auch nochmal den Instalationspfad überprüft,
leider klappt es immer noch nicht.
ich habe mal das Log Gespeichert und Hier zum anschauen bereitgestellt.
Vl kann man dadraus etwas erkennen wo mein fehler liegt.

Grüße und ein schönes Wochenende
Rene


#12

Die Fehlermeldung sagt ganz klar, daß die deutsche Sprachdatei nicht gefunden werden konnte. Hast du denn dies hier auch durchgeführt?

Download die richtige Sprachdatei
Wir empfehlen die Deutsche Sprachdatei aus “tessdata_best”. Hiermit dauert der Vorgang etwas länger, es wird jedoch auch ein bessere Ergebnis erzielt. (https://github.com/tesseract-ocr/tessdata_best/blob/95593f0b017280f55c77c8a40765c53336de179d/deu.traineddata ). Downloade diese und speichere sie im tessdata-Verzeichnis deiner Tesseract-Installation

Falls ja und die Datei in deiner tesseract Installation (die deu.traineddata) ca. 8 MB groß ist, dann deinstalliere tesseract und mach das nochmal neu. Natürlich nach Deinstallation Alarmsystem stoppen und PC neustarten. Das Gleiche nach Neuinstallation nochmal. Dann Alarmsystem (Server und Datenbank) neu starten.

Gruß Bernd


#13

Mahlzeit

Die Komplette Neuinstalation Hat den Fehler behoben.
Keine Anung was da schiefgelaufen ist.
Vielen dank für deine Hilfe

Grüße
Rene