Dies ist eine Fortsetzung von Ich habe versucht, eine PDF-Datei mit Java über OCR zu verarbeiten. Ich schreibe hauptsächlich über tess4j 4.1
Selbst wenn ich über tess4j 4.1 google, erhalte ich nicht viele Informationen, daher werde ich schreiben, wie ich es verschiebe und das Ergebnis des Verschiebens Wenn Sie nur die Informationen im Internet verwenden, wird ein Laufzeitfehler angezeigt.
Hier ist der geänderte Teil von Ich habe die OCR-Verarbeitung von PDF-Dateien mit Java versucht.
compile group: 'net.sourceforge.tess4j', name: 'tess4j', version: '4.1.1'
Ich werde die Abhängigkeit des Moduls mit einem Gefühl beschreiben tessdata/configs/api_config
textord_tabfind_vertical_horizontal_mix T
Wird hinzugefügt werden. Ohne diese Beschreibung tritt ein Laufzeitfehler auf. jpn.traineddata Überschreiben mit Lerndaten, die von [GitHub] heruntergeladen wurden (https://github.com/tesseract-ocr/langdata/tree/master/jpn)
Führen Sie es einfach mit dem Befehl run von Gradle aus
Ich habe die Ausführungsergebnisse von 3 Serien und 4 Serien mit Win10pro iCore5 2.2GH Speicher 16G durch den Konvertierungsprozess von "2016 Spring Information Security Supporter Examination 2 pm" verglichen. 4 Serien ca. 2,5 Minuten 3 Serien ca. 8 Minuten 4er Serie ist überwältigend schneller
In der 3. Serie war die Fehlkonvertierungsrate unangemessen hoch, wenn japanische und englische Zeichen gemischt wurden. In der 4. Serie wurde dies jedoch dramatisch verbessert. Zum Beispiel in 3 Serien
Q-Was sind die Eigenschaften von Eiter S?
Beim Glockenchef,Die Anzahl der Stufen wird festgelegt.
Das Teil, das konvertiert wurde, ist 4 Serien
F (1) Was sind die Merkmale von AES?
Durch die Schlüssellänge,Die Anzahl der Stufen wird festgelegt.
Es ist so konzipiert, dass es ordnungsgemäß in aussagekräftige Zeichen umgewandelt werden kann
Recommended Posts