Ceci est une suite de J'ai essayé le traitement OCR d'un fichier PDF avec Java. J'écris principalement sur tess4j 4.1
Même si je cherche sur tess4j 4.1 sur Google, je n'obtiens pas beaucoup d'informations, je vais donc écrire comment le déplacer et le résultat de son déplacement Si vous n'utilisez que les informations sur le net, vous obtiendrez une erreur d'exécution.
Voici la partie modifiée de J'ai essayé le traitement OCR du fichier PDF avec Java.
compile group: 'net.sourceforge.tess4j', name: 'tess4j', version: '4.1.1'
Je décrirai la dépendance du module avec un sentiment tessdata/configs/api_config
textord_tabfind_vertical_horizontal_mix T
Sera ajouté. Sans cette description, une erreur d'exécution se produira. jpn.traineddata Écraser avec les données d'apprentissage téléchargées depuis GitHub
Exécutez-le simplement depuis Gradle avec la commande run
J'ai comparé les résultats d'exécution de 3 séries et 4 séries avec la mémoire Win10pro iCore5 2.2GH 16G par le processus de conversion de "2016 Spring Information Security Supporter Examination 14:00" 4 séries environ 2,5 minutes 3 séries environ 8 minutes La série 4 est extrêmement plus rapide
Dans la troisième série, le taux de conversion erronée était déraisonnablement élevé si les caractères japonais et anglais étaient mélangés, mais dans la quatrième série, cela a été considérablement amélioré. Par exemple, en 3 séries
Q-Quelles sont les caractéristiques du pus S?
Par le chef de la cloche,Le nombre d'étapes est décidé.
La pièce convertie en 4 séries
Q (1) Quelles sont les caractéristiques de l'AES?
Par la longueur de la clé,Le nombre d'étapes est décidé.
Il est conçu pour être correctement converti en caractères significatifs
Recommended Posts