Compilez Tesseract pour Tess4J pour transcrire des images à l'aide de CentOS

Les choses nécessaires

VirtualBox (après tout, java est merveilleux.) Image disque de CentOS6.3 (iso)

Environnement virtuel

procédure

Définir la VM

Il vous sera demandé si vous souhaitez tester la construction en premier, mais ignorez le test. Pour une raison quelconque, je ne peux pas avancer. Après cela, procédez tel quel. Installez tout dans la version de bureau.

Paramètres Internet

Au début, le réseau n'est pas connecté, alors réglez-le. Démarrez le terminal et changez de super utilisateurs

su - 

Jouez avec les fichiers suivants avec vi. (Mode insertion avec i, échapper avec esc, écraser avec: wq!)

vi /etc/sysconfig/network-scripts/ifcfg-eth0

ONBOOT = yes Changement de #no en yes

Redémarrez le service.

service netowrk restart

Vérifiez si FireFox peut être connecté, et s'il est connecté, c'est OK. (Selon le matériel, il peut être nécessaire d'installer le pilote.)

Autres mises à jour

Démarrez le terminal, Changement de super utilisateur

su - 

mise à jour

yum update

Mettre à niveau java vers la version 1.8 (dans la version de développement)

#Parce qu'il passe également à javac.
yum install java-1.8.0-openjdk-devel

Eclipse Neon Installer eclipse neon (erreur de version dans la bibliothèque de dessins si elle est supérieure à cela) https://www.eclipse.org/downloads/packages/release/neon/3

Je suppose que vous utilisez tess4j dans votre projet Maven.

Installer des outils de développement et compiler tesseract

Outil de développement (gcc nécessite la version 4.7 ou supérieure)

#Outils de développement
yum -y groupinstall "development tools"
#Bibliothèque périphérique
yum -y install libpng-devel libtiff-devel libjpeg-devel
#Outils nécessaires à la compilation
yum -y install centos-release-scl
#compilateur
yum -y install devtoolset-7-gcc-c++

Activez l'environnement inscored

Cela doit être fait dans le terminal à chaque fois, sauf si défini dans le fichier de préférences.

source /opt/rh/devtoolset-7/enable

Installation des outils nécessaires à la compilation

cd /usr/src/
wget http://ftpmirror.gnu.org/autoconf-archive/autoconf-archive-2019.01.06.tar.xz
tar xvvfJ autoconf-archive-2019.01.06.tar.xz
cd autoconf-archive-2019.01.06/
./configure --prefix=/usr
make
make install

Compilez et installez le programme de traitement d'image de Tesseract.

cd /usr/src/
wget http://leptonica.org/source/leptonica-1.77.0.tar.gz
tar xvvfz leptonica-1.77.0.tar.gz
cd leptonica-1.77.0/
./configure --prefix=/usr/local/
make
make install

Compilez et installez Tesseract

Cette fois 4.1.1-rc2

cd /usr/src/
wget https://github.com/tesseract-ocr/tesseract/archive/4.1.1-rc2.tar.gz
tar xvvfz 4.1.1-rc2.tar.gz #Pour une raison quelconque, le nom tesseract manque lol. Seulement cette version.
cd tesseract-4.1.1-rc2 
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
./autogen.sh
./configure --prefix=/usr/local/ --with-extra-libraries=/usr/local/lib/ --disable-openmp
make install

Quand c'est fait avec succès, tout est dans / usr / local / lib / Créez un dossier «linux-x86-64» où vous le souhaitez Copiez ceci. cp file file... dir

Copiez-le directement dans le dossier src / main / resources du projet qui utilise tesseract of eclipse

Lancez Eclipse depuis le terminal

Tout d'abord, définissez les paramètres régionaux. (https://github.com/nguyenq/tess4j/issues/105)

export LC_ALL=C

Dans cet état, saisissez le chemin du fichier de démarrage d'Eclipse dans le terminal et démarrez-le.

Version du logiciel

Si vous pouvez compiler votre propre programme java, Inclut le fichier jar, le dossier tessdata et le dossier compilé «linux-x86-64».

Lors d'un test dans un terminal dans un environnement similaire export LC_ALL = C, puis commander.

c'est tout.

Où je suis resté coincé

-Ajouter une option au moment de la compilation pour éviter une erreur de l'éditeur de liens openmp. (Https://github.com/tesseract-ocr/tesseract/issues/2323) -Créez un dossier linux-x86-64, mettez-y tous les fichiers compilés et copiez-le dans le dossier de ressources au lieu de directement sous le dossier du projet. -Chaque fois que vous compilez la bibliothèque tesseract (avec la méthode ci-dessus), vous avez besoin de "source / opt / rh / devtoolset-7 / enable" dans le terminal. -Après avoir utilisé la commande locale pour "exporter LC_ALL = C" (* vous pouvez l'enregistrer dans le fichier de configuration), lancez eclipse dans le terminal tel quel.

Reference

Visionary Imaging Services, Inc. Tatsuaki Kobayashi

Recommended Posts

Compilez Tesseract pour Tess4J pour transcrire des images à l'aide de CentOS
Conversion de Pandas DataFrame en System.Data.DataTable à l'aide de Python pour .NET
Passer de python2.7 à python3.6 (centos7)
Télécharger des images de «Irasutoya» à l'aide de Scrapy
Prédiction géolocalisée à partir d'images à l'aide de DNN
Publier une image de Python sur Tumblr
De Python à l'utilisation de MeCab (et CaboCha)
Connexion de python à MySQL sur CentOS 6.4
Python> Numéros de sortie de 1 à 100, 501 à 600> Pour csv