Récupérer le texte d'une image en utilisant OSS tess4j
Maven Copiez et collez de mvnrepository vers POM.xml
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.3.1</version>
</dependency>
tess4j-4.3.1.jar est DL
Si vous ne pouvez pas utiliser Maven, À partir d'ici
Obtenez le fichier de reconnaissance japonais (jpn.traineddata) à partir du GitHub Repository
OcrTrial.java
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import javax.imageio.ImageIO;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class OcrTrial {
public static void main(String[] args) throws IOException, TesseractException {
//Charger l'image
File file = new File("C:\\work\\INPUT.JPG");
BufferedImage img = ImageIO.read(file);
ITesseract tesseract = new Tesseract();
tesseract.setDatapath("C:\\work"); //Fichier de langue (jpn.traineddata)))
tesseract.setLanguage("jpn"); //Spécifiez "japonais" comme langue d'analyse
//une analyse
String str = tesseract.doOCR(img);
//résultat
System.out.println(str);
}
}
C'est l'erreur 〇 (pictogramme) × (Gramme pivot)
Si l'image peut être clairement identifiée comme des caractères, le taux de reconnaissance semble élevé.
Recommended Posts