Holen Sie sich mit OSS tess4j Text aus einem Bild
Maven Kopieren Sie es aus mvnrepository und fügen Sie es in POM.xml ein
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.3.1</version>
</dependency>
tess4j-4.3.1.jar ist DL
Wenn Sie Maven nicht verwenden können, Von hier
Holen Sie sich die japanische Erkennungsdatei (jpn.traineddata) aus dem GitHub Repository.
OcrTrial.java
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import javax.imageio.ImageIO;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class OcrTrial {
public static void main(String[] args) throws IOException, TesseractException {
//Bild laden
File file = new File("C:\\work\\INPUT.JPG");
BufferedImage img = ImageIO.read(file);
ITesseract tesseract = new Tesseract();
tesseract.setDatapath("C:\\work"); //Sprachdatei (jpn.trainierte Daten)))
tesseract.setLanguage("jpn"); //Geben Sie "Japanisch" als Analysesprache an
//Analyse
String str = tesseract.doOCR(img);
//Ergebnis
System.out.println(str);
}
}
Das ist der Fehler 〇 (Piktogramm) × (Pivot-Gramm)
Wenn das Bild eindeutig als Zeichen identifiziert werden kann, scheint die Erkennungsrate hoch zu sein.
Recommended Posts