Extrayez une chaîne de caractères d'un fichier PDF.
OS: Windows 7 Langue: Java
Créez un projet maven et ajoutez ce qui suit à pom.xml
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.8</version>
</dependency>
try {
File file = new File("test.pdf");
PDDocument document = PDDocument.load(file);
//Extraire uniquement les chaînes de caractères
PDFTextStripper pdfStripper = new PDFTextStripper();
//Comme il en a l'air(Réglage de la lecture des chaînes de caractères dans l'ordre de (du haut à gauche vers le bas à droite)
pdfStripper.setSortByPosition(true);
//Extraction de texte à partir de pdf
text = pdfStripper.getText(document);
document.close();
} catch (Exception e) {
e.printStackTrace();
}
Étant donné que la chaîne de caractères de sortie comprend des numéros de page et des espaces (espaces demi-largeur, espaces pleine largeur, tabulations), etc., l'analyse devient plus facile une fois le traitement de nettoyage appliqué.
Recommended Posts