Lire une chaîne dans un fichier PDF avec Java

Aperçu

Extrayez une chaîne de caractères d'un fichier PDF.

Les données d'image dans les fichiers PDF ne sont pas traitées dans ce cas.

Environnement d'exécution

OS: Windows 7 Langue: Java

Préparation Java

Créez un projet maven et ajoutez ce qui suit à pom.xml

<dependency>
	<groupId>org.apache.pdfbox</groupId>
	<artifactId>pdfbox</artifactId>
	<version>2.0.8</version>
</dependency>

la mise en oeuvre

try {
    File file = new File("test.pdf");
    PDDocument document = PDDocument.load(file);

    //Extraire uniquement les chaînes de caractères
    PDFTextStripper pdfStripper = new PDFTextStripper();

    //Comme il en a l'air(Réglage de la lecture des chaînes de caractères dans l'ordre de (du haut à gauche vers le bas à droite)
    pdfStripper.setSortByPosition(true);
    //Extraction de texte à partir de pdf
    text = pdfStripper.getText(document);

    document.close();

} catch (Exception e) {
    e.printStackTrace();
}

Étant donné que la chaîne de caractères de sortie comprend des numéros de page et des espaces (espaces demi-largeur, espaces pleine largeur, tabulations), etc., l'analyse devient plus facile une fois le traitement de nettoyage appliqué.

Le PDF vertical ne fonctionne pas de cette façon

Recommended Posts

Lire une chaîne dans un fichier PDF avec Java

Lire le fichier xlsx en Java avec Selenium

Diviser une chaîne avec ". (Dot)" en Java

J'ai essayé OCR de traiter un fichier PDF avec Java

Lire le fichier de propriétés Java en C #

J'ai créé un PDF avec Java.

J'ai essayé OCR de traiter un fichier PDF avec Java part2

Lisez le fichier sous le chemin de classe sous forme de chaîne de caractères avec ressort

Lire les éléments contenant des virgules dans les fichiers CSV sans fractionnement (Java)

Lire JSON en Java

Créer un CSR avec des informations étendues en Java

Lire le fichier de propriétés Java

Code pour échapper aux chaînes JSON en Java

Extraction de texte en Java à partir de PDF avec pdfbox-2.0.8

Un fichier bat qui utilise Java dans Windows

[Java] Lire les fichiers dans src / main / resources

<java> Lire le fichier Zip et le convertir directement en chaîne

[Spring] Lire un message à partir d'un fichier YAML avec MessageSource

Inclure l'image dans le fichier jar avec la méthode statique java

Exporter le pdf avec un programme autonome (Java / Perl / VBA)

Implémentez rapidement singleton avec enum en Java

Sortie true avec if (a == 1 && a == 2 && a == 3) en Java (identifiant invisible)

Comment convertir un fichier en tableau d'octets en Java

Java11: exécuter le code Java dans un seul fichier tel quel

Pagination de PDF avec Java + PDFBox.jar

Lire l'entrée standard en Java

[Java] Créer un fichier temporaire

Rechercher un sous-ensemble en Java

Lire des fichiers binaires dans Java 2

[Java] [Android] Lire le fichier ini

[Java] Informations entières des caractères du fichier texte acquises par la méthode read ()

Comment enregistrer des fichiers avec l'extension spécifiée sous le répertoire spécifié en Java dans la liste

Convertir un tableau d'octets Java en une chaîne hexadécimale

Lire les données WAV sous forme de tableau d'octets sur Android Java

Exécutez PHP-FPM avec OPcache activé dans un conteneur en lecture seule

Activez la cellule A1 de chaque feuille de fichier Excel avec Java

Comment stocker des chaînes de ArrayList à String en Java (personnel)

Créer un SlackBot avec AWS lambda et API Gateway en Java

Même en Java, je veux afficher true avec un == 1 && a == 2 && a == 3

J'ai essayé de convertir une chaîne de caractères en un type LocalDate en Java

À propos du comportement lors de la création d'un mappage de fichiers avec Java

Construire un projet Java avec Gradle

Lisez facilement les fichiers texte en Java (Java 11 et Java 7)

Analyse morphologique en Java avec Kuromoji

3 Implémentez un interpréteur simple en Java

Télécharger des fichiers à l'aide de Java HttpURLConnection

Lire CSV en Java (annotation Super CSV)

Lire le fichier de vidage avec MySQL de Docker

Exécuter le fichier de commandes à partir de Java

Décompressez le fichier zip en Java

Enregistrer la sortie dans un fichier en Java

Un exemple simple de rappels en Java

Sortie PDF et TIFF avec Java 8

Exemple de mise à jour de fichier EXCEL avec JAVA

A propos du traitement de la copie de fichiers en Java

Restez coincé dans un Java Primer

Tweak Markdown avec Java flexmark-java

Java dessine des formes dans des documents PDF