Lire une chaîne dans un fichier PDF avec Java

Aperçu

Extrayez une chaîne de caractères d'un fichier PDF.

Environnement d'exécution

OS: Windows 7 Langue: Java

Préparation Java

Créez un projet maven et ajoutez ce qui suit à pom.xml

<dependency>
	<groupId>org.apache.pdfbox</groupId>
	<artifactId>pdfbox</artifactId>
	<version>2.0.8</version>
</dependency>

la mise en oeuvre

try {
    File file = new File("test.pdf");
    PDDocument document = PDDocument.load(file);

    //Extraire uniquement les chaînes de caractères
    PDFTextStripper pdfStripper = new PDFTextStripper();

    //Comme il en a l'air(Réglage de la lecture des chaînes de caractères dans l'ordre de (du haut à gauche vers le bas à droite)
    pdfStripper.setSortByPosition(true);
    //Extraction de texte à partir de pdf
    text = pdfStripper.getText(document);

    document.close();

} catch (Exception e) {
    e.printStackTrace();
}

Étant donné que la chaîne de caractères de sortie comprend des numéros de page et des espaces (espaces demi-largeur, espaces pleine largeur, tabulations), etc., l'analyse devient plus facile une fois le traitement de nettoyage appliqué.

Recommended Posts

Lire une chaîne dans un fichier PDF avec Java
Lire le fichier xlsx en Java avec Selenium
Diviser une chaîne avec ". (Dot)" en Java
J'ai essayé OCR de traiter un fichier PDF avec Java
Lire le fichier de propriétés Java en C #
J'ai créé un PDF avec Java.
J'ai essayé OCR de traiter un fichier PDF avec Java part2
Lisez le fichier sous le chemin de classe sous forme de chaîne de caractères avec ressort
Lire les éléments contenant des virgules dans les fichiers CSV sans fractionnement (Java)
Lire JSON en Java
Créer un CSR avec des informations étendues en Java
Lire le fichier de propriétés Java
Code pour échapper aux chaînes JSON en Java
Extraction de texte en Java à partir de PDF avec pdfbox-2.0.8
Un fichier bat qui utilise Java dans Windows
[Java] Lire les fichiers dans src / main / resources
<java> Lire le fichier Zip et le convertir directement en chaîne
[Spring] Lire un message à partir d'un fichier YAML avec MessageSource
Inclure l'image dans le fichier jar avec la méthode statique java
Exporter le pdf avec un programme autonome (Java / Perl / VBA)
Implémentez rapidement singleton avec enum en Java
Sortie true avec if (a == 1 && a == 2 && a == 3) en Java (identifiant invisible)
Comment convertir un fichier en tableau d'octets en Java
Java11: exécuter le code Java dans un seul fichier tel quel
Pagination de PDF avec Java + PDFBox.jar
Lire l'entrée standard en Java
[Java] Créer un fichier temporaire
Rechercher un sous-ensemble en Java
Lire des fichiers binaires dans Java 2
[Java] [Android] Lire le fichier ini
[Java] Informations entières des caractères du fichier texte acquises par la méthode read ()
Comment enregistrer des fichiers avec l'extension spécifiée sous le répertoire spécifié en Java dans la liste
Convertir un tableau d'octets Java en une chaîne hexadécimale
Lire les données WAV sous forme de tableau d'octets sur Android Java
Exécutez PHP-FPM avec OPcache activé dans un conteneur en lecture seule
Activez la cellule A1 de chaque feuille de fichier Excel avec Java
Comment stocker des chaînes de ArrayList à String en Java (personnel)
Créer un SlackBot avec AWS lambda et API Gateway en Java
Même en Java, je veux afficher true avec un == 1 && a == 2 && a == 3
J'ai essayé de convertir une chaîne de caractères en un type LocalDate en Java
À propos du comportement lors de la création d'un mappage de fichiers avec Java
Construire un projet Java avec Gradle
Lisez facilement les fichiers texte en Java (Java 11 et Java 7)
Analyse morphologique en Java avec Kuromoji
3 Implémentez un interpréteur simple en Java
Télécharger des fichiers à l'aide de Java HttpURLConnection
Lire CSV en Java (annotation Super CSV)
Lire le fichier de vidage avec MySQL de Docker
Exécuter le fichier de commandes à partir de Java
Décompressez le fichier zip en Java
Enregistrer la sortie dans un fichier en Java
Un exemple simple de rappels en Java
Sortie PDF et TIFF avec Java 8
Exemple de mise à jour de fichier EXCEL avec JAVA
A propos du traitement de la copie de fichiers en Java
Restez coincé dans un Java Primer
Tweak Markdown avec Java flexmark-java
Java dessine des formes dans des documents PDF