Java pour extraire le contenu de texte PDF

Dans votre travail quotidien, vous devrez peut-être extraire le contenu textuel contenu dans un grand document PDF. Et Free Spire.PDF pour Java fournit un moyen pratique et rapide d'extraire du texte, suivi du code Java utilisé dans le processus.

** Étapes de base: ** ** 1. ** Free Spire.PDF pour Java Téléchargez et décompressez le package. ** 2. ** Importez le package Spire.Pdf.jar du dossier lib dans votre application Java en tant que dépendance, ou installez le package JAR à partir du référentiel Maven (voir ci-dessous le code qui compose le fichier pom.xml). S'il vous plaît). ** 3. ** Dans votre application Java, créez une nouvelle classe Java (nommée ici ExtractText) et entrez et exécutez le code Java correspondant.

** Configurez le fichier pom.xml: **

<repositories>
   <repository>
      <id>com.e-iceblue</id>
      <name>e-iceblue</name>
      <url>http://repo.e-iceblue.com/nexus/content/groups/public/</url>
   </repository>
</repositories>
<dependencies>
   <dependency>
      <groupId>e-iceblue</groupId>
      <artifactId>spire.pdf.free</artifactId>
      <version>2.6.3</version>
   </dependency>
</dependencies>

** Le document source PDF est: ** sample.jpg

** Code Java: **


import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;

public class ExtractText {

    public static void main(String[] args) {

        //Créer une instance PdfDocument
        PdfDocument doc = new PdfDocument();
        //Charger le fichier PDF
        doc.loadFromFile("neige.pdf");

        //Créer une instance StringBuilder
        StringBuilder sb = new StringBuilder();

        PdfPageBase page;
        //Parcourez les pages PDF, récupérez le texte de chaque page et ajoutez-le à l'objet StringBuilder
        for(int i= 0;i<doc.getPages().getCount();i++){
            page = doc.getPages().get(i);
            sb.append(page.extractText(true));
        }
        FileWriter writer;
        try {
            //Écrit le texte d'un objet StringBuilder dans un fichier texte
            writer = new FileWriter("ExtractText.txt");
            writer.write(sb.toString());
            writer.flush();
        } catch (IOException e) {
            e.printStackTrace();
        }

        doc.close();
    }
}

** Extraire les résultats: ** text.jpg

Recommended Posts

Java pour extraire le contenu de texte PDF
Java ajoute un tableau au PDF
Ajouter un filigrane à Java au document PDF
Essayez d'extraire la méthode publique de java
Java ajoute des champs de formulaire au PDF
Texte d'introduction Java
[Java] Introduction à Java
Introduction à Java
Extraction de texte en Java à partir de PDF avec pdfbox-2.0.8
Java ajoute une zone de texte aux diapositives PowerPoint
Java ajoute des numéros de page aux documents PDF existants
Java permet l'extraction de texte et d'images PDF
Lancez Docker à partir de Java pour convertir des documents Office en PDF
[Java] Convertir la version PDF
Changements de Java 8 à Java 11
Somme de Java_1 à 100
Document PDF compressé Java
Java extrait le contenu textuel des graphiques SmartArt dans PowerPoint
[Java] Comment extraire le nom du fichier du chemin
[Java] Connectez-vous à MySQL
Améliorations de Kotlin à Java
[Java] Paramètres d'affichage PDF
Pour les applications Java, convertissez des documents Word (DOC / DOCX) en PDF
De Java à Ruby !!
Introduction à la commande java
Ajouter du texte à BlobItem avec Azure BlobStorage SDK Java V8
Contenu d'apprentissage de base Java 7 (exception)
[Java] Extraire des sous-chaînes (AOJ13 --shuffle)
Comment abaisser la version java
Migration de Cobol vers JAVA
[Java] Comment utiliser Map
Comment désinstaller Java 8 (Mac)
Java pour jouer avec Function
Java - Comment créer JTable
Comment utiliser java Facultatif
Cryptage et décryptage Java PDF
Contenu d'apprentissage de base Java 5 (qualificatif)
Nouvelles fonctionnalités de Java7 à Java8
Comment réduire les images Java
Comment rédiger un commentaire java
Comment utiliser la classe Java
Pagination de PDF avec Java + PDFBox.jar
Connectez-vous de Java à PostgreSQL
[Java] Comment utiliser removeAll ()
[Java] Comment afficher les Wingdings
Java transforme Excel en PDF
[Java] Introduction à l'expression lambda
Shell pour tuer les processus Java
Comment utiliser Java Map
[Java] Acquisition de contenu avec HttpCliient
Comment définir des constantes Java
Connectez-vous à DB avec Java
Connectez-vous à MySQL 8 avec Java
[java] Raisons d'utiliser statique
Comment utiliser les variables Java