Essayez d'utiliser PDFMiner

introduction

J'ai dû analyser le fichier PDF. Je voulais le faire en Python pour le moment. Une bibliothèque appelée PDFMiner semble être utile, j'ai donc essayé de l'utiliser.

PDFMiner

http://www.unixuser.org/~euske/python/pdfminer/index.html https://github.com/euske/pdfminer/

Créer un environnement Python2

Je n'avais qu'un environnement Python3 à portée de main, j'ai donc augmenté l'environnement Python2.

$ pyenv install 2.7.13
...réduction...
$ pyenv local 2.7.13
$ python --version
Python 2.7.13

C'est fait.

Analyse PDF avec PDFMiner

introduction

$ git clone https://github.com/euske/pdfminer.git
Cloning into 'pdfminer'...
remote: Counting objects: 3164, done.
remote: Total 3164 (delta 0), reused 0 (delta 0), pack-reused 3164
Receiving objects: 100% (3164/3164), 6.01 MiB | 406.00 KiB/s, done.
Resolving deltas: 100% (2245/2245), done.
$ cd ./pdfminer
$ make cmap
...réduction...
$ python ./setup.py install
...réduction...

Procès

Je vais l'utiliser comme un essai.

$ cat ./samples/simple1.pdf | head
%PDF-1.4
1 0 obj
<<
 /Type /Catalog
 /Outlines 2 0 R
 /Pages 3 0 R
>>
endobj
2 0 obj
<<
$ ./tools/pdf2txt.py ./samples/simple1.pdf
Hello

World

Hello

World

H e l l o

W o r l d

H e l l o

W o r l d

Apparemment, cet outil appelé pdf2txt.py fonctionne très bien.

Recommended Posts

Essayez d'utiliser PDFMiner

Essayez d'utiliser Tkinter

Essayez d'utiliser docker-py

Essayez d'utiliser Cookiecutter

Essayez d'utiliser des géopandas

Essayez d'utiliser Selenium

Essayez d'utiliser scipy

Essayez d'utiliser pandas.DataFrame

Essayez d'utiliser django-swiftbrowser

Essayez d'utiliser matplotlib

Essayez d'utiliser tf.metrics

Essayez d'utiliser PyODE

Essayez d'utiliser virtualenv (virtualenvwrapper)

[Azure] Essayez d'utiliser Azure Functions

Essayez d'utiliser virtualenv maintenant

Essayez d'utiliser W & B

Essayez d'utiliser Django templates.html

[Kaggle] Essayez d'utiliser LGBM

Essayez d'utiliser l'analyseur de flux de Python.

Essayez d'utiliser Tkinter de Python

Essayez d'utiliser Tweepy [Python2.7]

Essayez d'utiliser collate_fn de Pytorch

Essayez d'utiliser PythonTex avec Texpad.

[Python] Essayez d'utiliser le canevas de Tkinter

Essayez d'utiliser l'image Docker de Jupyter

Essayez d'utiliser scikit-learn (1) - Clustering K par méthode moyenne

Essayez d'utiliser matplotlib avec PyCharm

Essayez d'utiliser Azure Logic Apps

Essayez d'utiliser Kubernetes Client -Python-

[Kaggle] Essayez d'utiliser xg boost

Essayez d'utiliser l'API Twitter

Essayez d'utiliser OpenCV sur Windows

Essayez d'utiliser Jupyter Notebook de manière dynamique

Essayez d'utiliser AWS SageMaker Studio

Essayez de tweeter automatiquement en utilisant Selenium.

Essayez d'utiliser SQLAlchemy + MySQL (partie 1)

Essayez d'utiliser l'API Twitter

Essayez d'utiliser SQLAlchemy + MySQL (partie 2)

Essayez d'utiliser la fonction de modèle de Django

Essayez d'utiliser l'API PeeringDB 2.0

Essayez d'utiliser la fonction de brouillon de Pelican

Essayez d'utiliser pytest-Overview and Samples-

Essayez d'utiliser le folium avec anaconda

Essayez d'utiliser l'API Admin de la passerelle Janus

Essayez d'utiliser Spyder inclus dans Anaconda

Essayez d'utiliser des modèles de conception (édition exportateur)

Essayez d'utiliser Pillow sur iPython (partie 1)

Essayez d'utiliser Pillow sur iPython (partie 2)

Essayez d'utiliser l'API de Pleasant (python / FastAPI)

Essayez d'utiliser LevelDB avec Python (plyvel)

Essayez d'utiliser pynag pour configurer Nagios

Essayez d'utiliser la fonction de débogage à distance de PyCharm

Essayez d'utiliser ArUco avec Raspberry Pi

Essayez d'utiliser LiDAR bon marché (Camsense X1)

[Serveur de location Sakura] Essayez d'utiliser flask.

Essayez d'utiliser Pillow sur iPython (partie 3)

Renforcer l'apprentissage 8 Essayez d'utiliser l'interface utilisateur de Chainer

Essayez d'obtenir des statistiques en utilisant e-Stat

Essayez d'utiliser l'API d'action de Python argparse

Essayez d'utiliser le module Python Cmd

Essayez d'utiliser le networkx de Python avec AtCoder