Aperçu

Comme indiqué ci-dessous, le logo sur la page supérieure de la recherche Google est converti en texte et affiché sur HTML.

↓

Exemple d'application

Vous pouvez utiliser cette méthode pour compiler des livres en anglais publiés sur Internet au format image en HTML et utiliser la fonction de traduction de page de Chrome pour les traduire en japonais pour les lire.

Étape d'exécution

Supprimez la page d'accueil de Recherche Google pour obtenir l'URL de l'image du logo Google. De plus, téléchargez l'image.
Appliquez l'OCR à l'image du logo pour en faire du texte.
Affichez ce texte sur HTML.

Installez la bibliothèque à l'avance

`bash`


#Pour l'étape 1
pip install beautifulsoup4

#Pour l'étape 2
brew install tesseract
pip install pyocr

#Pour l'étape 3
pip install jinja2

Courir

** Étape 1: Téléchargez l'image du logo **

`python`


import requests
from bs4 import BeautifulSoup

#Obtenez du HTML
url = 'https://www.google.com'
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')

#Extraire l'image
img = soup.find('img', {'id': 'hplogo'})

#Créer une URL pour l'image
img_url = 'https://www.google.com' + img['src']

#Télécharger l'image
r = requests.get(img_url)

#Enregistrer l'image
with open('hplogo.jpg' ,'wb') as file:
    file.write(r.content)

** Étape 2: Convertissez l'image du logo en texte avec OCR **

`python`


from PIL import Image
import pyocr
import pyocr.builders

#Préréglage 1
tools = pyocr.get_available_tools()
tool = tools[0]

#Préréglage 2
builder = pyocr.builders.TextBuilder()

#Charger l'image
img = Image.open('hplogo.jpg')

#Exécuter l'OCR
result = tool.image_to_string(img, builder=builder)

** Étape 3: Afficher le texte sur HTML **

`python`


from jinja2 import Template

#Générer une vue
html = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <title>The Farther Reaches Of Human Nature</title>
</head>
<body>

    <h1>{{ result }}</h1>

</body>
</html>
'''
template = Template(html)
data = { 'result': result }
view = template.render(data)

#sauvegarder
with open('hplogo.html', 'w', encoding='utf-8') as f:
    f.write(view)

Lorsque vous ouvrez le hplogo.html généré dans votre navigateur, vous devriez voir le texte "Google" comme indiqué ci-dessous. (Republier l'image)

référence

Belle soupe en 10 minutes - Qiita Faisons du scraping d'images avec Python --Qiita Comment exécuter l'OCR avec Python | Gammasoft Co., Ltd. [Je veux générer du HTML en Python pour la première fois depuis un moment, alors vérifiez le modèle --Qiita.com/mima_ita/items/5405109b3b9e2db42332) (https://qiita.com/mima_ita/items/5405109b3b9e2db42332)

Télécharger le logo Google → Texte avec OCR → Affichage sur HTML

Aperçu

Exemple d'application

Étape d'exécution

Installez la bibliothèque à l'avance

bash

Courir

python

python

python

référence

`bash`

`python`

`python`

`python`