Un ami lisant un manga sur un site de manga piraté appelé manga1001.com "Il y a beaucoup de publicités radicales que je ne peux pas voir à l'extérieur, et lorsque j'utilise Adblock, je reçois un avertissement." J'ai dit, effaçons-le! J'ai pensé.
De plus, si vous faites quelque chose de similaire à cet article,
S'il vous plaît soyez prudente. Vous pouvez être coupable.
src
de ʻimg`src
obtenu comme ʻimg`J'utilise Chrome Canary pour que ce soit correct s'il casse.
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import chromedriver_binary
from time import sleep
#Chemin de sortie du fichier HTML généré
output_path = '/Users/hoge/fuga/'
#Options du Webdriver
options = Options()
#Spécifiez le chemin de Google Chrome Canary
options.binary_location = '/Applications/Google Chrome Canary.app/Contents/MacOS/Google Chrome Canary'
#Spécifiez la taille de la fenêtre
options.add_argument('window-size=1600,900')
#Demandez l'URL de la page sur laquelle vous souhaitez supprimer l'annonce
url = input('enter url: ')
#Lancer Chrome
driver = webdriver.Chrome(options=options)
driver.get(url)
#Attendez un instant que la page exécute JavaScript
sleep(3)
#Obtenir le titre
title = driver.find_elements_by_class_name('entry-title')[0].text
#Obtenir WebElement de l'élément img sous forme de tableau
contents = driver.find_elements_by_css_selector('.entry-content figure img')
#Attribuer une chaîne de caractères à afficher au format HTML à la sortie de la variable de sortie
output = '''
<!DOCTYPE html>
<html>
<head>
<style>
body{
background-color:#333;
}
img{
display: block;
margin: 10px auto;
width: 100%;
max-width: 600px;
box-shadow: 0 0 10px black;
}
</style>
</head>
<body>
'''
#Ajoutez l'attribut src de l'élément img acquis à la sortie en tant qu'image
for content in contents:
output += '<img src="{}"/>'.format(content.get_attribute('src'))
#Ajouter une balise de fermeture à la sortie
output += '</body></html>'
#Créez un fichier HTML avec le nom du titre et écrivez la sortie
with open('{0}{1}.html'.format(output_path, title), 'w', encoding='utf-8') as f:
f.write(output)
#Ouvrez le fichier HTML créé
driver.get('file://{0}{1}.html'.format(output_path, title))
J'ai pu organiser proprement le contenu du site encombré en grattant. Encore une fois, je ne vais pas m'en servir moi-même et je n'ai pas donné ce programme à un ami. Je voulais juste gratter! Lol
Recommended Posts