Scraping: enregistrer le site Web localement

Scraping: enregistrer le site Web localement

mémorandum. À des fins de sauvegarde uniquement. Ondes électromagnétiques solaires? Tempête magnétique solaire? En préparation d'une panne de courant mondiale comme. Mis en œuvre car microCMS n'a pas de fonction de sauvegarde.

code

import os
from urllib.request import *

#URL pour chaque catégorie d'article
#base_url = "https://benzoinfojapan.org/patients-article/"
#base_url = "https://benzoinfojapan.org/doctors-article/"
base_url = "https://benzoinfojapan.org/medias-article/"

#Enregistrer le préfixe du nom du fichier de destination
#prefix = "patients-article"
#prefix = "doctors-article"
prefix = "medias-article"

num = 1

#Tandis que num pour chaque limite supérieure d'article de catégorie<=Définir sur X.Ci-dessous la valeur actuelle en octobre 2020.
#Pour les patients 10
#Pour les patients 26
#Pour les patients 13
#       ↓↓
while num <= 13:
    print("Début du téléchargement")
 
    #Répertoire dans lequel les fichiers HTML sont enregistrés
    save_dir = os.path.dirname(os.path.abspath(__file__)) + "/html/"
    #Créer un répertoire s'il n'existe pas
    if not os.path.exists(save_dir): 
        os.mkdir(save_dir)

    url=base_url + str(num)

    #Chemin du fichier de destination
    num_str = str(num)
    save_file = save_dir + prefix + num_str + ".html"

    urlretrieve(url, save_file)

    # doctors-Le 22ème article est manquant, traitement donc nécessaire^^;
    if num != 11:
        num += 1
    else:
        num += 2

Comment utiliser

Exécutez le code ci-dessus trois fois, en modifiant les paramètres pour chacune des trois catégories.

Les seuls changements sont les suivants.

résultat

Chaque page est enregistrée sous forme de fichier HTML sur le lecteur local. image.png

c'est tout.

Recommended Posts

Scraping: enregistrer le site Web localement
Enregistrez des images avec le web scraping
Scraping du site officiel GoToEat de Shizuoka
Grattage de site Web avec Beautiful Soup en Python
Grattage 1
Scraping de sites Web à l'aide de JavaScript en Python
Python) Enregistrez le contenu de scraping sur un PC local