Le blog que j'ai écrit il y a longtemps n'avait pas de fonction d'exportation. J'ai créé la liste d'URL de l'image avec curl ou grep, mais comme l'URL est dans un format comme / Img? Hogehoge, même si je l'enregistre avec wget -i, elle devient Img0.1 ou Img0.2.
Si vous recherchez soigneusement, il peut y avoir une option pour faire quelque chose de bien avec curl ou wget, mais c'est difficile à rechercher, alors j'ai écrit un script.
Le nom du fichier prend la date de mise à jour de Last-Modified et l'extension de context-type. Puisqu'il y avait un fichier avec la même date de mise à jour, j'ai également ajouté un numéro de série.
cat url_list.txt | python get-contents.py
get-contents.py
# -*- coding: utf-8 -*-
import sys
import requests
import datetime
import struct
cnt = 0
for line in sys.stdin.readlines():
r = requests.get(line.strip())
# print(r.headers)
ext = (r.headers['Content-Type'].split('/'))[1]
lm = datetime.datetime.strptime(
r.headers['Last-Modified'], '%a, %d %b %Y %H:%M:%S GMT')
fname = lm.strftime('%Y%m%d-%H%M%S') + ('-%03d.' % cnt) + ext
print(fname)
with open(fname, "wb") as fout:
for x in r.content:
fout.write(struct.pack("B", x))
cnt = cnt + 1
Recommended Posts