Je veux trier les sites explorés par ordre de date de mise à jour du site, mais je ne savais pas comment obtenir la date de mise à jour du site, alors je l'ai recherchée.
Je veux obtenir l'horodatage d'un fichier placé sur le WEB avec python. Posté le 13/10/2017 14:41 Last-Modified
L'en-tête de réponse HTTP Last-Modified contient la date et l'heure auxquelles le serveur d'origine détermine que la ressource a été modifiée pour la dernière fois. Il est utilisé comme matériel de vérification pour déterminer si les ressources reçues ou stockées sont les mêmes. Il est moins précis que l'en-tête ETag et constitue une alternative.
get_lastmodified.py
import requests
res = requests.head('https://www.kantei.go.jp')
print(res.headers['Last-Modified'])
import datetime
html_timestamp = datetime.datetime.strptime(res.headers['Last-Modified'], "%a, %d %b %Y %H:%M:%S GMT")
print(html_timestamp)
% python get_lastmodified.py
Mon, 17 Feb 2020 08:27:02 GMT
2020-02-17 08:27:02
Nous convertissons également datetime au format standard.
Cette méthode est trop faible pour les sites dynamiques, j'y ai donc réfléchi un peu plus.
Obtenez la date de mise à jour du site sérieusement
Recommended Posts