Le html des sites Web sur Internet contient diverses informations et il est difficile à analyser par vous-même. Par conséquent, nous utilisons une bibliothèque appelée Requests qui obtient du html.
Cette fois, nous allons apprendre à utiliser les requêtes en acquérant les en-têtes d'articles dans la section domestique de MSN Japon.
Dans [1] Importer de belles soupes, demandes et ré
In[1]
from bs4 import BeautifulSoup
import requests
import Re
Dans [2] Stockez les informations html dans la variable urlshutoku
In[2]
urlshutoku = requests.get("https://www.msn.com/ja-jp")
Dans [3] Essayez d'afficher la page entière
In[3]
urlshutoku.text
Lorsque In [3] est affiché, les informations inutiles sont plus visibles, donc seul le cap qui est l'information nécessaire cette fois est affiché. À cette fin, les informations de titre doivent être obtenues. C'est là qu'interviennent les outils de développement de Google Chrome.
Tout d'abord, faites un clic droit sur l'en-tête et cliquez sur Valider (I). Ensuite, l'écran suivant s'affiche.
Les informations utilisées pour le grattage sont uniquement des informations alphanumériques sur le côté gauche de l'écran ci-dessus. Assurez-vous que l'en-tête en haut de la partie où vous avez cliqué sur Vérifier plus tôt est bleu. Ensuite, vérifiez \ correspondant à l'url de l'en-tête de l'article. Les autres titres sont les mêmes, donc \ semble être un indice.
In [4] Analysé avec Beautiful Soup et html.parser
In[4]
soup = BeautifulSoup(urlshutoku.text,"html.parser")
Extraire les en-têtes nationaux en utilisant In [5] find_all
In[5]
midashi = soup.find_all(href=re.compile("/ja-jp/news/national"))
Si vous tapez midashi sur le bloc-notes jupyter, les informations d'en-tête seront affichées, mais les informations d'url sont également incluses. Comme il est difficile de le voir tel quel, seuls les caractères peuvent être affichés.
Afficher uniquement les caractères en utilisant In [6] pour l'instruction et la chaîne
In[6]
for ichiran in midashi:
print(ichiran.string)
Désormais, seuls les titres sont affichés.
Recommended Posts