Cliquez avec le bouton droit sur le code source de la page pour afficher la source de la page à la place
Utilisez celui affiché dans les outils de développement
<dt>prix<span class="tax">(taxe inclu)</span></dt>
Pour extraire le texte de la balise span
incorporée dans la balise dt
comme
source = '<dt>prix<span class="tax">(taxe inclu)</span></dt>'
soup = BeautifulSoup(source, "html.parser")
soup.text
Et .text
peut être extrait en spécifiant
<dt>
prix
<span class="tax">(taxe inclu)</span>
</dt>
Lorsqu'il y a un caractère vide dans la balise tel que
def remove_whitespace(str):
return ''.join(str.split())
source = '<dt>prix<span class="tax">(taxe inclu)</span></dt>'
soup = BeautifulSoup(source, "html.parser")
remove_whitespace(soup.text)
Peut être retiré
Puisque l'espace au centre ne peut pas être supprimé avec strip ()
, le caractère espace est utilisé comme délimiteur avec split ()
.
Rejoindre avec .join
soup.find(class_='hoge')
soup.find_all(class_='hoge')
soup.find(id='hoge')
soup.find_all(id='hoge')
soup.find('hoge')
soup.find_all('hoge')
Ils peuvent également avoir plusieurs conditions en même temps
soup.find('hoge',class_='fuga)
Recommended Posts