L'autre jour, le calendrier de la Meiji Yasuda Seimei J League 2020 a été annoncé. (Libération) Cette version fournit les dates des ligues J1, J2 et J3 au format PDF. De plus, la J League fournit diverses données sur différents sites en fonction de l'axe du jeu, de l'axe de l'équipe et de l'axe du joueur.
Cet article utilise read_html``` fourni par
`` pandas``` pour afficher la page obtenue à partir du menu "Calendrier / Résultats" fourni sur le site ci-dessus, au lieu de gratter le format PDF. Facile à avoir.
https://data.j-league.or.jp/SFMS01/search?competition_years=2020&competition_frame_ids=1&competition_ids=477&tv_relay_station_name=
game_schedule.py
# cording:uft-8
import pandas as pd
yyyy = 2020
url = 'https://data.j-league.or.jp/SFMS01/search?'
category = {'1': 477, '2': 478, '3': 479}
schedule = pd.DataFrame(index=None, columns=['année', 'Tournoi', 'section', 'Jour de match', 'K/O temps', 'domicile', 'But', 'Une façon', 'Stade', 'Nombre de visiteurs', 'Diffusion Internet / diffusion TV'])
Créez des catégories J1, J2, J3 et des identifiants annuels au format dic. Créez un bloc de données vide.
game_schedule.py
for key, value in category.items():
para = 'competition_years=' + str(yyyy)
para1 = '&competition_frame_ids=' + str(key)
para2 = '&competition_ids=' + str(value)
para3 = '&tv_relay_station_name='
full_url = url + para + para1 + para2 + para3
# print(full_url)
df = pd.read_html(full_url, attrs={'class': 'table-base00 search-table'}, skiprows=0)
schedule = pd.concat([schedule, df[0]], sort=False)
Le point est pd.read_html (full_url, attrs = {'class': 'table-base00 search-table'} ...
, qui spécifie l'URL cible et les attributs de <table>
.
Combinez les fichiers récupérés dans le planning
.
game_schedule.py
#Si vous souhaitez remplacer NaN
# schedule = schedule.fillna({'Temps KO': '● Indécis ●', 'Visiteurs':0})
schedule.to_csv('./csv/Game_Schedule_' + str(yyyy) + '.csv', index=False, sep=',')
Enregistrez au format csv dans le dossier spécifié.
<table>
peut être facilement obtenu avec read_html
de pandas
.Recommended Posts