Cela m'intéressait en tant que thème d'analyse de données, alors je l'ai essayé.
Le site auquel j'ai fait référence est ici.
Si vous souhaitez créer un modèle prédictif à partir de zéro, vous devez suivre les étapes suivantes:
Cette fois, je résumerai brièvement les éléments liés au grattage en 1.
net.keiba.com J'ai gratté ce site.
point important
Récupérer une grande quantité de données en une seule fois met une charge sur le serveur. En insérant time.sleep (1)
, il attend en demandant race_id_list
toutes les secondes. On dit que c'est une manière de réduire la charge du serveur par ceci.
import pandas pd
from tqdm import tqdm_notebook as tqdm
import time
def scrape_race_results(race_id_list):
race_results={}
for race_id in tqdm(race_id_list):
try:
url = 'https://db.netkeiba.com/race/'+ race_id
race_results[race_id]= pd.read_html(url)[0]
time.sleep(1)
except IndexError:
continue
except:
break
return race_results
Mettez la race que vous voulez enregistrer dans ce race_id
. Par exemple, supposons que vous ayez un ID de «202009020611».
c'est,
2020 → Nombre d'années
09 → Localisation(Hanshin pour 09, Ogura pour 10, etc.)
02 → mois
06 → Soleil
11 → Nombre de courses
Est montré.
Vous pouvez le voir de cette manière comme un essai.
Nous analyserons les données à l'aide de pandas de base. Pour une tranquillité d'esprit, enregistrez-le en tant que fichier pickle
et csv
.
En supposant que les données acquises sont stockées dans resluts_new
, ce sera comme suit.
results_new.to_pickle('results_new2017-2020')
results_new.to_csv('results_new2017-2020.csv',encoding="SHIFT-JIS")
J'ai résumé la méthode d'acquisition des données facilement.