Ce genre de chose a lieu, alors j'essaye de participer pendant un moment.
https://www.kaggle.com/c/coupon-purchase-prediction http://www.recruit.jp/news_data/release/2015/0716_15946.html
On dit que Kaggle est "La plus grande communauté mondiale de scientifiques des données est en compétition pour résoudre vos problèmes les plus précieux." En termes simples, c'est un endroit où vous pouvez facilement organiser un concours d'analyse de données. Je suis sûr qu'il y a des gens qui l'expliquent plus correctement lorsque je recherche sur Internet.
C'est plus amusant de concourir environ 100 fois plus que de travailler seul, et vous obtenez beaucoup de bons résultats. C'est pourquoi c'est assez occupé.
Concours d'analyse de données? Qu'est-ce que ça veut dire? C'est vrai. J'obtiendrai un prix. Cela peut être un dollar à cinq chiffres ou beaucoup d'argent. Eh bien, l'adversaire est un professionnel dans le monde, mais ce n'est pas facile de gagner. .. ..
RECRUIT Challenge? Comme je l'ai écrit au début, RECRUIT Holdings a causé un problème avec Kaggle, et c'est le RECRUIT Challenge. Le contenu est la prévision d'achat du site de coupons "Pompare". Prédisez l'achat de la semaine prochaine à partir des informations du coupon de navigation / d'achat pour l'année écoulée.
Comme pour tout problème, le prix en argent est énorme. (Https://www.kaggle.com/c/coupon-purchase-prediction/details/prizes)
―― Première place 30 000 $ ――Deuxième place 10000 $ --Troisième place 5000 $
De plus, si vous êtes étudiant, vous recevrez de l'argent et des droits supplémentaires. (Http://challenge.recruit.ai/studentAward.html) Puisque l'application est en japonais, s'agit-il réellement d'un match entre étudiants japonais?
C'est.
Découvrons-le. C'est triste de commencer et de trébucher (c'est un secret que j'ai fait une erreur de format 4 fois), alors j'ai écrit un code qui génère au hasard 10 prédictions en utilisant des pandas. Oh, supposons que le fichier csv se trouve dans le dossier dat.
random_prediciton.py
# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
ul = pd.read_csv('./dat/user_list.csv')
cl_test = pd.read_csv('./dat/coupon_list_test.csv')
sampler = np.random.permutation(len(cl_test)) #cl_Générer quelque chose qui change l'ordre du test
cids = cl_test.take(sampler[:10]).COUPON_ID_hash #Obtenez 10 pièces dans un ordre aléatoire et COUPON_ID_Prenez du hasch
cids = " ".join(cids) #Résumez les identifiants pris en les séparant par un espace demi-largeur(C'est le format de sortie requis)
output = pd.DataFrame({"USER_ID_hash":ul.USER_ID_hash, "PURCHASED_COUPONS":cids}, columns=["USER_ID_hash", "PURCHASED_COUPONS"]) #Créer un DataFrame pour la sortie
output.to_csv("./output_random.csv", index=False)
Des informations sur le type d'informations fournies sont fournies, mais je les ai simplement écrites en pptx.