L'autre jour, nous avons organisé une formation interne sur la compétition Titanic de Kaggle. Nous partagerons le matériel explicatif et les exercices que les participants ont réalisés. Le matériel et les problèmes se trouvent dans le cahier de Kaggle, donc si vous êtes intéressé, veuillez également le vérifier.
Au fait, c'est le premier message de Qiita.
Puisqu'il n'est pas possible de tout enseigner (apprendre) par la seule formation, j'ai pensé qu'il était nécessaire que chacun continue à y travailler. Quand j'ai essayé d'apprendre quelque chose, je suis parfois tombé sur la construction de l'environnement, j'ai donc décidé d'utiliser Kaggle, ce qui le rend inutile.
Depuis que j'utilise Kaggle, j'ai également créé le matériel explicatif sous le nom de Kaggle's Notebook.
--Tâche pratique: Titanic: prédire les survivants (ΦωΦ) https://www.kaggle.com/plasticgrammer/titanic-predict-survivors
Je voulais combiner des explications et des exercices de manière bien équilibrée, j'ai donc procédé avec le flux suivant.
Exercices d'analyse des données
Expliquez jusqu'à la prévision en utilisant des matériaux
Le contenu suivant est également décrit dans le cahier d'exercices, mais je le décrirai également dans cet article pour le moment.
--Vérifiez le nombre de lignes et de colonnes de données d'entraînement et de données de test --Afficher les 5 premières données d'entraînement --Afficherons les 5 premières données de test ―― Quelle est la différence entre les données d'entraînement et les données de test? Que signifie exactement prédire les survivants avec l'apprentissage automatique?
--Afficher les informations des données d'entraînement avec la méthode info
-Vérifions le nombre de variables Sex dans [For each Survived] avec un graphique à barres Y a-t-il une corrélation? Si oui, quelles sont les tendances? -Vérifions le nombre de variable Pclass de [Pour chaque survécu] avec un graphique à barres Y a-t-il une corrélation? Si oui, quelles sont les tendances?
Hypothèse) Âge (0 valeur manquante remplie), le flux à prédire avec Random Forest utilisant Sex a été créé
Cette formation a duré 5 heures. La dernière tâche a pris plus de temps que prévu pour améliorer la précision des prévisions. Du coup, j'ai eu l'impression que c'était difficile. Plus tard, je l'ai refait sous forme d'entraînement supplémentaire, mais j'ai senti qu'il valait mieux procéder un par un avec plus d'exercices.
Il existe de nombreux articles écrits sur la compétition du Titanic, et j'y ai fait référence de diverses manières. Quand j'ai essayé d'en faire un sujet de formation pour les débutants en Python, je l'ai souvent compilé en tant que matériau, donc je l'ai partagé avec vous si cela aide.
Recommended Posts