Défis de la compétition Titanic pour les débutants de Kaggle

L'autre jour, nous avons organisé une formation interne sur la compétition Titanic de Kaggle. Nous partagerons le matériel explicatif et les exercices que les participants ont réalisés. Le matériel et les problèmes se trouvent dans le cahier de Kaggle, donc si vous êtes intéressé, veuillez également le vérifier.

Au fait, c'est le premier message de Qiita.

introduction

Pourquoi j'ai choisi Kaggle

Puisqu'il n'est pas possible de tout enseigner (apprendre) par la seule formation, j'ai pensé qu'il était nécessaire que chacun continue à y travailler. Quand j'ai essayé d'apprendre quelque chose, je suis parfois tombé sur la construction de l'environnement, j'ai donc décidé d'utiliser Kaggle, ce qui le rend inutile.

Participants présumés

Je suis intéressé par l'apprentissage automatique --Je n'ai jamais utilisé Kaggle --Inexpérimenté en Python

À propos de la formation

Objectifs d'entraînement

Découvrez le flux de l'apprentissage automatique ――Je veux que vous sentiez que vous pouvez écrire un programme vous-même

Matériel explicatif, exercices

Depuis que j'utilise Kaggle, j'ai également créé le matériel explicatif sous le nom de Kaggle's Notebook.

Matériel explicatif: Essayons le tutoriel de Kaggle "Titanic Survivor Prediction"! https://www.kaggle.com/plasticgrammer/kaggle-titanic

--Tâche pratique: Titanic: prédire les survivants (ΦωΦ) https://www.kaggle.com/plasticgrammer/titanic-predict-survivors

La façon de procéder

Je voulais combiner des explications et des exercices de manière bien équilibrée, j'ai donc procédé avec le flux suivant.

Expliquer jusqu'à l'analyse des données à l'aide de matériaux

Les bases de Python
Comment utiliser Kaggle, explication des termes --Confirmer le flux de l'apprentissage automatique (lecture de données, analyse de données)

Exercices d'analyse des données
Expliquez jusqu'à la prévision en utilisant des matériaux

Prétraitement --Modélisation, formation, prédiction

Difficultés à améliorer la précision des prévisions

Exercices préparés

Le contenu suivant est également décrit dans le cahier d'exercices, mais je le décrirai également dans cet article pour le moment.

L'analyse des données

step1) Vérifiez le contour des données

--Vérifiez le nombre de lignes et de colonnes de données d'entraînement et de données de test --Afficher les 5 premières données d'entraînement --Afficherons les 5 premières données de test ―― Quelle est la différence entre les données d'entraînement et les données de test? Que signifie exactement prédire les survivants avec l'apprentissage automatique?

step2) Vérifiez les détails des données

--Afficher les informations des données d'entraînement avec la méthode info

Vérifions l'état de la valeur manquante des données d'entraînement
Vérifions l'état de la valeur manquante des données de test
Vérifions le nombre d'observations pour chaque valeur de la variable cible Survived
Vérifions quelle valeur est définie pour la variable Pclass
Vérifions la distribution de la variable Age avec un histogramme
Vérifions les valeurs maximale, moyenne et médiane de la variable Age.
Vérifions la distribution de la variable Sex avec value_counts + bargraphe
En utilisant pd.crosstab, vérifions le nombre de variables Sex dans [For each Survived].

Étape 3) Visualisez s'il existe une corrélation

-Vérifions le nombre de variables Sex dans [For each Survived] avec un graphique à barres Y a-t-il une corrélation? Si oui, quelles sont les tendances? -Vérifions le nombre de variable Pclass de [Pour chaque survécu] avec un graphique à barres Y a-t-il une corrélation? Si oui, quelles sont les tendances?

Création et prédiction de fonctionnalités

Hypothèse) Âge (0 valeur manquante remplie), le flux à prédire avec Random Forest utilisant Sex a été créé

Remplissons la valeur manquante de Age avec la valeur médiane
Utilisons le tarif pour la prédiction
Utilisons Embarqué pour la prédiction
Ajoutons SibSp + Parch + 1 comme FamilySize
Ajoutons FamilySize <= 1 comme IsAlone
Ajoutons le premier personnage de Cabin comme quantité de fonction

Réflexion sur le retour

Cette formation a duré 5 heures. La dernière tâche a pris plus de temps que prévu pour améliorer la précision des prévisions. Du coup, j'ai eu l'impression que c'était difficile. Plus tard, je l'ai refait sous forme d'entraînement supplémentaire, mais j'ai senti qu'il valait mieux procéder un par un avec plus d'exercices.

en conclusion

Il existe de nombreux articles écrits sur la compétition du Titanic, et j'y ai fait référence de diverses manières. Quand j'ai essayé d'en faire un sujet de formation pour les débutants en Python, je l'ai souvent compilé en tant que matériau, donc je l'ai partagé avec vous si cela aide.