Défis de la compétition Titanic pour les débutants de Kaggle

L'autre jour, nous avons organisé une formation interne sur la compétition Titanic de Kaggle. Nous partagerons le matériel explicatif et les exercices que les participants ont réalisés. Le matériel et les problèmes se trouvent dans le cahier de Kaggle, donc si vous êtes intéressé, veuillez également le vérifier.

Au fait, c'est le premier message de Qiita.

introduction

Pourquoi j'ai choisi Kaggle

Puisqu'il n'est pas possible de tout enseigner (apprendre) par la seule formation, j'ai pensé qu'il était nécessaire que chacun continue à y travailler. Quand j'ai essayé d'apprendre quelque chose, je suis parfois tombé sur la construction de l'environnement, j'ai donc décidé d'utiliser Kaggle, ce qui le rend inutile.

Participants présumés

À propos de la formation

Objectifs d'entraînement

Matériel explicatif, exercices

Depuis que j'utilise Kaggle, j'ai également créé le matériel explicatif sous le nom de Kaggle's Notebook.

--Tâche pratique: Titanic: prédire les survivants (ΦωΦ) https://www.kaggle.com/plasticgrammer/titanic-predict-survivors

La façon de procéder

Je voulais combiner des explications et des exercices de manière bien équilibrée, j'ai donc procédé avec le flux suivant.

  1. Expliquer jusqu'à l'analyse des données à l'aide de matériaux
  1. Exercices d'analyse des données

  2. Expliquez jusqu'à la prévision en utilisant des matériaux

  1. Difficultés à améliorer la précision des prévisions

Exercices préparés

Le contenu suivant est également décrit dans le cahier d'exercices, mais je le décrirai également dans cet article pour le moment.

L'analyse des données

step1) Vérifiez le contour des données

--Vérifiez le nombre de lignes et de colonnes de données d'entraînement et de données de test --Afficher les 5 premières données d'entraînement --Afficherons les 5 premières données de test ―― Quelle est la différence entre les données d'entraînement et les données de test? Que signifie exactement prédire les survivants avec l'apprentissage automatique?

step2) Vérifiez les détails des données

--Afficher les informations des données d'entraînement avec la méthode info

Étape 3) Visualisez s'il existe une corrélation

-Vérifions le nombre de variables Sex dans [For each Survived] avec un graphique à barres Y a-t-il une corrélation? Si oui, quelles sont les tendances? -Vérifions le nombre de variable Pclass de [Pour chaque survécu] avec un graphique à barres Y a-t-il une corrélation? Si oui, quelles sont les tendances?

Création et prédiction de fonctionnalités

Hypothèse) Âge (0 valeur manquante remplie), le flux à prédire avec Random Forest utilisant Sex a été créé

Réflexion sur le retour

Cette formation a duré 5 heures. La dernière tâche a pris plus de temps que prévu pour améliorer la précision des prévisions. Du coup, j'ai eu l'impression que c'était difficile. Plus tard, je l'ai refait sous forme d'entraînement supplémentaire, mais j'ai senti qu'il valait mieux procéder un par un avec plus d'exercices.

en conclusion

Il existe de nombreux articles écrits sur la compétition du Titanic, et j'y ai fait référence de diverses manières. Quand j'ai essayé d'en faire un sujet de formation pour les débutants en Python, je l'ai souvent compilé en tant que matériau, donc je l'ai partagé avec vous si cela aide.

Recommended Posts

Défis de la compétition Titanic pour les débutants de Kaggle
[Pour les débutants de Kaggle] Titanic (LightGBM)
[Kaggle pour les super débutants] Titanic (retour logistique)
Explication d'approche pour que les débutants soient dans le top 1,5% (0,83732) dans Kaggle Titanic_3
Explication d'approche pour que les débutants soient dans le top 1,5% (0,83732) dans Kaggle Titanic_1
Explication d'approche pour que les débutants soient dans le top 1,5% (0,83732) dans Kaggle Titanic_2
Premier Kaggle (kaggle ①)
[Pour les débutants] kaggle exercice (merucari)
C'est normal de tomber sur Titanic! Présentation de la stratégie Kaggle pour les super débutants
[Kaggle] Participation au concours du mélanome
Vérifiez la corrélation avec le Titanic de Kaggle (kaggle③)
Le moyen le plus rapide pour les débutants de maîtriser Python
Défiez Kaggle Titanic
Réalisation du didacticiel TensorFlow MNIST pour débutants en ML
Jour 66 [Introduction à Kaggle] Les prévisions Titanic les plus faciles
J'ai essayé le tutoriel MNIST de tensorflow pour les débutants.
Processus de compétition Kaggle du point de vue de la transition des scores
[Pour les débutants] Installez le package dans l'environnement Anaconda (Janome)
Examinez les paramètres de RandomForestClassifier dans le didacticiel Kaggle / Titanic
[Pour les débutants] Quantifier la similitude des phrases avec TF-IDF
Kaggle Tutorial Le savoir-faire Titanic pour être dans le top 2%
Regardez de plus près le tutoriel Kaggle / Titanic
Paramètres Spacemacs (pour les débutants)
Manuel python pour les débutants
Algorithme Dikstra pour les débutants
OpenCV pour les débutants en Python
■ Kaggle Practice pour les débutants - Introduction de Python - par Google Colaboratory
Conseils aux débutants en Python pour utiliser l'exemple Scikit-image par eux-mêmes
[Python] Les principales faiblesses et inconvénients de Google Colaboratory [Pour les débutants]
[Pour les débutants] J'ai essayé d'utiliser l'API Tensorflow Object Detection