Kaggle est comme une équipe de combat qui concourt pour les compétences de l'apprentissage automatique. Quand je suis entré, il y avait du contenu pour les débutants, je vais donc regarder la vidéo d'orientation immédiatement.
Anglais super rapide! !! !! Le contenu comprenait un aperçu de l'accident du Titanic, des explications sur l'ensemble de données, des didacticiels et comment utiliser Kaggle.
Je ne peux pas l'entendre car il est trop rapide à entendre, donc le Wiki japonais [accident de naufrage du Titanic](https://ja.wikipedia.org/wiki/%E3%82%BF%E3%82%A4%E3%82%BF%E3 % 83% 8B% E3% 83% 83% E3% 82% AF% E5% 8F% B7% E6% B2% 88% E6% B2% A1% E4% BA% 8B% E6% 95% 85) Mettre.
En gros résumé
・ Parce que c'était un accident alors que je dormais à minuit, l'action initiale a été retardée. ・ Il n'y avait pas assez d'outils de sauvetage. (On pensait que c'était sûr) ・ Les taux de survie diffèrent considérablement entre les aristocrates et les gens ordinaires, les hommes et les femmes, et l'âge.
En regardant la figure, je pense que le taux de mortalité est élevé dans la zone où il y avait un trou dans la mine de glace.
Une remorque qui vous donne une vue panoramique sur le navire. Bien que ce soit un film, je pense que vous pouvez saisir la taille du navire, le nombre de personnes et l'atmosphère à ce moment-là. (Ces gens sont sur le point de ...)
Titanic (version doublée) --Trailer
Il y en avait 891 pour la formation et 418 pour les données de test. La définition des données est la suivante:
variable | Définition | Remarques |
---|---|---|
Survived | S'il a survécu | 0 = No, 1 = Yes |
Pclass | Classe de billet | 1 = 1st, 2 = 2nd, 3 = 3rd |
Name | Nom | |
Sex | sexe | |
Age | âge | |
SibSp | Nombre de frères, sœurs et conjoints à bord | |
Parch | Nombre de parents / enfants à bord | |
Ticket | Numéro de billet | |
Fare | Prix du billet | |
Cabin | Numéro de cabine | |
embarked | Port à bord | C = Cherbourg, Q = Queenstown, S = Southampton |
Il existe de nombreux exemples de programmes publiés sur "Notebook", alors découvrez quelques-uns des plus populaires.
Il y avait aussi un tutoriel japonais. Kaggle Titanic First Step \ (1st Step for Kaggle Titanic )
Je l'ai lu grossièrement et ma tête s'est foirée, alors j'ai d'abord créé un modèle de survie pour tout le monde afin de rendre l'histoire plus facile. Tout ce que vous avez à faire est de créer une ligne de "Survived" et de la télécharger sur Kaggle.
00.py
import pandas as pd
#Lire CSV
test = pd.read_csv('test.csv')
#Ajout de la colonne Survived.
test["Survived"] = 1
#Vérification
print(test["Survived"])
#Seulement PassengerId et Survived pour la soumission.
test = test.loc[:,['PassengerId','Survived']]
#Sortie au format CSV (aucun index requis)
test.to_csv('titanic1-1.csv',index=False)
Vérifiez le CSV créé et engagez-vous dans Kaggle.
Public Score 0.37320 lederbord 15 800e
Le «score public» est proche du taux de survie réel (31,9%). «lederbord» semble être classé par le score le plus élevé de la personne, et je ne connaissais pas le classement exact, mais «0,37320» était environ 15800e. Il y a tellement de gens dans le monde qui ont le même score, c'est-à-dire qui pensent à la même chose ... c'est un peu ... j'ai été impressionné.
Le bas était à 0 et il était 70e à partir du bas. Un score de 0 signifie que toutes les bonnes réponses sont retournées à l'envers, et c'est le score qui vous tient à cœur.
Téléchargez le CSV avec [" Survived "] = 0
sur Kaggle.
Depuis «1 --0,37320 = 0,6268», je m'attendais à la même valeur, mais c'était «Score public: 0,62679». C'est presque vrai.
Cette fois, je vais simplement l'affecter comme mort pour les hommes et vivant pour les femmes. Le Titanic avait un taux de mortalité masculine élevé et un taux de survie élevé des femmes, donc cela devrait toujours être prédictif.
01.py
#Utilisez des pandas
import pandas as pd
#Lire CSV
test = pd.read_csv('test.csv')
#Ajout de la colonne Survived
test["Survived"] = 0
#1 pour les femmes(Survie)Remplacer par
test.loc[test["Sex"] == 'female', "Survived"] = 1
#Seulement PassengerId et Survived pour la soumission.
test = test.loc[:,['PassengerId','Survived']]
#Sortie au format CSV (aucun index requis)
test.to_csv('titanic1.csv',index=False)
Public Score:0.76555 lederbord: 12457e place / environ 15 000 personnes?
Il semble que le contenu soit le même que celui du CSV de «Gender Based Model».
Même un modèle très simple est «0,76555», alors comment améliorer la précision de la prédiction à partir d'ici est une vitrine de compétences.
Tout d'abord, il s'agit de vérifier les règles.
Recommended Posts