La gestion de la quantité de fonctionnalités de Kaggle était meilleure que ce à quoi je m'attendais avec PostgreSQL, j'ai donc créé un répertoire que tout le monde peut utiliser avec Docker.

Cet article est l'article du 19e jour du Calendrier de l'Avent Kaggle 2019.

Bonjour, je m'appelle kiccho1101! Écrivez un article pour la première fois de ma vie! Je vous remercie!

introduction

Cette fois, j'aimerais vous présenter la gestion de la quantité de fonctionnalités de Kaggle car elle est meilleure que ce à quoi je m'attendais lorsque je l'ai essayé avec PostgreSQL.

Cliquez ici pour le répertoire créé: https://github.com/kiccho1101/datascience-template ↑ Le README contient des exemples d'utilisation utilisant les données du Titanic Competition.

Qu'est-ce que la gestion de la quantité d'objets?

Dans la compétition Kaggle, si vous écrivez le code sans penser comme moi (autrefois), les problèmes suivants se produiront.

――Je ne sais pas ce que représente la quantité de caractéristiques --notebook est dans un état chaotique (exp1.ipynb, exp1_tmp.ipynb, exp1_tmp_tmp.ipynb, etc. sont générés en grand nombre) «Quand j'ai regardé en arrière six mois plus tard, est-ce que je l'ai écrit moi-même? ?? ?? Le code est généré

Afin de résoudre ces problèmes, il est nécessaire de gérer les fonctionnalités d'une manière ou d'une autre.

Pour la gestion du montant des fonctionnalités, [diapositive de Takanobu Nozawa](https://speakerdeck.com/takapy/detafen-xi-konpenioite-te-zheng-liang-guan-li-nipi-bi-siteiruquan-ren-lei- nichuan-etaixiang-i) est très facile à comprendre, donc j'apprécierais que vous y fassiez référence.

Aperçu

Les fonctionnalités de ce répertoire sont résumées ci-dessous.

Gérer les données avec PostgreSQL sur le conteneur Docker

En utilisant la base de données

Vous pouvez voir les données dans la visionneuse de base de données telles que. Ceci est vraiment bon. EDA est beaucoup plus facile que de le faire avec des pandas.

Outil de ligne de commande avec Makefile

Génération de fonctionnalités

feature.gif

Validation croisée

cv.gif

Prévoir

predict.gif

Comme ça, j'ai rendu possible d'exécuter des opérations fréquemment effectuées avec la commande make. Cela réduit simplement la quantité de code que j'écris, mais c'est assez confortable à coder.

Résumé

Cette fois, le code sera le code principal, je ne l'ai donc expliqué que brièvement dans l'article. Si vous le trouvez "intéressant", veuillez le cloner et l'utiliser! !!

finalement Pull request et les gens sont les bienvenus! !! !! N'hésitez pas à nous contacter! !! !!

Recommended Posts

La gestion de la quantité de fonctionnalités de Kaggle était meilleure que ce à quoi je m'attendais avec PostgreSQL, j'ai donc créé un répertoire que tout le monde peut utiliser avec Docker.
J'avais du mal à faire mes devoirs, j'ai donc utilisé Python pour la comptabilité de gestion.
[Python] Je veux ajouter un répertoire statique avec Flask [Je veux utiliser autre chose que statique]
Les performances de PHP étaient meilleures que ce à quoi je m'attendais
Créer un environnement Docker qui peut utiliser PyTorch et JupyterLab
J'ai créé un plug-in qui peut faire "Daruma-san tombé" avec Minecraft