[Pratique pour les débutants] Lisez ligne par ligne "Prédire les prix des logements" de kaggle (Partie 3: Se préparer à remplir les valeurs manquantes)

thème

Le troisième du projet de faire une note du contenu de la pratique que tout le monde va contester le fameux thème "Prix de la maison" problème de kaggle. C'est plus un mémo qu'un commentaire, mais j'espère que cela aide quelqu'un quelque part.

Le travail d'aujourd'hui

Compléter les valeurs manquantes (terminé avec la préparation)

En conclusion, il y avait pas mal de valeurs manquantes. Cependant, si vous regardez de plus près, cela ne signifie pas qu'il ne manque pas, et que «il n'y a pas de valeur» est significatif en premier lieu.

Comprendre et gérer les situations de carence

Extrait d'un article de référence.

Lorsque vous téléchargez les données de Kaggle, vous remarquerez qu'il contient également un fichier appelé "data_description.txt". Ce fichier détaille les données stockées dans les variables. Ensuite, vous pouvez voir que la majorité des lacunes ne signifie pas qu'il n'y a pas d'informations, mais que les lacunes elles-mêmes sont des informations. Par exemple, jetons un coup d'œil à PoolQC (qualité de la piscine), qui présente le plus de défauts. La perte de cette variable signifie que la piscine n'existe pas dans la maison et que la perte de données elle-même est une information. Pour les autres variables (variables catégorielles), une déficience signifie simplement que l'installation ou l'équipement n'existe pas. De plus, pour les variables numériques, la carence signifie uniquement que la surface occupée est nulle et qu'elle n'est pas sans information. Par conséquent, la complétion suivante est effectuée pour la perte des variables catégorielles et des variables de type numérique.

Variables catégorielles

Apparemment, c'est un élément système qui exprime la signification avec le code dans la valeur DB. Exemple) 1: Homme, 2: Femme, etc. https://www1.doshisha.ac.jp/~mjin/R/Chap_45/45.html

Variable numérique

Autrement dit, cela ressemble à des données qui représentent simplement l'opposé de la variable catégorielle et de la valeur quantitative.

Compléter les valeurs manquantes pour les variables catégorielles

Tout d'abord, lors de son stockage, la valeur d'index est retirée pour chaque type de données (j'essaie de la configurer pour qu'elle ait un sens quand je la termine même si je ne sais pas ce que je dis).

na_float_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist() 

Préparation de la complétion de type numérique

C'est tout.

Il est gratuit depuis environ deux semaines, mais je ferai de mon mieux pour le mettre à jour à nouveau. (Il est temps que je veuille saisir Python à partir des bases et le réorganiser ..., python semble exagérer tout en une ligne ...)

Recommended Posts

[Pratique pour les débutants] Lisez ligne par ligne "Prédire les prix des logements" de kaggle (Partie 3: Se préparer à remplir les valeurs manquantes)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des logements" de kaggle (Partie 2: Confirmation des valeurs manquantes)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (Partie 1: Lire les données)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (4ème: Compléter les valeurs manquantes (terminé))
[Pratique pour les débutants] Lisez ligne par ligne «Prédiction des prix des logements» de kaggle (7e: Préparation à la création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des logements" de kaggle (8e: Création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (6ème: Conversion de la distribution des variables objectives)
[Python] Types de valeurs statistiques (caractéristiques) et méthodes de calcul
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (4ème: Compléter les valeurs manquantes (terminé))
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des logements" de kaggle (Partie 2: Confirmation des valeurs manquantes)
[Pratique pour les débutants] Lisez ligne par ligne "Prédire les prix des logements" de kaggle (Partie 3: Se préparer à remplir les valeurs manquantes)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (Partie 1: Lire les données)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (6ème: Conversion de la distribution des variables objectives)
[Pratique pour les débutants] Lisez ligne par ligne «Prédiction des prix des logements» de kaggle (7e: Préparation à la création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des logements" de kaggle (8e: Création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (4ème: Compléter les valeurs manquantes (terminé))
Prédiction des prix des logements (retour par régression linéaire (kaggle)) ver1.0
[Pour les débutants] Lire les informations d'authentification DB à partir des variables d'environnement
Prédiction des prix des logements (retour par régression linéaire (kaggle)) ver1.0