[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (4ème: Compléter les valeurs manquantes (terminé))

thème

Le 4ème projet de faire une note du contenu de la pratique que tout le monde va contester le fameux thème "House Price" problème de kaggle. C'est plus un mémo qu'un commentaire, mais j'espère que cela aide quelqu'un quelque part. L'impression qu'elle s'est progressivement accumulée quand c'était la 4ème fois.

Le travail d'aujourd'hui

Compléter les valeurs manquantes (je vais le faire ici cette semaine)

Ce que j'ai fait jusqu'à la dernière fois, c'est celui qui "obtient l'index comprenant la valeur manquante sous forme de tableau". (En parlant de cela, j'ai l'impression d'être confus que "python a divers concepts de tableaux et c'est ennuyeux.")

#Compléter les valeurs manquantes en fonction du type de données
#0 pour flotteur
#Dans le cas d'objet'NA'
na_float_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist() #float64
na_obj_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='object'].index.tolist() #object
#Remplacez 0 si le type float64 est manquant
for na_float_col in na_float_cols:
    alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0
#Si le type d'objet est manquant'NA'Remplacer
for na_obj_col in na_obj_cols:
    alldata.loc[alldata[na_obj_col].isnull(),na_obj_col] = 'NA'

Index qui sont numériques et ont des valeurs manquantes

alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist() スクリーンショット 2020-06-15 11.52.37.png

Index avec valeurs manquantes dans les variables catégorielles

alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='object'].index.tolist() スクリーンショット 2020-06-15 11.55.30.png

Remplacer une valeur manquante de type numérique

for na_float_col in na_float_cols:
    alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0

À propos de maintenant mais à plusieurs reprises depuis

Lisons maintenant. L'ordre des variables et des objets est inversé par rapport à celui écrit en PHP (je ne sais pas si c'est correct).

C'est persistant, mais .isnull ()

Essayez de sortir na_float_col et ʻalldata [na_float_col]`. La première chose à regarder est la plaque de fer pour vérifier le fonctionnement du processus itératif.

À propos de .loc

alldata.loc[alldata[na_float_col].isnull(),na_float_col]

Définir une valeur pour la valeur manquante

Spécifiez dans une matrice et entrez "0.0" uniquement pour les valeurs manquantes. alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0

Complétion des valeurs manquantes pour les variables catégorielles

Résultat d'achèvement de valeur manquante

Chaque élément est trop détaillé pour être vu, mais vous devriez pouvoir y aller.

Résultat de sortie de «toutes les données» スクリーンショット 2020-06-15 12.17.07.png

Dummy des variables catégorielles

J'ai pensé que je le ferais, mais le temps est écoulé, donc j'aimerais le terminer comme une préparation pour les "variables catégoriques factices". Est-ce comme le quantifier pour qu'il puisse être analysé? .. .. ??

C'est tout.

Il a fallu plus de temps que prévu pour compléter les valeurs manquantes. Je me demande s'il s'agit d'un piège Python qui rassemble tout sur une seule ligne (j'espère que cela ne deviendra pas un piège ou quoi que ce soit si je m'y habitue).

Il est presque temps que le traitement se rapproche et je suis impatient de sentir les vêtements que je porte.

Recommended Posts

[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (4ème: Compléter les valeurs manquantes (terminé))
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des logements" de kaggle (Partie 2: Confirmation des valeurs manquantes)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des logements" de kaggle (8e: Création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (Partie 1: Lire les données)
[Pratique pour les débutants] Lisez ligne par ligne "Prédire les prix des logements" de kaggle (Partie 3: Se préparer à remplir les valeurs manquantes)
[Pratique pour les débutants] Lisez ligne par ligne «Prédiction des prix des logements» de kaggle (7e: Préparation à la création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des maisons" de kaggle (5ème: Dummy of categorical variables)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (6ème: Conversion de la distribution des variables objectives)
Compléter les valeurs manquantes titanesques de Kaggle et créer des fonctionnalités