Le 4ème projet de faire une note du contenu de la pratique que tout le monde va contester le fameux thème "House Price" problème de kaggle. C'est plus un mémo qu'un commentaire, mais j'espère que cela aide quelqu'un quelque part. L'impression qu'elle s'est progressivement accumulée quand c'était la 4ème fois.
Ce que j'ai fait jusqu'à la dernière fois, c'est celui qui "obtient l'index comprenant la valeur manquante sous forme de tableau". (En parlant de cela, j'ai l'impression d'être confus que "python a divers concepts de tableaux et c'est ennuyeux.")
#Compléter les valeurs manquantes en fonction du type de données
#0 pour flotteur
#Dans le cas d'objet'NA'
na_float_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist() #float64
na_obj_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='object'].index.tolist() #object
#Remplacez 0 si le type float64 est manquant
for na_float_col in na_float_cols:
alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0
#Si le type d'objet est manquant'NA'Remplacer
for na_obj_col in na_obj_cols:
alldata.loc[alldata[na_obj_col].isnull(),na_obj_col] = 'NA'
alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist()
alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='object'].index.tolist()
for na_float_col in na_float_cols:
alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0
Lisons maintenant. L'ordre des variables et des objets est inversé par rapport à celui écrit en PHP (je ne sais pas si c'est correct).
Essayez de sortir na_float_col
et ʻalldata [na_float_col]`. La première chose à regarder est la plaque de fer pour vérifier le fonctionnement du processus itératif.
Première fois de na_float_col
Vous pouvez voir le nom de "index contenant des valeurs manquantes".
ʻAlldata [na_float_col] `première fois Vous verrez un tableau de valeurs «index contenant des valeurs manquantes».
Résultat de .isnull ()
ʻIsnull () est utilisé pour déterminer si chaque valeur est nulle. Sortie ʻalldata [na_float_col] .isnull ()
alldata.loc[alldata[na_float_col].isnull(),na_float_col]
Spécifiez dans une matrice et entrez "0.0" uniquement pour les valeurs manquantes.
alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0
Chaque élément est trop détaillé pour être vu, mais vous devriez pouvoir y aller.
Résultat de sortie de «toutes les données»
J'ai pensé que je le ferais, mais le temps est écoulé, donc j'aimerais le terminer comme une préparation pour les "variables catégoriques factices". Est-ce comme le quantifier pour qu'il puisse être analysé? .. .. ??
Il a fallu plus de temps que prévu pour compléter les valeurs manquantes. Je me demande s'il s'agit d'un piège Python qui rassemble tout sur une seule ligne (j'espère que cela ne deviendra pas un piège ou quoi que ce soit si je m'y habitue).
Il est presque temps que le traitement se rapproche et je suis impatient de sentir les vêtements que je porte.
Recommended Posts