Le troisième du projet de faire une note du contenu de la pratique que tout le monde va contester le fameux thème "Prix de la maison" problème de kaggle. C'est plus un mémo qu'un commentaire, mais j'espère que cela aide quelqu'un quelque part.
En conclusion, il y avait pas mal de valeurs manquantes. Cependant, si vous regardez de plus près, cela ne signifie pas qu'il ne manque pas, et que «il n'y a pas de valeur» est significatif en premier lieu.
Extrait d'un article de référence.
Lorsque vous téléchargez les données de Kaggle, vous remarquerez qu'il contient également un fichier appelé "data_description.txt". Ce fichier détaille les données stockées dans les variables. Ensuite, vous pouvez voir que la majorité des lacunes ne signifie pas qu'il n'y a pas d'informations, mais que les lacunes elles-mêmes sont des informations. Par exemple, jetons un coup d'œil à PoolQC (qualité de la piscine), qui présente le plus de défauts. La perte de cette variable signifie que la piscine n'existe pas dans la maison et que la perte de données elle-même est une information. Pour les autres variables (variables catégorielles), une déficience signifie simplement que l'installation ou l'équipement n'existe pas. De plus, pour les variables numériques, la carence signifie uniquement que la surface occupée est nulle et qu'elle n'est pas sans information. Par conséquent, la complétion suivante est effectuée pour la perte des variables catégorielles et des variables de type numérique.
Apparemment, c'est un élément système qui exprime la signification avec le code dans la valeur DB. Exemple) 1: Homme, 2: Femme, etc. https://www1.doshisha.ac.jp/~mjin/R/Chap_45/45.html
Autrement dit, cela ressemble à des données qui représentent simplement l'opposé de la variable catégorielle et de la valeur quantitative.
Tout d'abord, lors de son stockage, la valeur d'index est retirée pour chaque type de données (j'essaie de la configurer pour qu'elle ait un sens quand je la termine même si je ne sais pas ce que je dis).
na_float_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist()
ʻAlldata [na_col_list] `: Un tableau de données contenant des valeurs manquantes.
alldata[na_col_list].dtypes=='float64'
Vérifiez chaque type de données du tableau. Vérifiez les types de données du tableau à la fois avec .dtypes. Ce qui suit est le résultat de seulement ʻalldata [na_col_list] .dtypes`.
https://note.nkmk.me/python-numpy-dtype-astype/
alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64']
Obtenez des éléments uniquement pour les variables numériques. Ce qui suit est le résultat de seulement ʻalldata [na_col_list] .dtypes`. Il semble déterminer si cela est responsable de float64.
.index C'est aussi une note car le rôle de .index était différent de ce à quoi je m'attendais. J'ai cherché jusqu'à présent à "définir l'index", mais cette fois, il semble qu'il soit utilisé pour "obtenir l'indice". Référence: https://www.mathpython.com/ja/python-list-index/ Ce qui suit est le résultat de sortie de ʻalldata [na_col_list] .dtypes [alldata [na_col_list] .dtypes == 'float64']. Index`. Je vois, seul l'index est pris.
.tolist() Convertissez l'index acquis en un type de liste. En premier lieu, existe-t-il de nombreux types de Python qui ressemblent à des tableaux? .. .. J'étais sur le point de rester coincé à ce stade, alors notez-le également. Référence: https://note.nkmk.me/python-numpy-list/ Référence: https://algorithm.joho.info/programming/python/list-tuple-dict-chigai/ Ce qui suit est le résultat de sortie de ʻalldata [na_col_list] .dtypes [alldata [na_col_list] .dtypes == 'float64']. Index.tolist () ʻ comme d'habitude. Oh, vous pouvez enfin obtenir une colonne numérique comme type de liste.
Il est gratuit depuis environ deux semaines, mais je ferai de mon mieux pour le mettre à jour à nouveau. (Il est temps que je veuille saisir Python à partir des bases et le réorganiser ..., python semble exagérer tout en une ligne ...)
Recommended Posts