Le 5ème projet de faire une note du contenu de la pratique que tout le monde va contester le fameux thème "House Price" problème de kaggle. C'est plus un mémo qu'un commentaire, mais j'espère que cela aide quelqu'un quelque part. Je veux penser que la fin est sur le point d'être vue.
C'est comme remplacer les chaînes de caractères par des nombres.
#Lister les fonctionnalités des variables catégorielles
cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()
#Lister les caractéristiques des variables numériques
num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
#Liste des colonnes requises pour le fractionnement et la soumission des données
other_cols = ['Id','WhatIsData']
#Supprimer les éléments supplémentaires de la liste
cat_cols.remove('WhatIsData') #Suppression de l'indicateur de distinction des données d'entraînement / données de test
num_cols.remove('Id') #Id supprimer
#Variables catégoriques factices
alldata_cat = pd.get_dummies(alldata[cat_cols])
#Intégration de données
all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)
Oh, je pense que je suis entassé. La réponse mystérieuse. Ensuite, je voudrais sortir uniquement les résultats suivants ensemble. Seul le type de données de type objet a l'index dans la liste.
cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()
num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
Cela revient à lister les caractéristiques des variables catégorielles, je vais donc l'omettre.
other_cols = ['Id','WhatIsData']
Comme vous pouvez le voir, les colonnes ajoutées dans la partie 2 sont stockées dans le tableau. Apparemment, cette prochaine étape sera utilisée pour supprimer des éléments supplémentaires de la liste.
Il semble que cela supprime les éléments inutiles de la liste. Vous pouvez également confirmer à partir de la sortie précédente qu'il y avait un élément appelé WhatIsData dans cat_cols
.
cat_cols.remove ('WhatIsData') # Suppression du drapeau de distinction des données de formation / données de test
num_cols.remove ('Id') #Id remove
alldata_cat = pd.get_dummies(alldata[cat_cols])
Impression inhabituelle. C'est tellement pratique que vous pouvez simplement l'appliquer à une fonction et qu'il fera tout pour vous ... J'aime ce genre de python.
ʻAlldata_cat = pd.get_dummies (alldata [cat_cols]) `résultat de sortie. C'est incroyable, ça a vraiment changé.
all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)
C'est exactement ce que j'ai vu. Combinez [alldata [other_cols], alldata [num_cols], alldata_cat avec concat. (J'en suis venu à dire que ça a l'air super)
Avez-vous procédé à un bon rythme cette fois? Il semble que cela ne prenne pas beaucoup de temps pour lire et comprendre de manière inattendue. On a l'impression de s'y habituer. Je continuerai à me consacrer. Maintenant que les données ont été formatées, il est temps de les analyser. J'ai hâte d'y être.
Recommended Posts