Une note sur la façon de supprimer les colonnes avec des valeurs manquantes.
Données utilisées: Kaggle cources: Données de location pour Intermediate Machine Learning --Missing Values
Environnement: cahier Kaggle
Préparation du module / os, lecture des données
DropColumn.py
#os,Importation de module
import os
import pandas as pd
#Lire les données
X_full=pd.read_csv('../input/train.csv',index_col='Id')
X_full
a les index suivants
DropColumn.py
X_full.columns
Parmi eux, la colonne contenant le défaut est
DropColumn.py
cols_missing=[col for col in X_full.columns
if X_full[col].isnull().any()]
cols_missing
Il semble. Supprimez-les tous à la fois.
DropColumn.py
reduced_X_full=X_full.drop(cols_missing,axis=1)
reduced_X_full
Suppression terminée.
Comment utiliser SimpleImputer
de scikit-learn
«SimpleImputer» utilise des valeurs statistiques telles que la médiane et la moyenne pour compléter les valeurs manquantes.
Par exemple, si vous souhaitez compléter avec la médiane Spécifiez comme ʻimputer = SimpleImputer (strategy = 'median') `.
ImputeValue.py
#Définition d'imputer
from sklearn.impute import SimpleImputer
imputer=SimpleImputer(strategy='median')
#X_Compléter toutes les valeurs manquantes
imputed_X_full=pd.DataFrame(imputer.fit_transform(X_full))
À ce rythme, les noms de colonne de ʻimputed_X_full` sont dans l'ordre.
ImputeValue.py
imputer_X_full.columns
Annuler le nom de la colonne
ImputeValue.py
imputed_X_full.columns=X_full.columns
imputed_X_full.columns
Achèvement terminé.
Recommended Posts