"Kaggle memorandum" Rechercher / supprimer les valeurs manquantes

Objectif

Une note sur la façon de supprimer les colonnes avec des valeurs manquantes.

Données d'environnement / d'utilisation

Données utilisées: Kaggle cources: Données de location pour Intermediate Machine Learning --Missing Values

Environnement: cahier Kaggle

Ce que j'ai fait

Préparation du module / os, lecture des données

`DropColumn.py`


#os,Importation de module
import os
import pandas as pd

#Lire les données
X_full=pd.read_csv('../input/train.csv',index_col='Id')

X_full a les index suivants

`DropColumn.py`


X_full.columns

Parmi eux, la colonne contenant le défaut est

`DropColumn.py`


cols_missing=[col for col in X_full.columns
            if X_full[col].isnull().any()]
cols_missing

Il semble. Supprimez-les tous à la fois.

`DropColumn.py`


reduced_X_full=X_full.drop(cols_missing,axis=1)
reduced_X_full

Suppression terminée.

2. Achèvement des valeurs manquantes

Comment utiliser SimpleImputer de scikit-learn

«SimpleImputer» utilise des valeurs statistiques telles que la médiane et la moyenne pour compléter les valeurs manquantes.

Par exemple, si vous souhaitez compléter avec la médiane Spécifiez comme ʻimputer = SimpleImputer (strategy = 'median') `.

`ImputeValue.py`


#Définition d'imputer
from sklearn.impute import SimpleImputer
imputer=SimpleImputer(strategy='median')

#X_Compléter toutes les valeurs manquantes
imputed_X_full=pd.DataFrame(imputer.fit_transform(X_full))

À ce rythme, les noms de colonne de ʻimputed_X_full` sont dans l'ordre.

`ImputeValue.py`


imputer_X_full.columns

Annuler le nom de la colonne

`ImputeValue.py`


imputed_X_full.columns=X_full.columns
imputed_X_full.columns

Achèvement terminé.