L'une des choses importantes dans l'analyse des données est de vérifier le contenu des données. Cette fois, je présenterai une méthode de vérification des valeurs manquantes que même les non-ingénieurs peuvent faire.
Importez des pandas pour charger l'ensemble de données. Cette fois, nous utiliserons les données de train.csv dans Kaggle's House Prices: Advanced Regression Techniques.
House Prices: Advanced Regression Techniques https://www.kaggle.com/c/house-prices-advanced-regression-techniques
import pandas as pd
data = pd.read_csv('../train.csv')
Définissez les données que vous souhaitez archiver df. Dans ce cas, nous examinerons le train.csv défini ci-dessus.
#Comment vérifier les valeurs manquantes
df=data #Enregistrer l'ensemble de données dans df
total = df.isnull().sum()
percent = round(df.isnull().sum()/df.isnull().count()*100,2)
missing_data = pd.concat([total,percent],axis =1, keys=['Total','Ratio_of_NA(%)'])
type=pd.DataFrame(df[missing_data.index].dtypes, columns=['Types'])
missing_data=pd.concat([missing_data,type],axis=1)
missing_data=missing_data.sort_values('Total',ascending=False)
missing_data.head(20)
print(missing_data.head(20))
print()
print(set(missing_data['Types']))
print()
print("---Categorical col---")
print(missing_data[missing_data['Types']=="object"].index)
print()
print("---Numerical col---")
print(missing_data[missing_data['Types'] !="object"].index)
Vous pouvez utiliser le code ci-dessus pour connaître le pourcentage de valeurs manquantes. Mais où sont les valeurs manquantes, telles que les ensembles de données chronologiques? Il y a des moments où vous voulez savoir. Dans de tels cas, utilisez la carte thermique.
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
%matplotlib inline
df = data
plt.figure(figsize=(16,16)) #Réglage de la taille
plt.title("Missing Value") #Titre
sns.heatmap(df.isnull(), cbar=False) #Affichage de la carte thermique
En enregistrant divers ensembles de données dans le df de chaque code, il est possible de déterminer automatiquement si chaque colonne est de type texte ou numérique et de visualiser les valeurs manquantes.