Si vous êtes un ingénieur de données ou un responsable de la maintenance des données, vous pouvez utiliser divers outils pour vérifier les incohérences des données ou vous pouvez les frapper avec SQL pour les vérifier. Récemment, je fais souvent de telles choses. Surtout quand une nouvelle liaison de données commence, je regarde souvent le contenu des données. Pandas_profiling est utile dans un tel cas.
pip install pandas-profiling[notebook]
import pandas_profiling as pdp
from sklearn.datasets import load_boston
data = load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)
profile = pdp.ProfileReport(df, {'correlations': None})
profile.to_file("profile.html")
Je veux souvent juste connaître la distribution des données, donc j'ajoute une option pour ne pas calculer la corrélation. Il est également produit au format HTML pour être partagé avec d'autres personnes.
Lorsque vous l'exécutez sur le bloc-notes Jupyter, la barre de processus s'affiche comme indiqué ci-dessous et vous pouvez voir l'état du traitement. Vous pouvez voir l'état des données de chaque élément. Je suis particulièrement intéressé par les valeurs manquantes, ce qui est très utile car il montre le nombre et le pourcentage de valeurs manquantes.
Recommended Posts