[Mémo du débutant Python] Importance et méthode de confirmation de la valeur manquante NaN avant l'analyse des données

Je suis nouveau dans Python / apprentissage automatique. En raison de l'enthousiasme pour analyser les données, je suis resté bloqué parce que j'ai négligé de confirmer la valeur manquante, je vais donc laisser une note en guise de réflexion.

Conclusion

Qu'est-il arrivé

--Lorsque j'ai participé à un concours d'analyse de données appelé Kaggle, j'ai analysé une quantité de données qui ne pouvait pas être confirmée visuellement. À ce moment-là, je n'ai pas remarqué l'existence de la valeur manquante (NaN), et le programme est devenu plein de NaN, et l'erreur ne s'est pas arrêtée.

Qu'est-ce qu'une valeur manquante?

Contre-mesure-Recommandation au début de l'analyse des données

―― ① Vérifiez d'abord et avant tout s'il y a des valeurs manquantes dans les données. --Utilisez ```isnull (). Any () `` `

#Exemple:countries.Supposons que csv contienne des données statistiques de base de chaque pays
import pandas as pd
df_example = pd.read_csv("hogehoge/example.csv").copy()

print(df_example.isnull().any())
#Exemple
Id            False
Name          False
Population    True
GDP           True
Region        False
life_expct    False

-② Effectuer des travaux de remplacement dans la colonne où l'existence de valeurs manquantes est confirmée.

#Où se trouve la colonne d'existence de la valeur manquante
df_example.loc[df_example['Population'].isnull(), 'Population'] = 0

Mise en garde

Résumé

―― Compte tenu des données, il est important de vérifier les valeurs manquantes au lieu de sauter dessus et de démarrer l'analyse.

référence

(c'est tout)


Supplément

«L'auteur a constaté que l'analyse ultérieure serait complètement inutile car les valeurs manquantes étaient mélangées dans la couche d'entrée de l'apprentissage profond, et je suis venu pour écrire cet article. En plus de confirmer les valeurs manquantes, je pense qu'il existe de nombreux processus de confirmation et de nettoyage des données avant l'analyse, comme le dessin d'un histogramme pour rechercher des valeurs aberrantes. Je me suis abstenu de les mentionner dans cet article à partir du 24 mars 2020, mais je voudrais les ajouter après les avoir étudiés.

Recommended Posts

[Mémo du débutant Python] Importance et méthode de confirmation de la valeur manquante NaN avant l'analyse des données
Livres et sources recommandés de programmation d'analyse de données (Python ou R)
L'histoire de Python et l'histoire de NaN
Pratique de l'analyse de données par Python et pandas (Tokyo COVID-19 data edition)
Python: prétraitement en machine learning: gestion des données manquantes / aberrantes / déséquilibrées
[Python] De l'analyse morphologique des données CSV à la sortie CSV et à l'affichage graphique [GiNZA]
Analyse des données en Python Résumé des sources que les débutants devraient d'abord consulter
Remplissez la valeur manquante (null) de DataFrame avec les valeurs avant et après avec pyspark
[Python] Mémo de conversion entre les données temporelles et les données numériques
Environnement enregistré pour l'analyse des données avec Python
Obtenez une grande quantité de données Twitter de Starba avec python et essayez l'analyse de données Partie 1
Analyse de données python
Analyse des données financières par pandas et leur visualisation (2)
Traitement pleine largeur et demi-largeur des données CSV en Python
[Python of Hikari-] Chapitre 06-02 Fonction (argument et valeur de retour 1)
[Python] [Word] [python-docx] Analyse simple des données de diff en utilisant python
[Pour les débutants] Comment étudier le test d'analyse de données Python3
Liste des bibliothèques Python pour les data scientists et les data ingénieurs
Analyse des données financières par pandas et leur visualisation (1)
Défiez l'analyse des composants principaux des données textuelles avec Python
Histoire de l'analyse d'image du fichier PDF et de l'extraction de données
Liste du code Python utilisé dans l'analyse de Big Data
Analyse des données de mesure (2) -Hydrobacter et raccord, recommandation lmfit-
Comment visualiser les données par variable explicative et variable objective
"Analyse des séries chronologiques de mesure des données économiques et financières" Résolution du problème de fin de chapitre avec Python