Comme résultat d'étude
・ Vue d'ensemble des bibliothèques de base utilisées dans l'analyse des données ・ Code élémentaire
Les trois bibliothèques suivantes sont utilisées dans l'analyse des données. Les parenthèses sont des termes usuels ・ Pandas (pd) ・ Numpy (np) ・ Pyplot (plt) de matplotlib
pandas pandas est une bibliothèque qui peut lire des données, vérifier des informations simples sur les données, organiser les données, vérifier et supprimer les zones manquantes et agréger.
numpy python Une bibliothèque qui facilite la création d'algorithmes de calcul numérique qui traitent plus rapidement que les calculs numériques conventionnels.
matplotlib Bibliothèque de dessins prenant en charge les graphiques tels que les graphiques 2D et les graphiques 3D
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline #Afficher dans le navigateur actuel
df = pd.read_csv("nom de fichier") #Lire csv dans le fichier
df = pd.read_csv("nom de fichier",header=None) #Vous pouvez définir s'il faut ajouter un en-tête ou non en spécifiant l'en-tête.
df.head() #Lisez les cinq premières lignes du fichier csv
df.tail() #Lire les cinq dernières lignes du fichier csv
#Si vous spécifiez une valeur pour l'argument de la fonction, vous pouvez lire jusqu'à la ligne spécifiée.
df.head(10) #Lire du début à la 10e ligne du fichier csv
df.tail(10) #Lire de la fin à la 10e ligne du fichier csv
df.shape #Une propriété qui calcule le nombre de matrices dans un fichier
df.describe() #Une fonction qui calcule des statistiques de base telles que les valeurs minimales et maximales, les écarts types et les moyennes
df.info() #Une fonction qui vérifie les types de chaînes, d'entiers et de nombres à virgule flottante
df["Nom de colonne"] #Colonne spécifique(colonne)Extrait
df[["Nom de colonne","Nom de colonne",...,"Nom de colonne"]] #Colonne spécifique(colonne)Extraction multiple
df[df["Nom de colonne"]Expression conditionnelle] #Extraire les colonnes qui remplissent les conditions
df[df["y"]>=df["y"].mean()] #"y"Extraire au-dessus de la moyenne de y de la colonne
df["Nom de colonne"].sort_values(by="y",accending=False) #Trier par y dans l'ordre décroissant
df["Nom de colonne"][df["Nom de colonne"]Expression conditionnelle] #Extraire la colonne de gauche qui remplit les conditions de la parenthèse droite
df["Nom de colonne"].plot() #横軸を行番号、縦軸を指定したNom de colonneの数値の折れ線グラフを生成
df["Nom de colonne"].plot(figsize=(côté,Verticale)) #Définissez le rapport de taille du graphique avec figsize
df["Nom de colonne"].plot(figsize=(côté,Verticale),title="Nom du titre") #Réglage du titre
ax = df["Nom de colonne"].plot(figsize=(côté,Verticale),title="Nom du titre")
ax.set_xlabel("Nom de l'étiquette") #x軸のNom de l'étiquetteを設定
ax.set_ylabel("Nom de l'étiquette") #y軸のNom de l'étiquetteを設定
df["Colonne"].plot.hist() #ヒストグラムを生成、Colonneを階級で分けて度数を調べてくれる
df["Colonne"].plot.hist(grid=True) #Ajouter des lignes de grille
plt.axvline(x=Valeur numérique,color="Couleur") #Tracez une ligne verticale
plt.axvline(x=df["y"],color="red")
df["y"].plot.hist() #Graphiques superposés
plt.axvline(x=df["y"],color="red")
df["y"].plot.hist()
plt.savefig("nom de fichier.extension") #Enregistrer le graphique
df[["Nom de colonne 1","Nom de colonne 2"]].boxplot(by="Nom de colonne 1") #boxplotで指定した引数の項目ごとのNom de colonne 2の数のばらつきを調べる箱ひげ図
df.isnull() #Vérifiez la colonne avec null
df.isnull().any() #Vérifiez s'il y a null pour la colonne
df.isnull().sum() #Compter le nombre de valeurs nulles pour une colonne
df["Nom de colonne"].value_counts() #Sortir le nombre de nombres
df.fillna() #Convertir toutes les valeurs nulles en nombres concrets
df.dropna(subset=["Nom de colonne"]) #S'il y a null pour une colonne, supprimez la ligne correspondante
df[["Nom de colonne 1","Nom de colonne 2"]].corr() #Sortie de la corrélation entre deux colonnes
df.plot.scatter(x="Nom de colonne",y="Nom de colonne",figsize=(5,5)) #Tracez le diagramme de dispersion
Recommended Posts