Divers termes sont utilisés dans les statistiques. Il y a beaucoup de choses qui sont très familières, comme les moyennes et les écarts, avec des choses que vous ne connaissez pas. Tout d'abord, je voudrais commencer par comprendre correctement la signification des termes de base. (En règle générale, écrivez le code et vérifiez le résultat sur Google Colaboratory)
import numpy as np
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/karaage0703/machine-learning-study/master/data/karaage_data.csv")
Le fichier csv spécifié dans ("nom de fichier") est lu à l'aide de la fonction read_csv
de pandas et stocké dans la variable df.
df.head()
Seules les 5 premières lignes de données stockées dans la variable df par la fonction head
sont affichées.
Vous pouvez voir que les données se composent de deux variables, x et y.
df.describe()
La fonction pandas describe
obtient une liste de statistiques de base.
Désormais, le terme ** statistiques ** est la valeur agrégée des données. En regardant les statistiques, vous pouvez connaître les caractéristiques de l'échantillon. Vérifions la signification de chacune des huit statistiques présentées comme statistiques de base.
Statistiques | Variante x | Variante y | Signification des termes | |
---|---|---|---|---|
count | Nombre d'échantillons | 6 | 6 | n=Contient 6 ou 6 lignes de données au total |
mean | Valeur moyenne | 14.33 | 3.33 | Utilisé comme valeur dite représentative (valeur représentant un échantillon) |
std | écart-type | 16.01 | 1.51 | Abréviation de l'écart type, l'une des statistiques qui montre à quel point les données varient. |
min | valeur minimum | 1.00 | 2.00 | La plus petite valeur de la variable |
25% | 1er quadrant | 2.75 | 2.25 | Lorsque les données sont triées par ordre croissant, le nombre de données est compté du plus petit au premier trimestre. |
50% | Deuxième quadrant | 7.50 | 3.00 | Lorsque les données sont triées par ordre croissant, le nombre de données correspond au deuxième trimestre à partir du plus petit. |
75% | Troisième quadrant | 23.50 | 3.75 | Lorsque les données sont triées par ordre croissant, le nombre de données correspond au troisième trimestre à partir du plus petit. |
max | Valeur maximum | 40.00 | 6.00 | Plus grande valeur de la variable |
Tout d'abord, calculons la moyenne.
df.describe().loc['mean']
Ensuite, calculez l'écart type et le premier quadrant en spécifiant la statistique dans loc ['xxx']
.
df.describe().loc['std']
df.describe().loc['25%']
Jusqu'à présent, nous avons examiné les statistiques de base à l'aide de Pandas. Ensuite, essayons de calculer diverses statistiques à l'aide de Numpy et considérons la méthode de calcul de base et les caractéristiques des statistiques.
Recommended Posts