[Statistiques pour les programmeurs] Dispersion, écart type et coefficient de fluctuation

table des matières

Statistiques pour les programmeurs - Table des matières

Qu'est-ce que la distribution

J'ai les données suivantes pour A et B. Dans les deux cas, le total des données est de 15 et la moyenne est de 3, mais la variabilité des données en A et B n'est pas similaire.

A B
1 3
2 3
3 3
4 3
5 3

--Total 15 --En moyenne 3

Pour vérifier une telle variabilité des données, nous utilisons quelque chose appelé distribution.

Afin de comprendre la variance, il est également nécessaire de comprendre l'écart et l'écart moyen. Donc, avant la distribution, je vais vous expliquer les deux.

déviation

L'écart est la moyenne de la valeur moyenne plus toutes les différences entre les données. Dans le cas de l'exemple ci-dessus, ce serait:

A Différence par rapport à la moyenne B Différence par rapport à la moyenne
1 2 3 0
2 1 3 0
3 0 3 0
4 -1 3 0
5 -2 3 0
total 0 - 0
moyenne 0 - 0

L'écart total est toujours égal à 0. Par conséquent, la moyenne sera également 0, il n'est donc pas possible de vérifier la variation des données par l'écart.

Écart moyen

L'écart moyen est la moyenne de la somme de la valeur moyenne et de la valeur absolue de la différence entre chaque donnée. Dans le cas de l'exemple ci-dessus, ce serait:

A Différence par rapport à la moyenne B Différence par rapport à la moyenne
1 2 3 0
2 1 3 0
3 0 3 0
4 1 3 0
5 2 3 0
total 6 - 0
moyenne 1.2 - 0

Puisqu'il s'agit de la moyenne des valeurs absolues totales des différences entre chaque donnée, la valeur moyenne sera de 0 ou plus et vous pouvez voir comment les données varient. Cependant, il est gênant lorsque le nombre de données augmente car toutes les valeurs doivent être remplacées par des valeurs absolues avant le calcul.

Distribué

La variance est la moyenne de la somme de la moyenne et du carré de la différence entre chaque donnée.

V =Distribué
n =Nombre de données
\bar{x} =Valeur moyenne

Ensuite, ce qui suit tient.

V = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2

Je vais en fait le calculer.

2 = \frac{1}{5} \{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2\}

Dans une table

A Différence par rapport à la moyenne Différence quadratique par rapport à la moyenne
1 2 4
2 1 1
3 0 0
4 -1 1
5 -2 4
total 0 10
moyenne 0 Valeur distribuée=2
B Différence par rapport à la moyenne Différence quadratique par rapport à la moyenne
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
total 0 0
moyenne 0 Valeur distribuée=0

Dans ce cas, la distribution de A est "2" et B est "0".

V_A = 2
V_B = 0

Ce que vous pouvez voir à partir de la valeur de distribution

Vous pouvez voir que plus la valeur de la variance est petite, plus chaque donnée est proche de la valeur moyenne, moins la variation est importante et plus la valeur est élevée, plus la variation est importante. La distribution dans cet exemple est "2" pour A et "0" pour B, donc A a une plus grande variation.

écart-type

L'écart type, comme la variance, est un indicateur de la variation des données, C'est la variance calculée par la racine carrée.

Pourquoi un écart type est nécessaire

Puisque la valeur de distribution est calculée après que chaque donnée est au carré, Vous pouvez comparer les écarts, mais vous ne pouvez ni comparer ni calculer les écarts et les moyennes.

Par exemple, si vous souhaitez distribuer des données avec des compteurs en unités, Comme l'unité est également au carré, il est possible de comparer et de calculer les variances, mais pas de comparer et de calculer la variance et la moyenne.

L'unité des données d'origine est le mètre,

m

Parce que la dispersion est le carré du mètre

m^2

Ne peut être comparé aux données d'origine ou à la moyenne.

Comment calculer l'écart type

Par conséquent, en utilisant la racine carrée pour la variance, l'unité au carré est également restaurée et il devient possible de comparer et de calculer avec la moyenne. L'écart type peut être calculé par la formule suivante.

\sigma = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}

En fait, calculons l'écart type des données de A. Puisque les données de A sont "1, 2, 3, 4, 5" et que la valeur moyenne est "3", l'écart type peut être calculé par la formule suivante.

\sqrt{2} = \sqrt{\frac{1}{5} \{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2\}} 

Dans une table

A Différence par rapport à la moyenne Différence quadratique par rapport à la moyenne
1 2 4
2 1 1
3 0 0
4 -1 1
5 -2 4
total 0 10
moyenne 0 Valeur distribuée=2
- - écart-type=√2

La solution est «√2», donc l'écart type est «d'environ 1,4». B est «0» sans qu'il soit nécessaire de calculer.

En d'autres termes

\sigma_A \simeq 1.4
\sigma_B = 0

On peut voir que A a une plus grande variation de données.

Coefficient de fluctuation

Il s'agit de la valeur obtenue en divisant l'écart type par la valeur moyenne.

exemple

Vérifiez les prix de l'eau en bouteille PET de 500 ml et des voitures (même modèle) en visitant 10 magasins. J'ai essayé de savoir combien chaque prix varie d'un magasin à l'autre. Vous trouverez ci-dessous un tableau résumant leurs moyennes et leurs écarts types.

Produit Prix moyen(Cercle) écart-type(Cercle)
eau 89 9
voiture 3,136,500 284,869

Étant donné que la valeur de l'écart type est extrêmement élevée pour la voiture, cela signifie que le prix de la voiture est plus variable. Cependant, comme le prix unitaire est trop différent entre l'eau et la voiture, il est naturel que l'écart type soit plus grand pour la voiture, et il ne s'agit pas d'une comparaison du taux de variation des prix.

Par conséquent, nous utilisons un coefficient de fluctuation.

Formule du coefficient de fluctuation

Les coefficients de fluctuation vous permettent de comparer la variabilité par des valeurs relatives plutôt que par des valeurs absolues. Le coefficient de fluctuation est calculé en divisant l'écart type par la valeur moyenne.

La formule est la suivante.

CV = \frac{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}}{\bar{x}}

Je vais en fait le calculer.

Produit Prix moyen(Cercle) écart-type(Cercle)
eau 89 14
voiture 3,136,500 284,869

Pour chacun, divisez l'écart type par le prix moyen. Puis

Coefficient de fluctuation de l'eau

0.15 = 14 \div 89

Coefficient de variation de voiture

0.09 = 284,869 \div 3,136,500

Le coefficient de fluctuation de l'eau est de "0,15" Le coefficient de fluctuation de la voiture est de «0,09»

Vous voyez donc que le prix de l'eau est relativement plus variable.

c'est tout

référence

Recommended Posts

[Statistiques pour les programmeurs] Dispersion, écart type et coefficient de fluctuation
[Algorithme x Python] Calcul des statistiques de base Partie3 (plage, variance, écart type, coefficient de fluctuation)
[Statistiques pour les programmeurs] Courbe de Lorenz et coefficient de Gini
Calcul de l'écart type et du coefficient de corrélation en Python
Statistiques jusqu'à la dispersion et l'écart type
[Statistiques pour les programmeurs] Table des matières-Science des données
Cours des actions et statistiques (moyenne, écart type)
[Statistiques pour les programmeurs] Probabilité conditionnelle et théorème du multiplicateur
[Statistiques pour les programmeurs] Théorème de Bayes
[Statistiques pour les programmeurs] Variables de probabilité, distributions de probabilité et fonctions de densité de probabilité
[Statistiques pour les programmeurs] Moyenne, médiane et la plus fréquente
[Statistiques pour les programmeurs] Qu'est-ce qu'un événement?
2. Écart moyen et standard avec le réseau neuronal!