Statistiques pour les programmeurs - Table des matières
Lorsqu'il existe des données numériques, la valeur qui représente ces données est appelée valeur représentative. Il existe les trois valeurs typiques suivantes. La valeur représentative dépend de la forme de la distribution des données.
La valeur moyenne est la valeur totale de toutes les données divisée par le nombre de données.
\bar{x} = \frac{(x_1+x_2+x_3+・ ・ ・+x_n)}{n}
Dans le cas d'une table de distribution de fréquence, vous pouvez utiliser «valeur de classe» et «fréquence» pour calculer la valeur moyenne. Si vous avez n classes, la valeur de la classe est «v» et la fréquence est «f», vous pouvez calculer avec la formule suivante.
\bar{X} = \frac{(f_1v_1 + f_2v_2+・ ・ ・+ f_3v_3)}{(f_1 + f_2 +・ ・ ・+ f_n)}
À titre d'exemple, calculons la valeur moyenne en fonction du tableau de distribution des fréquences des résultats des tests de 10 étudiants.
classe | Valeur de classe | la fréquence |
---|---|---|
0 point ou plus et moins de 25 points | 12.5 | 1 |
25 points ou plus et moins de 50 points | 37.5 | 3 |
50 points ou plus et moins de 75 points | 62.5 | 4 |
75 points ou plus | 87.5 | 2 |
Le score moyen pour ce test est calculé ci-dessous.
\bar{X}=\frac{({1\times12.5}) + ({3\times37.5}) + ({4\times62.5}) + ({2\times87.5})}{(1+3+4+2)}
Au fait, bien que ce soit un peu hors sujet, il existe plusieurs méthodes pour calculer la valeur moyenne en fonction de l'application. Veuillez vous y référer également. ** Article connexe: Il existe plusieurs façons de calculer la valeur moyenne **
La valeur médiane est la valeur qui se trouve au milieu lorsque les données sont organisées par ordre croissant ou décroissant. Si le nombre de données est pair, la valeur médiane est de deux et leur somme et divisée par deux est la valeur médiane.
1, 3, 4, 5, 7
Dans ce cas, la valeur médiane est «4».
1, 3, 4, 5, 7, 10
Dans ce cas, la valeur médiane est «4» et «5», elle peut donc être calculée par la formule suivante, et la valeur médiane est «4,5».
4.5 = \frac{4+5}{2}
La valeur la plus fréquente est la valeur avec le plus grand nombre de données.
1, 3, 4, 5, 7, 7, 10
Par exemple, la valeur la plus fréquente dans le cas ci-dessus serait «7».
Dans le cas du tableau de distribution de fréquences, la valeur de classe avec la fréquence la plus élevée est la valeur la plus fréquente. Dans le cas du tableau de distribution de fréquence des scores du test précédent, celui avec la fréquence la plus élevée est «4» sur «50 points ou plus et moins de 75 points», donc la valeur la plus fréquente est sa valeur de classe «62,5». ..
classe | Valeur de classe | la fréquence |
---|---|---|
0 point ou plus et moins de 25 points | 12.5 | 1 |
25 points ou plus et moins de 50 points | 37.5 | 3 |
50 points ou plus et moins de 75 points | 62.5 | 4 |
75 points ou plus | 87.5 | 2 |
De plus, s'il y a le même nombre de «5» et «7», comme indiqué ci-dessous, les valeurs les plus fréquentes seront «5» et «7».
1, 3, 4, 5, 5, 7, 7, 10
De plus, dans les cas suivants, cela signifie que la valeur la plus fréquente n'existe pas.
1, 3, 4, 5, 7, 10
Dans la distribution de l'histogramme, s'il y a un pic dans le pic, ce qui suit est souvent vrai. C'est ce qu'on appelle la règle empirique de Pearson.
Des trois suivants, il est toujours vrai s'il est symétrique, mais les deux autres sont des règles empiriques et ne sont pas toujours valables.
Si la distribution de l'histogramme est symétrique comme indiqué ci-dessous, la valeur moyenne, la valeur médiane et la valeur la plus fréquente sont toutes identiques à la position de la ligne rouge.
Si la distribution n'est pas symétrique mais biaisée vers la gauche (queue vers la droite) Comme indiqué ci-dessous, la valeur la plus fréquente, la valeur médiane et la valeur moyenne sont souvent organisées dans cet ordre. (La ligne est dessinée à la position approximative)
Si la distribution n'est pas symétrique mais biaisée vers la droite (queue vers la gauche) Comme indiqué ci-dessous, il est souvent organisé dans l'ordre de la valeur moyenne, de la valeur médiane et de la valeur la plus fréquente. (La ligne est dessinée à la position approximative)
Laquelle des valeurs moyennes, médianes et les plus fréquentes doit être la valeur représentative dépend de la distribution des données. Les avantages et les inconvénients de chacun sont résumés.
Valeur représentative | mérite | Démérite |
---|---|---|
Valeur moyenne | Peut refléter toutes les données | Sera déplacé s'il y a une valeur extrême |
Médian | Moins sensible aux valeurs extrêmes | Difficile de remarquer des changements autres que la valeur moyenne |
Valeur la plus fréquente | Moins sensible aux valeurs extrêmes | Il est difficile de se référer lorsque le nombre de données est petit |
Laquelle doit être utilisée comme valeur représentative dépend de la façon dont les données sont distribuées. Fondamentalement, si la différence entre la valeur moyenne et la valeur médiane est faible, je pense qu'il vaut mieux utiliser la valeur moyenne comme valeur représentative. Si la différence entre les deux est importante, je pense qu'il est prudent d'examiner également les valeurs médianes et les plus fréquentes.
Dans l'histogramme de l'exemple précédent, tous avaient une montagne, mais il peut y avoir plusieurs montagnes. Dans un tel cas, il est difficile de déterminer la valeur représentative, mais il peut être nécessaire de concevoir la méthode de collecte des données en premier lieu.
c'est tout