La dernière fois J'ai expliqué diverses choses sur Hadoop en partant du principe que la population sera étudiée complètement, mais quand j'ai fait des hypothèses sur la répartition des populations. Un test de conformité est requis.
Pensons à ce qui peut être jugé par le test.
Test de différence de ratio → Y a-t-il une différence de ratio de population entre deux populations différentes? Ceci est déterminé par le fait que le rapport de population P est égal à une certaine valeur P_0.
Test de différence de valeur moyenne → Y a-t-il une différence de moyenne de population entre deux populations différentes? Ceci est déterminé par le fait que la valeur moyenne μ de la population est égale à une certaine valeur μ_0.
Test de différence de variance → Y a-t-il une différence de variance entre deux populations normales différentes? Ceci est déterminé par le fait que la variance σ ^ 2 de la population normale est égale à une certaine valeur σ ^ 2_0.
Peut-on dire que les données observées sont cohérentes avec une distribution particulière? Si les distributions de probabilité des deux populations sont différentes.
La distribution de Poisson est comme expliqué précédemment dans Test d'hypothèse et distribution de probabilité.
Si les valeurs possibles de la variable stochastique sont discrètes et infinies, c'est la probabilité qu'un événement qui se produit λ fois en moyenne par unité de temps se produise X fois par unité de temps.
{P(X = k) = \frac {{\lambda}^xe^{-\lambda}} {k!} \\
pourtant\\
\lambda \gt 0
}
Considérez le nombre d'observations d'informations spécifiques au terminal dans une certaine information de position. Supposons que vous ayez étudié 100 unités pour voir si chaque information spécifique au terminal est observée dans une zone spécifique, et suivez le tableau ci-dessous pour chaque information spécifique au terminal.
Nombre d'observations | Nombre de terminaux |
---|---|
0 | 43 |
1 | 31 |
2 | 14 |
3 | 8 |
4 | 3 |
5 | 1 |
Si ce nombre d'observations suit la distribution de Poisson est testé au niveau de signification (= valeur P) de 5%.
λ = population inconnue (estimée à partir des données) X = classe k
Par conséquent, la moyenne de l'échantillon est utilisée comme une estimation de la population inconnue λ de la distribution de Poisson.
\hat{\lambda} = \frac 1 {100} (0 x 43 + 1 x 31 + 2 x 14 + ... ) = 1
Par conséquent, la fréquence attendue est
Classe k | Fréquence d'observation | Fréquence attendue |
---|---|---|
0 | 43 | 36.8 |
1 | 31 | 36.8 |
2 | 14 | 18.4 |
3 | 8 | 6.13 |
4 | 3 | 1.53 |
5 | 1 | 0.307 |
6 | 0 | 0.0330 |
\chi^2 = \frac {(43-36.8)^2} {36.8} + \frac {(31-36.8)^2} {36.8} + ... = 5.011
Les valeurs ainsi obtenues sont comparées au Table of chi-square distribution.
Le degré de liberté est 7-1 -1 = 5 car le nombre de populations inconnues est soustrait du nombre de classes -1. Si k = 3 et plus sont regroupés et que le nombre de classes est 4, alors 4-1 -1 = 2. Je vais. Si vous regardez la colonne avec une valeur P de 0,05 et un degré de liberté de 2, elle indique 5,99146, elle est donc comprise dans cette valeur et l'hypothèse nulle n'est pas rejetée. En d'autres termes, il s'avère que ** on ne peut pas dire qu'il ne suit pas la distribution de Poisson **.
Simulons que si n est approché de l'infini tout en gardant λ de la distribution normale avec les paramètres n et p = λ / n constants, il se rapprochera de la distribution de Poisson.
J'avais l'habitude de faire la simulation de la qualification du pôle central de manière brutale, mais c'est plus facile à faire.
import numpy as np
import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
M = 1000
for N in [10,30,50,100]:
data = [np.average(np.random.poisson(3, N)) for i in range(M)]
hist, key = np.histogram(data, bins=np.arange(1,5,0.1), density=True)
ax.plot(hist, label=str(N))
plt.legend(loc='best')
plt.show()
plt.savefig("image.png ")
Lorsque N = 100, on observe qu'elle est proche d'une distribution normale.
Recommended Posts