https://bellcurve.jp/statistics/course/9208.html
Selon l'URL ci-dessus, la distribution du chi carré est la somme des carrés des variables stochastiques qui suivent une distribution normale standard. Cependant, même si vous regardez la distribution, vous ne pouvez pas vraiment la ressentir, alors essayez-la avec Jupyter.
Générer une variable stochastique selon N (0,1) selon la définition, effectuer plusieurs essais de prise de la somme des carrés et confirmer la distribution. Le côté gauche de la figure ci-dessous est un dessin de KDE. Le côté droit est l'histogramme.
Dans la figure de gauche, il peut être confirmé que presque la même forme que la distribution peut être reproduite. La figure de droite a presque la même forme. Cela semble un peu étrange, mais cela semble être plus proche si vous augmentez le nombre d'échantillons ou ajustez les axes vertical et horizontal.
De là, je pourrais comprendre un peu que "la distribution du chi carré est la somme des carrés des variables stochastiques qui suivent la distribution normale standard". Lorsque le degré de liberté est 1, il prend souvent une valeur proche de 0, mais lorsque le degré de liberté augmente, la somme de ceux-ci est prise, de sorte que le pic de la distribution se déplace progressivement vers la droite. En supposant que la valeur moyenne lorsque le degré de liberté est 1 est 1 (bien que cela soit difficile à comprendre à partir de la figure), le degré de liberté = le nombre de distributions normales standard indépendantes, donc la valeur attendue correspond au degré de liberté. Il est compréhensible de le faire.
D'un autre côté, la question demeure: "Et alors?" Après enquête, ce qui suit était facile à comprendre.
https://atarimae.biz/archives/13511
Cependant, avec la seule moyenne de l'échantillon, par exemple, il n'est pas possible de conclure que "si vous lancez les dés 120 fois, vous n'obtenez que 1 et 6", mais "il est difficile de penser à une coïncidence".
Naturellement, le biais de l'échantillon ne peut être exprimé uniquement par l'échantillon "moyen". Par conséquent, il n'est pas possible de souligner la contradiction des "résultats qui sont raisonnables lorsqu'ils ne sont considérés qu'en moyenne mais qui sont clairement biaisés". L'idée pour résoudre ceci est de "confirmer la distribution de la somme des carrés (≈ variance) de l'échantillon", et on peut dire que l'outil pour la vérifier est la distribution du chi carré.
Jusqu'à présent, je n'avais qu'une compréhension superficielle, mais je sens que ma compréhension de la distribution du chi carré s'est approfondie.
Les cahiers que j'ai utilisés sont les suivants.
https://github.com/takotaketako/public-notebook/blob/master/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E5%88%86%E5%B8%83.ipynb
Recommended Posts