La première pratique de la modélisation bayésienne
Je n'ai pas eu beaucoup de temps pour diverses raisons, mais j'ai finalement pu pratiquer la modélisation bayésienne.
La première partie traite de la différence entre les deux groupes de statistiques bayésiennes
Livres de référence
"Première analyse des données statistiques" (https://www.asakura.co.jp/books/isbn/978-4-254-12214-5/)
est.
Les données utilisées sont le fameux "iris"
De plus, j'ai utilisé "pedale.length" (la longueur du gaku?).
J'utilise stan + python (pystan) pour le logiciel de modélisation bayésienne.
Le but de ce temps est d'effectuer le test t, qui est connu comme une statistique basée sur la fréquence, par modélisation bayésienne.
En supposant que les données observées sont x1 et x2, ce sont
x1 ~ normal(mu1, sigma1)
x2 ~ normal(mu2, sigma2)
Il est généré comme ça.
En comparant les moyennes de population mu1 et mu2 estimées à partir des valeurs observées (x1, x2),
Il devient possible de discuter de la probabilité qu'il y ait une différence entre eux.
Premièrement, pour les données originales, le graphique ci-dessous montre la distribution normale avec mu et sigma estimés sous forme d'histogramme.
50 données chacune pour les espèces versicolor et virginica,
Certes, rien qu'en traçant, vous pouvez voir qu'il semble y avoir une différence entre eux.
Prochain graphique mu_versicolor, mu_virginica estimé
Il existe deux types de couleurs sombres et claires, l'une est estimée à partir de 10 échantillons (un plus clair) et l'autre est estimée à partir de 30 échantillons (un plus foncé).
Du fait que les plus minces sont largement distribués, on peut voir que plus il y a d'observations, plus l'estimation peut être précise.
Enfin mu_versicolor --10 exemple de version, 30 exemples de graphique de version de mu_viginica
10 échantillons pour le bleu, 30 échantillons pour le vert
En résumant cet histogramme (obtention du PAE)
Il est possible d'évaluer la probabilité que la taille du gaku soit supérieure à ~ ~ cm.
Après tout, plus le nombre d'échantillons est élevé, plus la netteté de l'histogramme est élevée.
Dans le cas de 30 échantillons, on peut évaluer qu'il existe une différence de 1,0 à 1,5 dans la plupart des cas.
Cette fois, j'ai évalué la différence entre les deux valeurs en utilisant des statistiques bayésiennes, mais cela semble être tout à fait utilisable.
Il est bon que non seulement la valeur p, mais aussi la probabilité de distance les uns des autres puissent être obtenues comme ~~%.
Dans le même temps, ce serait bien de pouvoir évaluer la faible fiabilité de la petite quantité de données.
Je veux l'utiliser pour mon propre mémoire de maîtrise ~ ~ ~
Recommended Posts