Cette série est une brève explication de "Les bases des statistiques mathématiques modernes" par Tatsuya Kubogawa, et implémentons le contenu en python. J'ai utilisé Google Colaboratory (ci-après dénommé Colab) pour la mise en œuvre. Si vous avez des suggestions, je vous serais reconnaissant de bien vouloir les écrire dans la section des commentaires. Il peut ne pas convenir à ceux qui veulent comprendre correctement tout le contenu du livre, car il est écrit avec une position qu'il serait bien qu'il puisse être produit en ne touchant que les parties qui nécessitent des explications. Veuillez noter que si les numéros de formule et les index de proposition / définition sont écrits selon le livre, les numéros peuvent être ignorés dans cet article.
La fonction qui peut calculer la probabilité en donnant une variable était la distribution de probabilité. Chacun des divers types de distributions de probabilités a ses propres caractéristiques et utilisations. Il est important de connaître les caractéristiques de chaque distribution de probabilité, car vous ferez une erreur dans votre prédiction si vous faites une erreur dans la distribution de probabilité supposée. La valeur attendue et la variance de la distribution de probabilité peuvent être obtenues en utilisant la fonction de génération de probabilité, la fonction de génération de facteur de produit et la fonction caractéristique du chapitre précédent, mais je pense que vous devriez vous en souvenir. Vous vous en souviendrez peut-être en l'utilisant. À la fin du chapitre, nous abordons les équations de Stein et les formules Sterling. Si vous recherchez sur Google, vous trouverez de nombreuses distributions de probabilités qui ne sont pas présentées dans l'article. J'écrirai un article sur "Fonction de génération de probabilité, fonction de génération de facteur de produit, fonction caractéristique" à un autre moment pour prouver la proposition en utilisant la fonction de génération de probabilité, je voudrais donc l'introduire à ce moment-là.
$ $
Nous avons traité des valeurs attendues et des variances au chapitre 2, mais n'avons pas abordé la relation entre les valeurs attendues et les variances. Soit $ E [X] = \ mu
$ $ Avant la distribution binomiale, laissez-moi vous expliquer le procès de Bernoulli. Permettez-moi de citer l'expression dans le livre
Un essai de Bernoulli est une expérience dans laquelle une $ p $ probabilité de «succès», une $ 1-p $ probabilité de «échec» et une variable de probabilité $ X $ est «succès», $ 1 $, ' Prenez $ 0 $ en cas d'échec ».
La distribution binomiale est une distribution dans laquelle la variable $ X $ est le "nombre de" succès "" lorsque cet essai de Bernoulli est effectué indépendamment (l'essai précédent n'affecte pas l'essai suivant) $ n $. La probabilité d'échouer $ k $ fois et d'échouer $ nk $ fois est exprimée par la formule suivante (succès '',
échec '' ne sont que des mots simples, tomber malade '',
ne pas avoir '', etc. Tout ce que vous faites).
À titre d'exemple, dessinons la distribution de probabilité du nombre de fois où le tableau apparaît lorsque la pièce est lancée 30 fois et 1000 fois.
La distribution de Poisson est un exemple particulier de la distribution binomiale, et lorsque des «phénomènes rares» peuvent être «observés (essayés) en grand nombre» (exemple: distribution du nombre d'accidents de la circulation survenant en une journée) Utilisez plutôt la distribution de Poisson. En d'autres termes, si vous prenez la limite de
Vérifions la distribution binomiale et la distribution de Poisson avec python.
%matplotlib inline
import matplotlib.pyplot as plt
from scipy.special import comb#Fonction pour calculer la combinaison
import pandas as pd
#Dessin graphique de la distribution binomiale
def Bin(n,p,x_min,x_max,np):
prob = pd.Series([comb(float(n),k)*p**k*(1-p)**(float(n)-k) for k in range(0,n+1)]) #Calculez la probabilité à chaque k
plt.bar(prob.index,prob,label=np)#Graphique à barres (valeur y,valeur x)
plt.xlim(x_min,x_max)
plt.legend()
plt.show()
Bin(1000,0.5,0,30,"n=30,p=0.5")#30 pièces
Bin(10000,0.5,4500,5500,"n=1000,p=0.5")#1000 pièces
Bin(40000,0.00007,0,15,"n=40000,p=0.00007")#Essayez d'augmenter n et de diminuer p
Si vous faites cela, vous obtiendrez les trois graphiques suivants.
Que diriez-vous de la même fonction, mais avec un peu de distorsion, vous pourriez dessiner quelque chose comme une distribution de Poisson.
Les trois autres distributions de probabilités discrètes ont également leurs propres idées uniques, mais je pense que vous pouvez les lire si vous êtes conscient de ce que représente la variable de probabilité discrète $ X $.
La distribution continue introduite dans le livre est la suivante · Distribution uniforme ·distribution normale ・ Distribution gamma, distribution chi carré ・ Distribution exponentielle, distribution des dangers ・ Distribution bêta Prenons-le ici aussi.
$ $
La distribution normale est la distribution de probabilité la plus importante car elle a une forme symétrique centrée sur la moyenne et est facile à manipuler.
Lorsque la variable de probabilité $ X $ suit une distribution normale de moyenne $ \ mu, $ variance $ \ sigma ^ 2 $, la fonction de densité de probabilité pour $ X $ est
$ $ Il existe une distribution du chi carré comme cas particulier de la distribution gamma, mais la distribution du chi carré est plus importante en statistique. Comme nous le verrons dans les chapitres suivants, la distribution du chi carré est utilisée pour l'estimation par segment de la variance de la population, le test d'ajustement, le test d'indépendance, etc. Puisque les propriétés qui apparaissent dans les chapitres 4 et 5 sont plus importantes pour la distribution du chi carré que la formule exprimée à l'aide de la fonction gamma, seule la forme de la distribution du chi carré est dessinée ici. La distribution du chi carré avec $ n $ de liberté est représentée par $ \ chi_n ^ 2 $. J'omettrai le degré de liberté car il sera mieux compris dans les chapitres suivants.
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats
x1 = np.arange(0,15,0.1)
y1 = stats.chi2.pdf(x=x1,df=1)#df=degree of freedom(Degré de liberté)est
y2 = stats.chi2.pdf(x=x1,df=2)
y3 = stats.chi2.pdf(x=x1,df=3)
y4 = stats.chi2.pdf(x=x1,df=5)
y5 = stats.chi2.pdf(x=x1,df=10)
y6 = stats.chi2.pdf(x=x1,df=12)
plt.figure(figsize=(7,5))
plt.plot(x1,y1, label='n=1')
plt.plot(x1,y2, label='n=2')
plt.plot(x1,y3, label='n=3')
plt.plot(x1,y4, label='n=5')
plt.plot(x1,y5, label='n=10')
plt.plot(x1,y6, label='n=12')
plt.ylim(0,0.7); plt.xlim(0,15)
plt.legend()
plt.show()
Lorsque vous faites cela, vous obtenez:
$ $
La fonction de densité de probabilité de la distribution exponentielle est donnée par la formule suivante et est exprimée comme $ Ex (\ lambda)
Dans la distribution bêta, la variable de probabilité $ X $ prend une valeur sur l'intervalle (0,1), et sa fonction de densité de probabilité est
Je n'en ai présenté que quelques-uns, mais c'est tout pour le chapitre 3. Merci beaucoup.
"Bases des statistiques mathématiques modernes" par Tatsuya Kubogawa