Cette série est une brève explication de "Les bases des statistiques mathématiques modernes" par Tatsuya Kubogawa, et implémentons le contenu en python. J'ai utilisé Google Colaboratory (ci-après dénommé Colab) pour la mise en œuvre. Si vous avez des suggestions, je vous serais reconnaissant de bien vouloir les écrire dans la section des commentaires. Il peut ne pas convenir à ceux qui veulent bien comprendre tout le contenu du livre car il est écrit avec une position qu'il serait bien qu'il puisse être produit en ne touchant que la partie qui, à mon avis, nécessitait une explication. Veuillez noter que si les numéros de formule et les index de proposition / définition sont écrits selon le livre, les numéros peuvent être ignorés dans cet article.
Premièrement, nous expliquons la distribution de probabilité dans les types discrets et continus en exprimant strictement les variables de probabilité que nous utilisons avec désinvolture. Il peut être déroutant de trouver des mots similaires, mais une fois que vous aurez compris le contenu, vous ne vous perdrez pas. Ensuite, la valeur attendue est définie et la variance, l'écart type, etc. sont expliqués. Les fonctions de génération de probabilités, les fonctions de génération de facteurs de produit et les fonctions caractéristiques peuvent être nouvelles pour vous, mais ce sont des fonctions importantes qui approfondiront vos connaissances en statistiques. Je pense qu'il est normal de ne connaître que l'idée de la conversion finale des variables et de le faire chaque fois que vous en avez besoin. Je pense que les premier et deuxième chapitres sont les préparatifs du troisième et des suivants, et même s'ils ne sont pas parfaits pour le moment, je pourrais les comprendre en lisant.
$$ La variable de probabilité n'est pas de gérer tous les événements auxquels vous pensez, mais de le rendre plus facile à gérer en omettant les parties sans importance. Par exemple, disons que vous sélectionnez au hasard 100 personnes et demandez si vous aimez Guppy. Tous les événements $ \ Omega $ se composent de $ 2 ^ {100} $ éléments, ce qui est une distinction individuelle. Mais ce que je veux savoir maintenant, c'est combien de personnes sur 100 aiment Guppy. Tous les événements où l'individu est distingué $ \ Omega $ («Les personnes qui ont répondu comme» est égal à 1 et «Les personnes qui ont répondu n'aiment pas» est 0) et la variable probabiliste lorsque les individus ne sont pas distingués est $ X $ Tous les événements (espace échantillon) $ \ chi $ de $ X $ à ce moment sont
Définition:
Si la fonction de distribution cumulative de la variable de probabilité $$ est $ F_X (x)
, elle peut être exprimée par $ F_X (x) = P (X \ leq x) $$.
Exemple: Quelle est la probabilité de lancer un dé une fois et d'en obtenir 4 ou moins? Réponse: $ F_X (4) = P (X \ leq 4) = 4/6 = 2/3 $. à propos de ça. La fonction de distribution cumulative est également appelée simplement fonction de distribution. La variable de probabilité $ X $ lorsque la variable prend des valeurs discrètes comme un dé est appelée une variable de probabilité discrète, et lorsque la variable prend des valeurs continues comme la température, elle est appelée une variable de probabilité continue.
La fonction de distribution cumulative $ $ $ F_X (x) $ considère la probabilité cumulative ($ X \ leq x $), mais ensuite la probabilité (ponctuelle) que $ X = x $.
** ・ Type discret **
f_X(x) = \left\{ \begin{array}{ll}
p(x_i) & (x=x_Quand je) \\
0 & (x \notin \Quand chi)
\end{array} \right.
Peut être exprimé comme. J'ai omis l'expression exacte, mais les caractères utilisés sont les mêmes que les significations des caractères qui sont apparus jusqu'à présent. ** ・ Type continu ** Dans le cas de type continu, il n'est pas possible de calculer la probabilité car il n'est pas possible de ne considérer qu'une seule variable. Par exemple, même si vous essayez de représenter le nombre réel 1 sur la ligne droite du nombre réel, il continuera indéfiniment sous la forme 1.0000000000 .... Par conséquent, considérez la probabilité que la variable ait une petite largeur au lieu d'un point. Définition:
Pour la variable de probabilité continue $ X
, $ F_X (x) =
\int_{-\infty}^x f_X(t) dt, \ -\infty<x<\infty \tag{1} \ $$ Lorsque la fonction $ f_X (x) $ qui devient est présente, $ f_X (x) $ est appelée ** fonction de densité de probabilité **.
Par exemple, quelle est la probabilité que la température de demain $ T [℃] $ soit de 22 $ \ leq T \ leq25 $? C'est une façon de penser. $ F_X (x) $ est une fonction de distribution cumulative. Je pense que vous vous habituerez bientôt à la densité d'expression. Puisqu'il s'agit d'une probabilité, bien sûr,
Premièrement, à partir de la définition de la valeur attendue:
$$ La valeur attendue de la fonction $ g (X) $ de la variable de probabilité $ X $ est représentée par $ E [g (X)] $.
E[g(X)] = \left{ \begin{array}{ll} \int_{-\infty}^{\infty} g(x)f_X(x) dx& (Lorsque X est une variable de probabilité continue) \ \sum_{x_i \in \chi}g(x_i)f_X(x_i) & (Lorsque X est une variable de probabilité discrète) \end{array} \right.
Il est exprimé comme.
$ f_X (x) $ est la fonction stochastique ci-dessus. En d'autres termes, vous additionnez le produit de la valeur de chaque variable $ x $ et de la probabilité que cette valeur se produise. La raison pour laquelle la valeur attendue est importante est que la moyenne et la variance, qui sont les valeurs caractéristiques (informations réduites) de la distribution de probabilité, sont également les valeurs attendues de la fonction $ g (X) $ d'une certaine variable de probabilité $ X $.
·moyenne
Lorsque $ g (X) = X $, la valeur attendue de $ X $ $ E [X] $ est appelée la moyenne de $ X $. Il est exprimé comme $ E [X] = \ mu $. Pour les mouvements parallèles et les changements d'échelle
$$E[aX+b]=aE[X]+b$$
Ce sera.
・ Distribué
Lorsque $ g (X) = (XE [X]) ^ 2 $, la valeur attendue $ E [(X- \ mu) ^ 2] $ est appelée la distribution de $ X $, et $ V (X) $ ou $ Il est exprimé par \ sigma ^ 2 $. $ \ Sigma = \ sqrt {V (X)} $ est appelé l'écart type de $ X $. La variance représente le degré de dispersion des données et l'écart type est celui qui est le plus facile à calculer en supprimant une dimension. J'omettrai la preuve, mais la dispersion est pour le mouvement parallèle et le changement d'échelle.
$$V[aX+b]=a^2V[X]$$
Ce sera. Puisque la variance considère à l'origine le carré de l'écart (la différence entre la valeur moyenne et chaque donnée), je pense que cela a du sens. Je pense que vous pouvez comprendre intuitivement que même si les données se déplacent en parallèle, le degré de diffusion ne change pas.
* La fonction de génération de probabilité, la fonction de génération de rapport de produit et la fonction caractéristique sont probablement longues, je les présenterai donc dans un article à un autre. Comme son nom l'indique, c'est une fonction qui permet d'obtenir automatiquement la fonction de probabilité et le rapport produit.
# Lançons python
Utilisons maintenant python pour examiner la fonction de densité de probabilité et la fonction de distribution cumulative de la distribution normale standard (qui apparaîtra dans le chapitre suivant).
```python
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm
fig,ax = plt.subplots()
x1 = np.arange(-5,5,0.1)
x2 = np.arange(-5,5,0.01)
y = (np.exp(-x2**2/2)) / np.sqrt(2*np.pi)
Y = norm.cdf(x1,loc=0,scale=1)#Fonction de distribution cumulative de la distribution normale standard(cumulative distribution function)Calculer
c1,c2 = "red","blue"
ax.set_xlabel("x")
ax.set_ylabel("plobability")
plt.grid(True)
plt.plot(x1,Y,color=c1,label=l1)
plt.plot(x2,y,color=c2,label=l2)
plt.show()
Lorsque vous faites cela, cela ressemblera à la figure ci-dessous Le graphique bleu est la fonction de densité de probabilité de distribution normale standard $ f_X (x) $, et le graphique rouge est la fonction de distribution cumulative $ F_X (x) $. Vous pouvez voir que la fonction de distribution cumulative s'approche de 0 à 1.
C'est la fin du chapitre 2. Merci beaucoup.
"Bases des statistiques mathématiques modernes" par Tatsuya Kubogawa