Cette série est décrite comme mon apprentissage personnel et son mémorandum, mais je la publie avec l'espoir de pouvoir partager ce que j'ai appris avec vous. Nous organisons principalement les termes qui apparaissent lors de l'étude du machine learning et du deep learning. Cette fois, je vais résumer les grandes lignes du modèle probabiliste et l'estimation la plus probable qui apparaissent dans le modèle d'apprentissage automatique.
Un modèle probabiliste est un modèle qui suppose que la variable x est générée à partir d'une distribution de probabilité `` P (x | θ) '' avec le paramètre θ.
Modèle de probabilité
x ~ P(x|\theta)
Si x est une variable continue, ce sera une distribution normale.
distribution normale
N(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} exp \begin{bmatrix} - \frac{(x-\mu)^2}{2\sigma^2} \end{bmatrix}
Les variables discrètes, en particulier celles qui prennent 0 ou 1 comme le lancer d'amour, sont appelées des distributions de Bernoulli.
Distribution de Bernoulli
B(x|p) = p^x(1-p)^{1-x}
Étant donné ces données X = (x0, x1, ...) indépendantes les unes des autres, si le produit des valeurs des fonctions stochastiques de chaque donnée est une fonction de θ, alors c'est la vraisemblance du thêta ( Cela devient plus comme (plus) et s'appelle vraisemblance (vraisemblance).
Responsabilité
L(\theta) = \prod_{n}P(x_n|\theta)
La vraisemblance est la quantité la plus importante dans le modèle stochastique, et trouver le paramètre θ qui maximise la vraisemblance s'appelle l'optimisation du maximum de vraisemblance (MLE). Normalement, il est traité sous la forme de vraisemblance logarithmique comme indiqué ci-dessous car il est facile à calculer.
Probabilité du journal
lnL(\theta) = \sum_nlnP(x_n|\theta)
Il est obtenu en différenciant partiellement la vraisemblance logarithmique par rapport à μ et en résolvant l'équation dans laquelle la valeur devient 0 (en conséquence, l'estimation la plus probable du paramètre de valeur attendue μ est la valeur moyenne de tous les x).
Estimation la plus probable du paramètre de valeur attendue μ de la distribution normale
lnL(\theta) = - \frac{N}{2}ln2\pi\sigma^2 - \frac{1}{2\sigma^2}\sum_n(x_n-\mu)^2\\
\frac{\delta}{\delta_p}lnL(\theta) = - \frac{1}{\sigma^2}\sum_n(x_n - \mu) = 0 \\
\mu = \frac{1}{N}\sum_nx_n = \bar{x}
De même, pour la distribution de Bernoulli, la résolution de l'estimation la plus probable de p donne ce qui suit. Ici, si le nombre de x = 1 est M
Estimation la plus probable de la distribution de Bernoulli
\sum_nx_n = M \\
lnL(\theta) = \sum_nx_nlnp + (1 - x_n)ln (1 - p) \\
=Nlnp + (N - M)ln(1 - p) \\
\frac{\delta}{\delta_p}lnL(\theta) = - \frac{M}{p} + \frac{N -M}{1 -p} = 0 \\
p = \frac{M}{N}
Et p donne le rapport du nombre de fois x = 1.
Dans cette série, je vais essayer de supprimer uniquement les parties nécessaires avec une sensation aussi volumineuse. La prochaine fois, je résumerai la méthode de descente de gradient stochastique, alors jetez-y également un coup d'œil. Merci d'avoir parcouru jusqu'au bout.
Recommended Posts