introduction
C'est un record d'apprentissage lorsque j'ai pris le Rabbit Challenge dans le but de réussir la qualification JDLA (Japan Deep Learning Association) E, qui se tiendra les 19 et 20 janvier 2021.
Rabbit Challenge est un cours qui utilise le matériel pédagogique édité à partir de la vidéo enregistrée du cours de fréquentation scolaire du «cours d'apprentissage en profondeur qui peut être écrasé sur le terrain».
Il n'y a pas de support pour les questions, mais c'est un cours bon marché (le prix le plus bas en juin 2020) pour passer l'examen de qualification E.
Veuillez vérifier les détails à partir du lien ci-dessous.
Chapitre 1: Algèbre linéaire
--Scalaire
—— Généralement, les nombres dits ordinaires
-
-
- × ÷ peut être calculé
--Peut être un coefficient pour un vecteur
- vecteur
--Dispose d'une "taille" et d'une "direction"
-Illustré par la flèche
--Affiche comme un ensemble de scalaires
- file d'attente
--Table scalaire
--Vecteurs arrangés
Matrice unitaire et matrice inverse
Une matrice telle que "1" dont le partenaire ne change pas même si elle est multipliée est appelée matrice unitaire.
$ I = \begin{pmatrix}
1 & & \\\
& 1 & \\\
& & \ddots \\
\end{pmatrix} $
Une matrice qui agit comme un inverse est appelée une matrice inverse.
$ AA^{-1} = A^{-1}A = I $
Caractéristiques de la formule matricielle
Quand vous pensez à une matrice comme une combinaison de deux vecteurs horizontaux
$ \begin{pmatrix}
a & b \\\
c & d
\end{pmatrix} = \begin{pmatrix}
\vec{v_1} \\\
\vec{v_2}
\end{pmatrix} $
L'aire du quadrilatère parallèle créé par est déterminée comme ayant une matrice inverse.
Cette zone est $ \ begin {vmatrix}
a & b \
c & d
\end{vmatrix} = \begin{vmatrix}
\vec{v_1} \
\vec{v_2}
Exprimé comme \ end {vmatrix} $ et appelé une expression matricielle.
Lorsque $ \ vec {v_1} = (a, b, c), \ vec {v_2} = (a, b, c), \ vec {v_3} = (a, b, c) $
$ \begin{vmatrix}
\vec{v_1} \\\
\vec{v_2} \\\
\vec{v_3}
\end{vmatrix} = \begin{vmatrix}
a & b & c \\\
d & e & f \\\
g & h & i
\end{vmatrix} = \begin{vmatrix}
a & b & c \\\
0 & e & f \\\
0 & h & i
\end{vmatrix} + \begin{vmatrix}
0 & b & c \\\
d & e & f \\\
0 & h & i
\end{vmatrix} + \begin{vmatrix}
0 & b & c \\\
0 & e & f \\\
g & h & i
\end{vmatrix} = a \begin{vmatrix}
e & f \\\
h & i
\end{vmatrix} - d \begin{vmatrix}
b & c \\\
h & i
\end{vmatrix} + g \begin{vmatrix}
b & c \\\
e & f
\end{vmatrix} $
Une expression matricielle constituée de n vecteurs a les caractéristiques suivantes.
--Expression de matrice nulle si le même vecteur de ligne est inclus
$ \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{w} \\\
\vdots \\\
\vec{w} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} = 0 $
--Lorsqu'un vecteur est multiplié par $ \ lambda $, l'expression matricielle est multipliée par $ \ lambda $
$ \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\lambda\vec{v_i} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} = \lambda \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{v_i} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} $
--Si tous les autres composants sont identiques mais que seul le vecteur $ i $ th est différent, les expressions matricielles sont additionnées.
$ \begin{vmatrix}
\vec{v_1}\\\
\vdots \\\
\vec{v_i} + \vec{w} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} = \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{v_i} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} + \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{w} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} $
--Le signe change lorsque vous échangez des lignes
$ \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{v_s} \\\
\vdots \\\
\vec{v_t} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} = - \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{v_t} \\\
\vdots \\\
\vec{v_s} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} $
Des valeurs uniques et des vecteurs uniques
Pour une matrice $ A $, il existe un vecteur spécial $ \ vec {x} $ et un coefficient de droite $ \ lambda $ pour lesquels l'équation suivante est vraie.
$ A\vec{x} = \lambda\vec{x} $
Le produit de la matrice $ A $ et de son vecteur spécial $ \ vec {x} $ est le même que le produit du seul nombre de scalaires $ \ lambda $ et de son vecteur spécial $ \ vec {x} $.
Ce vecteur spécial $ \ vec {x} $ et son coefficient $ \ lambda $ sont appelés vecteurs propres et valeurs propres pour la matrice $ A $.
Décomposition de valeur unique
Supposons qu'une matrice $ A $ créée en arrangeant des nombres réels dans un carré a des valeurs propres $ \ lambda_1, \ lambda_2,… $ et des vecteurs propres $ \ vec {v_1}, \ vec {v_2},… . Une matrice dans laquelle ces valeurs propres sont disposées en diagonale (les autres composants sont 0)
$ A = \begin{pmatrix}
\lambda_1 & & \
& \lambda_2 & \
& & \ddots \
\end{pmatrix} $
Et une matrice dans laquelle les vecteurs propres correspondants sont disposés
$ V = (\vec{v_1} \quad \vec{v_2} \quad …) $
Quand ils ont préparé
$ AV = VA $
Est associée à. Donc
$ A = VAV^{-1} $$
Peut être transformé. La transformation d'une matrice carrée en le produit des trois matrices décrites ci-dessus est appelée décomposition des valeurs propres. Cette transformation présente des avantages tels que faciliter le calcul de la puissance de la matrice.
Décomposition de singularité
Autre que la matrice carrée, il est possible de ressembler à la décomposition des valeurs propres.
$ M \vec{v} = \sigma\vec{u} $
$ M^\top \vec{u} = \sigma\vec{v} $
S'il existe un tel vecteur d'unité spécial, il peut être décomposé en valeurs singulières.
$ MV = US \qquad M^\top U = VS^\top $
$ M = USV^{-1} \qquad M^\top = VS^\top U^{-1} $
Ces produits sont
$ MM^\top = USV^{-1}VS^\top U^{-1} = USS^\top U^{-1} $
En d'autres termes, si $ MM ^ \ top $ est décomposé en valeurs propres, le vecteur singulier gauche et le carré de la valeur singulière peuvent être obtenus.
Chapitre 2: Probabilité / Statistiques
--Variable aléatoire $ x $: valeur réellement réalisée (valeur réalisée)
$ \ Hspace {112pt} $… Une valeur entière de 1 à 6 si vous lancez un dé
- Distribution de probabilités $ P (x) $: Il est facile de choisir la valeur réalisée $ x $
$ \ Hspace {145pt} $… Dans l'exemple des dés, $ P (1) =… = P (6) = \ frac {1} {6} $
Probabilite conditionnelle
P(Y=y|X=x) = \frac{P(Y=y,X=x)}{P(X=x)}
Étant donné un événement X = x, la probabilité que Y = y.
Probabilité simultanée d'événements indépendants
P(X=x,Y=y) = P(X=x)P(Y=y)=P(Y=y,X=x)
Théorème de Bayes
P(x|y) = \frac{P(y|x)P(x)}{\sum_x P(y|x)P(x)}
Théorème additif (loi de toutes les probabilités)P(y) = \sum_x P(x,y) = \sum_x P(y|x)P(x)Probabilite conditionnelleP(x|y) = \frac{P(x,y)}{P(y)} = \frac{P(y|x)P(x)}{P(y)}Lorsqu'il est utilisé dans, il est obtenu.
Valeur attendue
- Valeur attendue: valeur moyenne des variables stochastiques dans la distribution ou valeur "probable"
$ E(f) = \sum_{k=1}^nP(X=x_k)f(X=x_k) $
$ \ hspace {28pt} $ Pour les valeurs consécutives ...
$ \int P(X=x)f(X=x)dx $
--Distributed: comment les données sont dispersées
$ Var(f) = E\Bigl(\bigl(f_{(X=x)}-E_{(f)}\bigl)\^2\Bigl) = E\bigl(f^2_{(X=x)}\bigl)-\bigl(E_{(f)}\bigl)\^2$
--Covariance: différence de tendances entre les deux séries de données
$ Cov(f,g) = E\Bigl(\bigl(f_{(X=x)}-E(f)\bigl)\bigl(g_{(Y=y)}-E(g)\bigl)\Bigl) = E(fg)-E(f)E(g) $
--Déviation standard: Dispersion des données (puisque la variance est au carré, l'unité est différente des données d'origine, donc la racine carrée est prise et l'unité est restaurée)
$ \sigma = \sqrt{Var(f)} = \sqrt{E\bigl((f_{(X=x)}-E_{(f)})^2\bigl)} $
Diverses distributions de probabilité
- Distribution de Bernouy: Distribution montrant les résultats d'essais dans lesquels seuls deux types de résultats peuvent être obtenus (image de tirage au sort)
$ P(x|\mu) = \mu^x(1-\mu)^{1-x} $
- Distribution multi-nooy (catégorielle): Distribution montrant les résultats d'essais pouvant obtenir plusieurs types de résultats (image de lancer un dé)
$ P(x|\mu) = \prod_{k=1}^K \mu_k^{x_k} $
--Biterm distribution: version multi-essai de la distribution Bernoulli
$ P(x|\lambda,n) = \frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x} $
- Distribution Gaussienne: distribution continue en forme de cloche
$ N(x;\mu,\sigma^2) = \sqrt\frac{1}{2\pi\sigma^2}\exp\bigl(-\frac{1}{2\sigma^2}(x-\mu)^2\bigl) $
Confusing discrete Résumé de la distribution
Chapitre 3: Théorie de l'information
Quantité d'auto-information
Même si des événements fréquents sont observés, ils ne fournissent pas beaucoup d'informations, alors que la quantité d'informations est plus importante pour les événements rares.
Par conséquent, l'inverse de probabilité $ \ frac {1} {P (x)} $ est un candidat pour la définition de la quantité d'information.
Cependant, la quantité d'informations obtenue en observant les deux phénomènes indépendants $ x et y $ n'est pas $ \ frac {1} {P (x) P (y)} $, mais la somme de la quantité d'informations que chacun possède. Puisqu'il s'agit d'une définition plus naturelle, prenez une logarithmique.
Lorsque la base du logarithme est 2, l'unité est le bit.
Lorsque la base du logarithme est le nombre Napier $ e $, l'unité est nat.
Entropie de Shannon (quantité moyenne d'informations)
H(x) = E\bigl(I(x)\bigl) = -E\Bigl(\log\bigl(P(x)\bigl)\Bigl) = -\sum_x P(x)\log\bigl(P(x)\bigl)
Valeur attendue de la quantité d'auto-information (quantité d'auto-information calculée en moyenne pour toutes les valeurs observées.
Divergence Kullback-Leibler
D_{KL}(P||Q) = E_x \Bigl[log\frac{P(x)}{Q(x)}\Bigl] = \sum_x P(x)\bigl(\log{P(x)}-\log{Q(x)}\bigl)
Un index qui montre combien d'informations sont différentes lorsque l'on regarde une nouvelle distribution de $ P $ à partir de la distribution de $ Q .
Divergence généralement KLQAvec une fonction convexe vers le bas surP=QValeur minimale uniquement lorsqueD_{KL}(P||P)=0$devenir.
C'est donc certainement comme la distance entre les distributions,PQuandQFut remplacéD_{KL}(Q||P)Est une valeur différente et est différente de la vraie distance mathématique.
Entropie croisée
H(P,Q) = -E_{X \sim P} \log{Q(x)} = -\sum_xP(x)\log{Q(x)}
Un indice indiquant la distance entre les deux distributions de probabilité en faisant la moyenne de la quantité d'auto-information sur Q avec la distribution de P.
L'entropie d'intersection des distributions de probabilité $ P (x) $ et $ Q (x) $ est la divergence KL de $ Q (x) $ vue à partir de l'entropie de $ P (x) $ et $ P (x) . C'est une combinaison.
$ \begin{align}
H(P,Q) &= -\sum_xP(x)\log{Q(x)} \
&= -\sum_xP(x)\log{\frac{P(x)Q(x)}{P(x)}} \
&= -\sum_xP(x)\bigl(\log{P(x)}+\log{Q(x)}-\log{P(x)}\bigl) \
&= -\sum_xP(x)\log{P(x)} + \sum_xP(x)\bigl(\log{P(x)}-\log{Q(x)}\bigl) \
&= H(P) + D_{KL}(P||Q) \
\end{align} $$