Importance de l'apprentissage automatique et de l'apprentissage par mini-lots
introduction
Ceci est une note sur l'apprentissage par mini-lots dans l'apprentissage automatique. Il sert également d'explication intuitive de l'apprentissage automatique.
Qu'est-ce que l'apprentissage automatique?
L'apprentissage automatique est un dispositif informatique qui extrait automatiquement les règles censées être inhérentes à une donnée donnée. Autrement dit, lorsque la sortie $ \ boldsymbol {t} $ est déjà obtenue pour un certain ensemble d'entrées $ \ boldsymbol {x} $, un nouvel ensemble d'entrées $ \ est extrait en extrayant les règles qui y existent. Attendez-vous à $ \ boldsymbol {t} ^ {\ prime} $ correspondant au boldsymbol {x} ^ {\ prime} .
cette**Règles**Ce qui sera(Poids appelé)Généralement une matriceWEnsuite, l'histoire ci-dessus est le résultat de l'apprentissage automatique\boldsymbol{y}(Idéalement\boldsymbol{t}Devrait correspondre)À$ \boldsymbol{y} = W \boldsymbol{x}\tag{1}$Quand\boldsymbol{y}Quand\boldsymbol{t}Fonction de perte obtenue à partir de$ L = \frac{1}{2}||\boldsymbol{y}(\boldsymbol{x},W)-\boldsymbol{t}||^{2}\tag{2}$À可能な限り小さくするようなW$À求めるQuandいうこQuandに置き換えられます。
Big data et apprentissage par mini-lots
Maintenant, supposons que vous récupériez le big data $ (\ boldsymbol {x} \ _ {n}, \ boldsymbol {t} \ _ {n}) $ ($ n = 1,2, \ cdots, N $) $ N $ est assez grand). Extrayez le poids $ W $ de ceci et prédisez la sortie $ \ boldsymbol {t} ^ {\ prime} $ appropriée pour l'entrée $ \ boldsymbol {x} \ ^ {\ prime} $ dont la sortie est inconnue. Par conséquent, l'erreur de somme des carrés pour tout $ \ boldsymbol {x} \ _ {n} $
$\frac{1}{N} \sum_{n=1}^{N}\|\|\boldsymbol{y}\_{n}(\boldsymbol{x}\_{n},W)-\boldsymbol{t}_{n} \|\|^{2} \tag{3}Aime minimiserW$Demander. Par exemple, il existe des méthodes telles que la méthode de descente de gradient.
L'ampleur du big data à laquelle nous sommes confrontésN(\gg 1)Donc même si c'est un ordinateurWCherchern=1DeNCe n'est pas une méthode judicieuse car la quantité de calcul sera énorme si le calcul différentiel est fait honnêtement. DoncNDeM (\ll N)Une seule donnée est extraite au hasard et contre cela$ \frac{1}{M} \sum_{m=1}^{M}\|\|\boldsymbol{y}\_{m}(\boldsymbol{x}\_{m},W)-\boldsymbol{t}_{m} \|\|^{2} \tag{4}En minimisant(3)Extrêmement efficace en ce qui concerne la méthode deWPeut être déterminé. Obtenu de cette manièreW$は、与えられた全てのデータDe求まったわけではありませんが、もとのデータのもつ規則の良い近似となっていることが多いです。このような学習手法をミニバッチ学習と呼びます。
- Apprendre signifie déterminer $ W $. La mise en œuvre spécifique est la suivante.