Aidemy 2020/10/28
Bonjour, c'est Yope! Je suis une école littéraire croustillante, mais j'étais intéressé par les possibilités de l'IA, alors je suis allé à l'école spécialisée en IA "Aidemy" pour étudier. Je voudrais partager les connaissances acquises ici avec vous, et je les ai résumées dans Qiita. Je suis très heureux que de nombreuses personnes aient lu l'article de synthèse précédent. Merci! Cette fois, ce sera un poste d'apprentissage non supervisé. Ravi de vous rencontrer.
Quoi apprendre cette fois ・ À propos de l'apprentissage sans enseignant ・ Types d'apprentissage non supervisé ・ Connaissances mathématiques préalables
-Dans l'apprentissage supervisé, l'apprentissage est effectué en donnant une «réponse» appelée étiquette de classe, mais dans l'apprentissage non supervisé, cette réponse n'est pas acceptée et l'ordinateur lui-même juge et apprend. ・ Cette fois, nous en apprendrons davantage sur __ "clustering" __ et __ "analyse en composantes principales" __ dans cet apprentissage non supervisé.
-Le clustering est une méthode __ qui divise __data en morceaux (clusters). -Une méthode de regroupement __ "méthode k-means" __ est que __ personnes décident du nombre de groupes __ et l'ordinateur divise les données de sorte que le nombre soit le même. -Dans la méthode k-means, l'apprentissage est effectué de sorte que la position d'un point appelé "centre de gravité" soit appropriée, et le regroupement est effectué sur cette base.
-L'analyse des composants principaux est une méthode __ qui réduit les dimensions des données __ (réduction des dimensions) et regroupe les informations dans un graphique. -Dans l'analyse des composants principaux, l'axe (composant principal) qui indique particulièrement les caractéristiques des données est appris et déterminé. -Par exemple, un axe est défini à partir de trois données différentes «âge, taille et poids» et représenté dans un graphique bidimensionnel sous la forme de «données personnelles».
・ La distance de coordonnées entre deux points (x1, x2) et (y1, y2) dans l'espace bidimensionnel est
・ Vous pouvez trouver la distance euclidienne avec NumPy comme suit. (__np.linalg.norm () __ signifie "somme des carrés entre ()")
-Lors de l'évaluation de la similitude de deux vecteurs, il est jugé d'après la similitude entre __ "longueur" et "direction" .
・ En se concentrant sur la direction, on peut dire que plus l'angle __ "θ" __ créé par les deux vecteurs est petit, plus la similitude est élevée.
・ En tant que méthode d'obtention de θ, la formule du produit interne des vecteurs
-Dans le code, il peut être calculé par NumPy. (__np.dot () __ représente "la somme des produits de chaque élément" (1 * 2 + 2 * 3 + 3 * 4 dans ce qui suit))
・ Apprentissage sans enseignant __ est une méthode dans laquelle l'ordinateur lui-même juge et apprend sans passer l'étiquette de réponse correcte. -Il y a " clustering " et " analyse des composants principaux " pour l'apprentissage non supervisé. Le premier est une méthode de division des données en grappes, et le second est une méthode d'agrégation d'informations dans un graphique en réduisant les dimensions. -Dans un apprentissage non supervisé, la similitude des données peut être jugée par « distance euclidienne (norme) » ou « similitude cosinus __».
Cette fois, c'est fini. Merci d'avoir lu jusqu'à la fin.
Recommended Posts