Bonjour, c'est de l'eau Sumiyama.
Je pense commencer par une série, et je vais essayer de la mettre ensemble dans Qiita tout en passant en revue le regroupement que j'avais l'habitude de faire dans le passé.
Tout d'abord, je voudrais expliquer (mon avis par le nom) la "méthode de moyenne k", qui est à la base de la classification des données appelée data mining ou clustering, tout en l'implémentant progressivement en Java en plusieurs fois. ..
Dans ce 0ème volet, je parlerai de l'introduction et des hypothèses pour le moment. Je me demande si l'explication spécifique sera de la prochaine fois.
Dans cette série, je n'aborderai pas l'explication des types de "data mining" et de "clustering" qui sont trop appropriés, et l'explication de leurs utilisations, mais le but est d'implémenter la méthode appelée méthode de moyennage k jusqu'à la fin.
L'idée est que vous pouvez avoir une idée de l'atmosphère en bougeant vos mains plutôt qu'en augmentant vos connaissances en classe.
Le but est d'avoir une idée de l'atmosphère en bougeant vos mains, je vais donc l'implémenter moi-même sans utiliser une bibliothèque d'analyse existante.
De plus, je connaissais ce domaine il y a plus de 10 ans et je ne l'ai pas rattrapé depuis, alors sachez que les informations sont périmées.
Je parlerai en supposant que j'ai une certaine connaissance de la langue. De plus, j'ai un motif mixte de vouloir toucher Spring Boot, que j'utilise récemment au travail, même en privé, donc je vais continuer sur la base de Spring Boot.
Même ainsi, je n'écris pas de logique métier, donc je ne pense pas qu'on parlera beaucoup de Spring Boot. Je pense qu'il sera écrit presque en Java lui-même. Même si vous utilisez l'annotation sans préface, c'est une histoire que vous ne devriez pas pardonner.
En supposant que la logique détaillée sera activée à partir de la prochaine fois, c'est très approximatif.
Des données comme celle-ci
Il peut être classé comme ceci.
Dans la figure, j'ai mis X et Y de manière appropriée, mais je pense que ce serait bien que les gens imaginent "le prix d'achat et le fuseau horaire d'un certain utilisateur de dépanneur".
Eh bien, en réalité, il n'y a pas de données qui sont collectées si proprement, mais même ainsi, si vous regardez ce nombre d'échantillons avec l'œil humain, même si cela ressemble à un groupe, c'est une technique pour laisser l'ordinateur discriminer sans aucune information préalable. Est nécessaire.
Si la quantité de données augmente ou si l'axe n'est pas XY, vous devez utiliser la puissance d'un ordinateur.
Cette fois, j'ai brièvement parlé de la prémisse et de ce qui peut être fait.
A partir de la prochaine fois, j'aimerais l'implémenter tout en expliquant réellement les parties nécessaires à la logique de classification.
Recommended Posts