Hallo, das ist Sumiyama Wasser.
Ich denke darüber nach, mit einer Reihe von Produkten zu beginnen, und während ich das Clustering überprüfe, das ich in der Vergangenheit durchgeführt habe, werde ich auch versuchen, es in Qiita zusammenzustellen.
Zunächst möchte ich (meine Überprüfung mit dem Namen) die "k-Mittelungsmethode" erläutern, die die Grundlage für die Datenklassifizierung bildet, die als Data Mining oder Clustering bezeichnet wird, und sie schrittweise in Java implementieren. ..
In diesem 0. Teil werde ich vorerst über die Einführung und die Annahmen sprechen. Ich frage mich, ob die spezifische Erklärung vom nächsten Mal sein wird.
In dieser Reihe werde ich nicht auf die Erklärung der zu geeigneten Arten von "Data Mining" und "Clustering" und die Erklärung ihrer Verwendung eingehen, sondern den Zweck, die als k-Averaging-Methode bezeichnete Methode bis zum Ende zu implementieren.
Die Idee ist, dass Sie ein Gefühl für die Atmosphäre bekommen können, indem Sie Ihre Hände bewegen, anstatt Ihr Wissen im Klassenzimmer zu erweitern.
Der Zweck ist es, ein Gefühl für die Atmosphäre zu bekommen, indem Sie Ihre Hände bewegen, damit ich es selbst implementieren kann, ohne eine vorhandene Analysebibliothek zu verwenden.
Außerdem wusste ich vor mehr als 10 Jahren über dieses Gebiet Bescheid und habe seitdem nicht mehr aufgeholt. Bitte beachten Sie, dass die Informationen nicht mehr aktuell sind.
Ich gehe davon aus, dass ich einige Sprachkenntnisse habe. Außerdem habe ich ein gemischtes Motiv, Spring Boot berühren zu wollen, das ich kürzlich bei der Arbeit verwendet habe, auch privat, also werde ich basierend auf Spring Boot fortfahren.
Trotzdem schreibe ich keine Geschäftslogik, daher denke ich nicht, dass viel über Spring Boot gesprochen wird. Ich denke, es wird fast in Java selbst geschrieben. Selbst wenn Sie die Anmerkung ohne Vorwort verwenden, sollten Sie diese Geschichte nicht verzeihen.
Unter der Annahme, dass die detaillierte Logik ab dem nächsten Mal aktiviert wird, ist sie sehr grob.
Daten wie diese
Es kann so kategorisiert werden.
In der Abbildung habe ich X und Y entsprechend eingefügt, aber ich denke, es wäre schön, wenn sich die Leute "den Kaufpreis und die Zeitzone eines bestimmten Convenience-Store-Benutzers" vorstellen würden.
Nun, in Wirklichkeit gibt es keine Daten, die so ordentlich gesammelt werden, aber selbst wenn Sie diese Anzahl von Proben mit dem menschlichen Auge betrachten, selbst wenn es wie eine Gruppe aussieht, ist es eine Technik, den Computer ohne vorherige Informationen unterscheiden zu lassen. Ist notwendig.
Wenn die Datenmenge zunimmt oder die Achse nicht XY ist, müssen Sie die Leistung eines Computers nutzen.
Dieses Mal sprach ich kurz über die Prämisse und was getan werden kann.
Ab dem nächsten Mal möchte ich es implementieren und gleichzeitig die Teile erläutern, die tatsächlich für die Klassifizierungslogik benötigt werden.
Recommended Posts