Tout d'abord, comprenez le flux global de l'analyse des données. Le processus d'analyse des données comprend les éléments suivants, qui ont été proposés comme processus standard.
Dans CRISP-DM (CRoss Industry Standard Process for Data Mining) préconisé par Shearer et al. Nous préconisons le processus illustré dans la figure suivante.
Dans ce processus
(1) Clarifier les problèmes commerciaux grâce à la compréhension des affaires et planifier un projet d'analyse de données. (2) Comprendre les données actuelles en acquérant les données en comprenant les données et en confirmant que les données sont prêtes pour l'analyse. (3) Lors de la préparation des données, formatez les données dans le format requis pour la modélisation ultérieure. (4) 5. Évaluer les résultats d'analyse obtenus par modélisation et, si des résultats suffisants sont obtenus, 6. appliquer les résultats d'analyse à l'entreprise. Comme le montre la figure, ces processus ne sont pas à sens unique, mais vont et viennent entre les processus précédent et suivant selon les besoins.
Le prétraitement appris ici
CRISP-En DM, cela correspond à la compréhension et à la préparation des données.
KDD sera expliqué dans la section suivante.
Par rapport à CRISP-DM, qui prend en compte l'ensemble du projet d'analyse de données en entreprise KDD (Knowledge Discovery in Databases) préconisé par Fayyad et al. Nous nous concentrons davantage sur la partie analyse des données. Le schéma du processus KDD est le suivant.
Recommended Posts