Dans cet article, j'écrirai quelque chose comme une norme pour chaque type de données dans le concours Kaggle. De plus, je pense que ce serait bien si cela pouvait être un indice lorsque la précision ne ressort pas quelle que soit la concurrence.
Cette fois, nous aborderons les ensembles de données de compétition suivants. Dans le cas de la concurrence, il n'y a pas de noyau, donc j'irai avec Notebooks ensemble. Predict Future Sales Avocado Prices
Type: retour Résumé: prédisez le nombre de produits vendus le mois prochain à partir du nom du magasin, du nom du produit, etc.
1.1Time series Basics : Exploring traditional TS
Analyse effectuée | résultat |
---|---|
Visualisation de l'histogramme du nombre de caractéristiques | Découvert qu'il y a un biais dans la catégorie |
Graphique des caractéristiques par ordre chronologique | Vous pouvez voir qu'il y a un changement de tendance à chaque saison |
ADF,KPSS,Stationnarité avec PP(Périodicité)vérifier | Périodicitéの有無を知る |
AR, MA,Essayez le modèle ARMA, etc. |
En outre, nous présentons comment aborder la série chronologique hiérarchique, ascendante, descendante et intermédiaire.
Pour le moment, il est important pour les données de séries chronologiques de réduire les hauts et les bas en fonction de la durée de la formule.
Forecasting Hierarchical Time Series using R
Analyse des séries temporelles de mesure avec R: AR, MA, ARMA, ARIMA modèle, prédiction
1.2 Feature engineering, xgboost
Analyse effectuée | résultat |
---|---|
Visualisez les fonctionnalités | J'ai trouvé les données de bruit, donc j'ai interpolé avec d'autres valeurs numériques |
Ingénierie de la quantité de fonctionnalités(La moyenne mensuelle est calculée à partir des ventes quotidiennes, la moyenne des ventes sur une certaine période est ajoutée en tant que montant de fonction, etc.) | Amélioration de la précision |
Prédite par XG Boost |
Les informations sous forme de série chronologique ont été régulièrement incorporées dans la quantité d'entités par l'ingénierie de la quantité d'entités, et la prédiction a été faite par xg boost. Cette ingénierie de quantité de fonctionnalités constante est incroyable ~
J'ai écrit un article sur l'ingénierie de la quantité de fonctionnalités dans le passé, alors veuillez également le consulter. Mémorandum d'ingénierie sur la quantité de fonctionnalités
1.3 A beginner guide for sale data prediction
Analyse effectuée | résultat |
---|---|
Visualisation des fonctionnalités | J'ai décidé de découvrir le modèle de chaque saison et de le réduire au nombre de fonctionnalités |
Prédite par LSTM |
1.4 1st place solution - Part 1 - "Hands on Data"
Analyse effectuée | résultat |
---|---|
Ingénierie de la quantité de fonctionnalités(Groupez les magasins qui n'ont pas vendu depuis plusieurs mois, trouvez des noms de magasins en double, extrayez des catégories de noms et) | Amélioration de la précision |
Comme vous pouvez le voir d'ici Visualisation des données-> Afficher les tendances des données-> Ingénierie des fonctionnalités-> Plongez dans les modèles
La routine est courante.
2.Avocado Prices Ensuite, j'aimerais en présenter un autre à partir de l'ensemble de données de séries chronologiques. De là, nous nous concentrerons sur la méthode utilisée.
Type: régression et classification Résumé: Données sur les ventes passées d'avocat
La visualisation de ce noyau est trop belle et détaillée. Impressionné.
Méthode utilisée |
---|
Smoothing Moving Average |
Seasonal Naive Method |
Drift Method |
ARIMA |
2.2 Explore avocados from all sides! Ceci est également très bien visualisé. Il s'agit d'un problème de classification de l'avocat biologique ou non.
Méthode utilisée |
---|
logistic regression |
RandomForest |
KNeighborsClassifier |
2.3 Predicting prices of avocados
Les outils utilisés |
---|
prophet |
2.4 EDA + Lasso Ceci est également inclus dans le problème de classification.
Méthode utilisée |
---|
DecisionTree |
RandomForest |
KNeighbours |
SVM |
AdaBoostClassifier |
GradientBoostingClassifier |
Xgboost |
Lasso |
Ridge |
Bayesian Ridge |
ElasticNet |
HuberRegressor |
L'ingénierie et la visualisation de la quantité de fonctionnalités sont importantes!
Liste des méthodes d'apprentissage automatique typiques
Recommended Posts