Dans cet article, j'écrirai quelque chose comme une norme pour chaque type de données dans le concours Kaggle. De plus, je pense que ce serait bien si cela pouvait être un indice lorsque la précision ne ressort pas quelle que soit la concurrence.

alt

Cette fois, nous aborderons les ensembles de données de compétition suivants. Dans le cas de la concurrence, il n'y a pas de noyau, donc j'irai avec Notebooks ensemble. Predict Future Sales Avocado Prices

Type: retour Résumé: prédisez le nombre de produits vendus le mois prochain à partir du nom du magasin, du nom du produit, etc.

1.1Time series Basics : Exploring traditional TS

Analyse effectuée	résultat
Visualisation de l'histogramme du nombre de caractéristiques	Découvert qu'il y a un biais dans la catégorie
Graphique des caractéristiques par ordre chronologique	Vous pouvez voir qu'il y a un changement de tendance à chaque saison
ADF,KPSS,Stationnarité avec PP(Périodicité)vérifier	Périodicitéの有無を知る
AR, MA,Essayez le modèle ARMA, etc.

En outre, nous présentons comment aborder la série chronologique hiérarchique, ascendante, descendante et intermédiaire.

Pour le moment, il est important pour les données de séries chronologiques de réduire les hauts et les bas en fonction de la durée de la formule.

Relation

Forecasting Hierarchical Time Series using R

Analyse des séries temporelles de mesure avec R: AR, MA, ARMA, ARIMA modèle, prédiction

1.2 Feature engineering, xgboost

Analyse effectuée	résultat
Visualisez les fonctionnalités	J'ai trouvé les données de bruit, donc j'ai interpolé avec d'autres valeurs numériques
Ingénierie de la quantité de fonctionnalités(La moyenne mensuelle est calculée à partir des ventes quotidiennes, la moyenne des ventes sur une certaine période est ajoutée en tant que montant de fonction, etc.)	Amélioration de la précision
Prédite par XG Boost

Les informations sous forme de série chronologique ont été régulièrement incorporées dans la quantité d'entités par l'ingénierie de la quantité d'entités, et la prédiction a été faite par xg boost. Cette ingénierie de quantité de fonctionnalités constante est incroyable ~

Relation

J'ai écrit un article sur l'ingénierie de la quantité de fonctionnalités dans le passé, alors veuillez également le consulter. Mémorandum d'ingénierie sur la quantité de fonctionnalités

1.3 A beginner guide for sale data prediction

Analyse effectuée	résultat
Visualisation des fonctionnalités	J'ai décidé de découvrir le modèle de chaque saison et de le réduire au nombre de fonctionnalités
Prédite par LSTM

1.4 1st place solution - Part 1 - "Hands on Data"

Analyse effectuée	résultat
Ingénierie de la quantité de fonctionnalités(Groupez les magasins qui n'ont pas vendu depuis plusieurs mois, trouvez des noms de magasins en double, extrayez des catégories de noms et)	Amélioration de la précision

Résumé

Comme vous pouvez le voir d'ici Visualisation des données-> Afficher les tendances des données-> Ingénierie des fonctionnalités-> Plongez dans les modèles

La routine est courante.

2.Avocado Prices Ensuite, j'aimerais en présenter un autre à partir de l'ensemble de données de séries chronologiques. De là, nous nous concentrerons sur la méthode utilisée.

Type: régression et classification Résumé: Données sur les ventes passées d'avocat

2.1 Price of Avocados || Pattern Recognition Analysis

La visualisation de ce noyau est trop belle et détaillée. Impressionné.

Méthode utilisée
Smoothing Moving Average
Seasonal Naive Method
Drift Method
ARIMA

2.2 Explore avocados from all sides! Ceci est également très bien visualisé. Il s'agit d'un problème de classification de l'avocat biologique ou non.

Méthode utilisée
logistic regression
RandomForest
KNeighborsClassifier

2.3 Predicting prices of avocados

Les outils utilisés
prophet

2.4 EDA + Lasso Ceci est également inclus dans le problème de classification.

Méthode utilisée
DecisionTree
RandomForest
KNeighbours
SVM
AdaBoostClassifier
GradientBoostingClassifier
Xgboost
Lasso
Ridge
Bayesian Ridge
ElasticNet
HuberRegressor

Résumé

L'ingénierie et la visualisation de la quantité de fonctionnalités sont importantes! alt

Lien

Liste des méthodes d'apprentissage automatique typiques

Résumé de la méthode Kaggle's Kernel [Table time series data]

Relation

Relation

Résumé

2.1 Price of Avocados || Pattern Recognition Analysis

Résumé

Lien