Immédiatement, j'ai essayé d'utiliser la bibliothèque d'apprentissage automatique PyCaret publiée l'autre jour. J'ai réalisé que n'importe qui peut facilement modéliser. C'était vraiment facile! Vous pouvez régler et prédire à partir du prétraitement sans écrire 10 lignes de code! Il y a de nombreuses parties que je n'ai pas encore appréhendées, comme les arguments, mais j'ai décidé d'écrire d'abord l'article PyCaret. Si vous remarquez quelque chose, veuillez commenter.
Exécutez le code ci-dessous pour l'installer. C'était une sensation, mais cela n'a pris que quelques minutes. Quand je l'ai installé localement, j'ai eu une erreur, alors j'ai abandonné une fois.
! pip install pycaret
Cette fois, nous utiliserons les données de Boston. Vous pouvez obtenir les données avec le code suivant.
from pycaret.datasets import get_data
boston_data = get_data('boston')
Effectuez un prétraitement.
Les données et les variables cibles sont définies et initialisées dans setup ().
Cette fois, nous allons résoudre le problème de régression, nous avons donc spécifié pycaret.regression
.
Pour les problèmes de classification, spécifiez «pycaret.classification».
Vous pouvez également effectuer des tâches telles que le traitement du langage naturel et la mise en cluster.
setup () gère les valeurs manquantes, l'encodage des données catégorisées, train-test-split, etc. Pour plus d'informations, voir ici.
from pycaret.regression import *
exp1 = setup(boston_data, target = 'medv')
Exécutez-le pour terminer la configuration.
Comparons et sélectionnons des modèles. Vous pouvez comparer les modèles sur une seule ligne ci-dessous. Cela a pris quelques minutes. Il est pratique de vérifier l'index d'évaluation dans une liste! Par défaut, le pli k est divisé en 10 parties. Avec l'argument, vous pouvez spécifier le nombre de plis et l'index à trier. (L'exécution est effectuée par défaut.)
compare_models()
Cliquez ici pour les résultats d'exécution
Sélectionnez un modèle et modélisez-le. Cette fois, j'utilise Random Forest. (Je me sens complètement.) Cette fonction renvoie une table contenant des scores pliés en k et des objets de modèle entraînés. Vous pouvez également consulter la carte SD, ce qui est très pratique!
rf = create_model('rf')
En spécifiant une période après l'objet formé, vous pouvez vérifier comme suit.
Le réglage peut également être effectué sur une seule ligne.
tuned_rf = tune_model('rf')
Vous pouvez obtenir les paramètres ci-dessous.
tuned_rf.get_params
Visualisons la précision du modèle. Le tracé de la régression est illustré ci-dessous, mais pour les problèmes de classification, vous pouvez choisir la sortie en fonction de la métrique. Je regrette d'avoir choisi ici le problème de classification car il existe de nombreuses variantes de visualisation du problème de classification. .. ..
plot_model(tuned_rf)
Le modèle est interprété à l'aide de SHAP. Vérifiez SHAP git pour savoir comment lire le graphique et comment interpréter le modèle.
interpret_model(tuned_rf)
La prédiction des données de test est écrite comme suit. Le résultat de l'exécution renvoie le résultat prévu pour 30% des données de test train-test-split par setup ().
rf_holdout_pred = predict_model(rf)
Lorsque vous faites des prédictions pour de nouvelles données, transmettez l'ensemble de données en tant qu'argument aux données.
predictions = predict_model(rf, data=boston_data)
Le résultat de la prédiction est ajouté à l'extrême droite.
Jusqu'à la fin Merci d'avoir lu.
Recommended Posts