J'ai essayé PyCaret2.0 (pycaret-nightly)
introduction
Comment essayer
pip install pycaret-nightly
- pip pour essayer la version 2.0.0.
essayer
Prétraitement des données déséquilibrées
- v2 ajoute un prétraitement pour les données déséquilibrées (seulement quelques positives et négatives) dans la classification binaire.
- La méthode de spécification est simple, spécifiez ** fix_imbalance = True ** dans l'argument lors de la configuration.
from pycaret.classification import *
exp1 = setup(
data,
target = 'default',
fix_imbalance=True #Ajouter cette ligne
)
- Cette spécification prétraite les données déséquilibrées.
Prétraitement effectué (SMOTE)
Autre prétraitement
- Comme mentionné dans l'article d'ouverture, il semble qu'il prenne également en charge ** ADASYN ** et ** Random Over Sampler **.
- En interne, en v2 (version Nightly build), dans Dependent Library, déséquilibré- learn a été ajouté.
- La docstring a également la description suivante.
fix_imbalance_method: obj, default = None
When fix_imbalance is set to True and fix_imbalance_method is None, 'smote' is applied
by default to oversample minority class during cross validation. This parameter
accepts any module from 'imblearn' that supports 'fit_resample' method.
Comment spécifier un autre prétraitement
- Je voudrais spécifier la classe imblearn comme indiqué dans la docstring ci-dessus.
- Importez et spécifiez l'algorithme de sur-échantillonnage spécifié à partir de imblearn.over_sampling.
from pycaret.classification import *
from imblearn.over_sampling import ADASYN, BorderlineSMOTE, KMeansSMOTE, RandomOverSampler, SMOTE, SMOTENC, SVMSMOTE
exp1 = setup(
data,
target = 'default',
fix_imbalance=True,
fix_imbalance_method=ADASYN() #Spécifié sur cette ligne
)
Algorithme spécifié
Ingéniosité affichée lors de l'évaluation d'un modèle
- Le MCC (Matthews Correlation Coefficient) a été ajouté à la liste de précision avec la mise en œuvre du prétraitement pour les données déséquilibrées.
- Si une classe minoritaire est utilisée comme exemple positif, la mesure F est bien, mais même dans les situations où une telle considération n'est pas prise, le MCC est bon car il peut évaluer correctement la précision d'apprentissage pour des données déséquilibrées.
- Pour la relation entre F-mesure et MCC au moment des données déséquilibrées, ce blog sera utile, alors liez-le. Je le ferai.
finalement
- Cette fois, nous avons introduit la correspondance avec les données de déséquilibre v2.
- En plus de cela, il semble que le support de mlflow soit prévu, et j'attends avec impatience la sortie officielle de la v2.
- Ceci est un article approximatif, mais merci de rester avec nous jusqu'à la fin.