Ceci est un mémo pour moi pendant que je lis Introduction aux applications de traitement du langage naturel en 15 étapes. Cette fois, au chapitre 2, étape 07, j'écrirai mes propres points.
Le surajustement du classificateur aux données d'entraînement dû à l'entraînement est appelé ** surapprentissage **.
Si le vecteur de caractéristiques inclus dans les données d'apprentissage peut être identifié à 100%, ce sera une surface d'identification fine afin que même le bruit qui peut être ignoré puisse être correctement identifié. Être capable de faire des prédictions stables pour des données autres que les données d'entraînement est appelé ** généralisation **.
Si les mêmes données sont utilisées pour la formation et l'évaluation, le système sur-appris sera hautement évalué, donc ** les données de test pour l'évaluation doivent être évaluées en utilisant quelque chose de différent des données de formation **. (Peu importe la qualité des données d'entraînement, cela n'a pas beaucoup de sens, et vous devez vous assurer que vous n'avez pas surentraîné.)
article | Contenu |
---|---|
Précision (taux de réponse correct) | Rapport entre les données de test correctes et toutes les données de test |
Précision | Pourcentage de données de test correctes parmi les données de test prévues pour la classe cible |
Rappel | Pourcentage de prédictions correctes des données de test pour la classe cible |
Valeur F | Un index montrant l'équilibre entre précision et rappel |
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
accuracy_score(y_true, y_pred)
precision_score(y_true, y_pred)
recall_score(y_true, y_pred)
f1_score(y_true, y_pred, average='macro')
, vous pouvez calculer la moyenne macro
= 'macro'et la moyenne micro
=' micro'`.
--Précision et rappel sont dans une relation de compromisarticle | Contenu |
---|---|
Limite inférieure de précision | La limite inférieure de précision est le cas de la prédiction sans deviner. |
Nombre de classes de classification | Le niveau de difficulté de la classification multi-classes étant naturellement plus élevé que celui de la classification à 2 classes, l'indice d'évaluation a des valeurs différentes selon l'application. |
Type de données de test | Lors de l'évaluation de différents systèmes les uns par rapport aux autres, les mêmes données de test doivent être utilisées. |
Biais dans le nombre de données | Il est souhaitable que les données de test incluent les données de chaque classe aussi uniformément que possible. |
Recommended Posts