Contenu

Ceci est un mémo pour moi pendant que je lis Introduction aux applications de traitement du langage naturel en 15 étapes. Cette fois, au chapitre 2, étape 07, j'écrirai mes propres points.

Préparation

MacPC personnel: MacOS Mojave version 10.14.6 --docker version: Version 19.03.2 pour le client et le serveur

Aperçu des chapitres

Évaluer quantitativement la précision de prédiction du système d'apprentissage automatique avec divers indicateurs
Lorsque vous apportez des améliorations à un système existant, vous pouvez garantir qu'il n'y a pas de dégradation des performances par évaluation et vous pouvez mettre à jour le système en toute confiance.
Comprendre le surapprentissage et l'empêcher de se produire

07.1 Données d'entraînement et de test, et surentraînement et généralisation

Le surajustement du classificateur aux données d'entraînement dû à l'entraînement est appelé ** surapprentissage **.

Si le vecteur de caractéristiques inclus dans les données d'apprentissage peut être identifié à 100%, ce sera une surface d'identification fine afin que même le bruit qui peut être ignoré puisse être correctement identifié. Être capable de faire des prédictions stables pour des données autres que les données d'entraînement est appelé ** généralisation **.

Si les mêmes données sont utilisées pour la formation et l'évaluation, le système sur-appris sera hautement évalué, donc ** les données de test pour l'évaluation doivent être évaluées en utilisant quelque chose de différent des données de formation **. (Peu importe la qualité des données d'entraînement, cela n'a pas beaucoup de sens, et vous devez vous assurer que vous n'avez pas surentraîné.)

07.2 Index d'évaluation

article	Contenu
Précision (taux de réponse correct)	Rapport entre les données de test correctes et toutes les données de test
Précision	Pourcentage de données de test correctes parmi les données de test prévues pour la classe cible
Rappel	Pourcentage de prédictions correctes des données de test pour la classe cible
Valeur F	Un index montrant l'équilibre entre précision et rappel

la mise en oeuvre

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

accuracy_score(y_true, y_pred)
precision_score(y_true, y_pred)
recall_score(y_true, y_pred)
f1_score(y_true, y_pred, average='macro')

En spécifiant ʻaverage, vous pouvez calculer la moyenne macro = 'macro'et la moyenne micro=' micro'`. --Précision et rappel sont dans une relation de compromis

07.3 Précautions pour l'évaluation

article	Contenu
Limite inférieure de précision	La limite inférieure de précision est le cas de la prédiction sans deviner.
Nombre de classes de classification	Le niveau de difficulté de la classification multi-classes étant naturellement plus élevé que celui de la classification à 2 classes, l'indice d'évaluation a des valeurs différentes selon l'application.
Type de données de test	Lors de l'évaluation de différents systèmes les uns par rapport aux autres, les mêmes données de test doivent être utilisées.
Biais dans le nombre de données	Il est souhaitable que les données de test incluent les données de chaque classe aussi uniformément que possible.

Essayez le livre «Introduction au développement d'applications de traitement du langage naturel en 15 étapes» - Chapitre 2 Étape 07 Mémo «Évaluation»