J'ai essayé d'utiliser l'apprentissage automatique, mais pourquoi ce résultat? As-tu déjà pensé? Selon la méthode, les facteurs peuvent être déchiffrés. Cet article utilise Naive Bayes comme thème et présente la «probabilité» des mots dans la classification des documents.
Veuillez vous référer à la confirmation scikit-learn ** Publié sur github **.
La classification des documents est une tâche d'apprentissage basée sur des données de formation (documents) données à l'avance et classant les nouveaux documents dans des catégories données. Lors de l'apprentissage d'un document, il est nécessaire de donner des caractéristiques sur la base de quoi classer. Cette fois, j'expliquerai la méthode pour donner des mots comme traits.
Même en traitant les mots comme une caractéristique d'un document, il existe une méthode d'utilisation de la fréquence d'occurrence. En apprentissage, la fréquence d'occurrence est exprimée comme une probabilité pour chaque catégorie / mot (strictement différente, mais pensez-y comme une probabilité).
Nous confirmerons comment la vraisemblance est liée à la classification en faisant appel au théorème bayésien utilisé dans Naive Bayes.
La discrimination des documents est déterminée par la probabilité qu'un document appartienne à chaque catégorie. Cela signifie que la catégorie avec la probabilité la plus élevée sera le résultat de l'estimation. La probabilité est calculée par le théorème de Bayes, dans lequel la vraisemblance est utilisée.
P(C|Fi) = \frac{P(C)P(Fi|C)}{P(Fi)}\\
(C: catégorie, Fi: ensemble de fonctionnalités ≒ ensemble de mots, c'est-à-dire document)
■ Explication de chaque élément
Supposons que la probabilité de chaque mot dans chaque catégorie soit obtenue à partir du résultat d'apprentissage dans les conditions suivantes.
Si le jeu de fonctionnalités du document que vous souhaitez distinguer est "Ringo Release Mikan", la probabilité P de chaque catégorie(Fi|C)Est calculé comme suit. P(Fi|C)Est le produit de chaque probabilité, mais comme il est logarithmique, il peut être calculé par addition.
IT:
Cette fois, si vous ne regardez que la probabilité, elle sera estimée comme étant la catégorie agricole. Comme mentionné ci-dessus, on peut voir que plus la probabilité de chaque mot est grande, plus la probabilité postérieure est élevée. Dans l'exemple, il y a une grande différence dans la probabilité du mot «Mikan», et on peut voir que cela affecte grandement la discrimination.
Bien que cela dépende de la probabilité a priori, on peut dire que plus la différence de probabilité entre les catégories est grande, plus le classificateur affecte la discrimination.
Vérifions la probabilité avec des données réelles. Nous avons utilisé l'ensemble de données des critiques de films, Movie Data Review, pour classer les critiques positives et négatives. Après l'apprentissage, les 10 premiers mots avec la plus grande différence de probabilité sont les suivants. En plus de la nomenclature appropriée telle que «mulan», des adjectifs tels que «pire» apparaissent.
mot | Négatif | positif | Différence de probabilité(Valeur absolue) |
---|---|---|---|
mulan | -10.83863242 | -9.33020901 | 1.50842341 |
truman | -10.42987203 | -9.000858011 | 1.429014015 |
worst | -8.809010658 | -10.1341868 | 1.325176141 |
shrek | -10.87230098 | -9.598985497 | 1.273315479 |
seagal | -9.529290176 | -10.78823673 | 1.258946555 |
godzilla | -9.264337631 | -10.47190374 | 1.207566113 |
flynt | -10.81220934 | -9.627421483 | 1.184787854 |
lebowski | -10.82237984 | -9.664010458 | 1.158369383 |
waste | -9.193245829 | -10.34277587 | 1.149530044 |
stupid | -8.96333841 | -10.10326246 | 1.139924046 |
Je pense qu'il est raisonnable que la nomenclature appropriée des films populaires, des acteurs, etc. influence la discrimination. Nous avons également constaté que les adjectifs positifs et négatifs influencent également la discrimination. Je pense que vous pouvez être convaincu que ces mots influencent la discrimination.
En vérifiant la probabilité des mots, nous avons pu confirmer quels mots affectaient la discrimination des documents. Ce n'est peut-être pas toujours compréhensible, mais j'ai estimé qu'il était important de confirmer que l'estimation souhaitée avait été faite en confirmant les facteurs.
Pour l'explication de Naive Bays, veuillez vous référer ici. → Classification de texte à l'aide de baies naïves Il était facile de comprendre la différence entre la vraisemblance et la probabilité. → Quelle est la probabilité? Ceci est facile à comprendre à propos des rares résultats de la mise en œuvre. → Structure de données interne de scipy.sparse