Aperçu

Pour étudier les algorithmes d'apprentissage automatique Quand je lis "Programmation de connaissances de groupe" (ISBN-13: 978-4873113647) Je n'étais pas sûr de ce que faisaient les formules du programme, alors Notez ce que vous avez recherché.

~~ C'était une mathématique lourde, donc si je l'ai lu à la légère, je ne l'aurais peut-être pas suivi ... ~~

J'ai de nouveau étudié les statistiques après un long moment, alors Il peut y avoir de nombreuses erreurs. Je vous serais reconnaissant si vous pouviez le signaler.

Chapitre 6 Filtrage de documents

6.6.2 Intégrer les probabilités

――Cette section est un résumé du jugement de spam par e-mail

En supposant que la probabilité d'être comme du spam est obtenue pour chaque mot-clé (jeton)
À partir de la probabilité de chaque mot-clé, utilisez la méthode Fisher pour calculer s'il s'agit d'un spam lorsqu'il est considéré comme un document entier

Algorithme ⇒ L'auteur a publié sur github. Je laisserai une note des points qui étaient difficiles à comprendre personnellement («(1)» et «(2)» et «(3)» ci-dessous).

  def fisherprob(self,item,cat):
    p=1
    features=self.getfeatures(item)
    for f in features:
      p*=(self.weightedprob(f,cat,self.cprob))
    
    # (1)・ ・ ・ Que calcule le fscore?
    fscore=-2*math.log(p)
    
    return self.invchi2(fscore,len(features)*2)

  # (2)・ ・ ・ Que calcule invchi2?
  def invchi2(self,chi, df):
    # (3)・ ・ ・ La fonction inverse peut-elle être calculée?
    m = chi / 2.0
    sum = term = math.exp(-m)
    for i in range(1, df//2):
        term *= m / i
        sum += term
    return min(sum, 1.0)

(1) Qu'est-ce que «fscore» est calculé? -Selon la méthode de Fisher, multiplier par k Independent p-value (comme la probabilité) et log Si vous prenez ʻet multipliez par -2, vous pouvez calculer la valeur p de la distribution χ-carrée avec le degré de liberté 2k. ―― ~~ Je n'ai pas encore pu suivre la preuve ~~ --Pour p-value`, reportez-vous à Méthode statistique χ-square test.
[Cliquez ici pour plus de détails sur la distribution χ-square](https://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E5% 88% 86% E5% B8% 83)
(2) Que calcule ʻinvchi2`? --Fonction inverse de la fonction de distribution cumulative de la distribution χ-carré
Le test du χ carré trouve souvent la «valeur p» et émet un jugement basé sur le cas où elle est inférieure à «0,05» (la valeur du χ carré est suffisamment élevée), mais le thème de la classification du spam a un score élevé. = Il semble que la fonction inverse soit utilisée pour revenir à la valeur χ-carré (valeur qui suit la distribution χ-carré) car nous voulons en faire du spam. --Argument -- chi ・・・ valeur p ( 0 ≤ chi ≤ 1) --df ・・・ Liberté de distribution χ-carré --Production
Valeur-carré (valeur qui suit la distribution χ-carré). Cependant, il ne dépasse pas «1».
(3) La fonction inverse peut-elle être calculée?
Comme vous pouvez le voir à partir de la fonction de densité cumulative de la distribution χ-carré, la fonction inverse ne peut pas être calculée. --Pour calculer la fonction inverse, [Théorème de la fonction inverse](https://ja.wikipedia.org/wiki/%E9%80%86%E5%87%BD%E6%95%B0%E5%AE% Il semble que 9A% E7% 90% 86) est utilisé pour l'amener dans une équation différentielle, et une série de puissance (comme une équation d'ordre nième) est utilisée pour obtenir une solution approximative. ――Il semble que la méthode de calcul précis de la fonction inverse de la fonction de distribution cumulative soit étudiée chaque jour, il semble donc qu'elle ait été mise en œuvre par un algorithme qui a adopté une méthode de calcul précise. ――Vous pouvez rechercher diverses méthodes en recherchant sur le papier avec des mots-clés tels que «Quantile Chi-Square».
'Le chi carré inversé' n'est pas recommandé car il atteindra quelque chose de similaire et une distribution distribution-carré non inverse.

Mémo d'informations connexes

――La méthode de Fisher est-elle appelée méthode Robinson-Fisher dans les articles japonais?

La méthode Fisher est obtenue à partir de la méthode Robinson.

Comprendre le mémo de la programmation collective des connaissances

Aperçu

Chapitre 6 Filtrage de documents

6.6.2 Intégrer les probabilités

Mémo d'informations connexes