En lisant le document officiel de NLTK (Natural Language Toolkit), j'ai essayé d'extraire les mots qui sont souvent utilisés dans le document. Pour le moment, j'ai essayé d'afficher les mots-clés avec une fréquence élevée à partir des exemples de données dans l'ordre du haut, je vais donc le laisser dans le mémo.
Comme vous êtes habitué à faire d'autres bibliothèques, commencez par installer pip.
$ pip install nltk
Le déroulement général est le suivant: 1) Après avoir téléchargé les fonctions de division et d'acquisition de parties, 2) lecture du texte d'exemple, conversion du texte lu en division et 3) acquisition des parties, puis de la nomenclature. Enfin, 4) n'affichez que les trois mots les plus utilisés.
nltk_test.py
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
Après avoir importé nltk, téléchargez la fonction qui divise et sépare les parties du fichier officiel. Une fois téléchargé dans l'environnement, il n'est plus nécessaire de télécharger par la suite. Lorsque j'essaye de le télécharger, j'obtiens une alerte du type "Package punkt est déjà à jour!".
nltk_test.py
raw = open('sample.txt').read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)
tokens_l = [w.lower() for w in tokens]
Préparez à l'avance des essais en anglais et de longues phrases. (Sample.txt) Après avoir lu ceci, convertissez-le en écriture séparée avec word_tokenize ()
. Après cela, afin de leur faire reconnaître la même chose s'il y a une différence entre les minuscules et les majuscules, toutes les lettres minuscules sont utilisées pour reconnaître la même chose comme la même chose.
nltk_test.py
only_nn = [x for (x,y) in pos if y in ('NN')]
freq = nltk.FreqDist(only_nn)
Seuls les mots de partie correspondant à NN (nom) sont extraits et la distribution de fréquence est calculée à l'aide de «FreDist» pour compter le nombre d'occurrences fréquentes.
nltk_test.py
print(freq.most_common(3))
L'affichage est complété à l'aide de la fonction most_common ()
qui compte le nombre d'occurrences de Python et l'affiche au plus.