Essayez d'extraire des mots à haute fréquence en utilisant NLTK (python)

En lisant le document officiel de NLTK (Natural Language Toolkit), j'ai essayé d'extraire les mots qui sont souvent utilisés dans le document. Pour le moment, j'ai essayé d'afficher les mots-clés avec une fréquence élevée à partir des exemples de données dans l'ordre du haut, je vais donc le laisser dans le mémo.

Environnement de développement

Installation de NLTK

Comme vous êtes habitué à faire d'autres bibliothèques, commencez par installer pip.

$ pip install nltk

Extraire des mots à haute fréquence

Le déroulement général est le suivant: 1) Après avoir téléchargé les fonctions de division et d'acquisition de parties, 2) lecture du texte d'exemple, conversion du texte lu en division et 3) acquisition des parties, puis de la nomenclature. Enfin, 4) n'affichez que les trois mots les plus utilisés.

Téléchargez les fonctionnalités requises

nltk_test.py


import nltk

nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

Après avoir importé nltk, téléchargez la fonction qui divise et sépare les parties du fichier officiel. Une fois téléchargé dans l'environnement, il n'est plus nécessaire de télécharger par la suite. Lorsque j'essaye de le télécharger, j'obtiens une alerte du type "Package punkt est déjà à jour!".

Obtenez un exemple de texte et convertissez-le en fractionnement

nltk_test.py


raw = open('sample.txt').read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)

tokens_l = [w.lower() for w in tokens]

Préparez à l'avance des essais en anglais et de longues phrases. (Sample.txt) Après avoir lu ceci, convertissez-le en écriture séparée avec word_tokenize (). Après cela, afin de leur faire reconnaître la même chose s'il y a une différence entre les minuscules et les majuscules, toutes les lettres minuscules sont utilisées pour reconnaître la même chose comme la même chose.

Extraire uniquement la nomenclature après avoir obtenu des mots partiels

nltk_test.py


only_nn = [x for (x,y) in pos if y in ('NN')]

freq = nltk.FreqDist(only_nn)

Seuls les mots de partie correspondant à NN (nom) sont extraits et la distribution de fréquence est calculée à l'aide de «FreDist» pour compter le nombre d'occurrences fréquentes.

Afficher le top 3

nltk_test.py


print(freq.most_common(3))

L'affichage est complété à l'aide de la fonction most_common () qui compte le nombre d'occurrences de Python et l'affiche au plus.

Recommended Posts

Essayez d'extraire des mots à haute fréquence en utilisant NLTK (python)
Essayez d'utiliser Excel en utilisant Python (Xlwings)
Essayez d'utiliser Tweepy [Python2.7]
(Python) Essayez de développer une application Web en utilisant Django
[Python] Essayez d'utiliser le canevas de Tkinter
Essayez de comprendre Python soi
Essayez d'utiliser Kubernetes Client -Python-
Commencez à Selenium en utilisant python
Essayez de le faire avec GUI, PyQt en Python
Essayez d'exploiter un fichier Excel en utilisant Python (Pandas / XlsxWriter) ②
Comment installer Python à l'aide d'Anaconda
Essayez d'exploiter Facebook avec Python
Essayez d'utiliser l'API de Pleasant (python / FastAPI)
Essayez d'extraire une chaîne de caractères d'une image avec Python3
Essayez d'utiliser LevelDB avec Python (plyvel)
Essayez d'utiliser pynag pour configurer Nagios
Essayez d'analyser le mahjong familial en ligne à l'aide de Python (PARTIE 1: Prendre des données)
Essayez de calculer Trace en Python
Essayez de convertir la CLI cloudmonkey en python3 -1
Essayez de vous connecter automatiquement à Netflix en utilisant python sur votre PC
Essayez d'obtenir des statistiques en utilisant e-Stat
Extraire le fichier targz en utilisant python
Essayez d'utiliser l'API d'action de Python argparse
Essayez de créer un logiciel de capture aussi précis que possible avec python (1)
Essayez d'utiliser le module Python Cmd
Essayez la simulation de contrôle de fréquence avec Python
Essayez d'utiliser LeapMotion avec Python
Essayez d'utiliser Amazon DynamoDB à partir de Python
Essayez d'utiliser le framework web de Python Django (1) - De l'installation au démarrage du serveur
Essayez de résoudre un problème défini de mathématiques au lycée avec Python
[Python] [Word] [python-docx] Essayez de créer un modèle de phrase de mot en Python en utilisant python-docx
Essayez de piquer la base de données sur IBM i avec python + JDBC à l'aide de JayDeBeApi
Essayez de reproduire un film couleur avec Python
[Python] Utilisez des pandas pour extraire △△ qui maximise ○○
De Python à l'utilisation de MeCab (et CaboCha)
Essayez une formule utilisant Σ avec python
Introduction à la simulation d'événements discrets à l'aide de Python # 1
Essayez d'utiliser l'API Kraken avec Python
Dialogflow (anciennement: API.AI) Essayez d'utiliser le SDK Python #dialogflow
Essayez d'utiliser Python avec Google Cloud Functions
Essayez de détecter les mouvements de fusion en utilisant AnyMotion
Connectez-vous à Slack à l'aide de requêtes en Python
Vider les tables BigQuery dans GCS à l'aide de Python
Python amateur tente de résumer la liste ①
Introduction à la simulation d'événements discrets à l'aide de Python # 2
Essayez d'utiliser le script d'opération Python # 1 On-box de Junos
Essayez Python
Premiers pas pour essayer Google CloudVision en Python
Essayez d'implémenter Oni Mai Tsuji Miserable avec python
Essayez d'envoyer des métriques à datadog via python, DogStatsD
Calculons en fait le problème statistique avec Python
3.14 π jour, alors essayez de sortir en Python
Essayez d'utiliser django-import-export pour ajouter des données csv à django
Essayez auto pour évaluer automatiquement Enum dans Python 3.6
Méthode #Monte Carlo pour trouver le rapport de circonférence en utilisant Python
Procédure pour utiliser l'API WEB de TeamGant (en utilisant python)
Essayez de résoudre le problème de l'héritage de classe Python
Essayez d'utiliser Blueprint avec Flask pour séparer les contrôleurs
Présentation de 4 façons de surveiller les applications Python à l'aide de Prometheus
Je souhaite envoyer un e-mail depuis Gmail en utilisant Python.