Text mining avec Python ① Analyse morphologique

Défiez le text mining avec Python. (Pour la série Python3) Suivez les étapes ci-dessous.

① Analyse morphologique (cet article) ② Visualisez avec Word Cloud (la prochaine fois)



Bibliothèque d'analyse morphologique

Analyse morphologique nécessaire pour diviser les phrases japonaises en mots. En tant qu'exemple bien connu et facile à comprendre "Des cuisses et des cuisses" À «Sumomo, Momo, Momo, Uchi» Ce qui se divise en.

Contrairement à l'anglais, le japonais n'a pas de sauts de mots clairs et il est très difficile de diviser les phrases en mots, il n'est donc pas réaliste de traiter avec votre propre code.

Par conséquent, nous utilisons une bibliothèque appelée "MeCab" qui est open source. (Probablement le plus important dans l'analyse morphologique japonaise. Il semble lire "Mekabu")

Installez MeCab

Pour pouvoir utiliser MeCab en Python ・ Installation de l'unité principale MeCab ・ Installation du dictionnaire · Installation de liaison Python Est nécessaire.

Cependant, comme le package binaire pour Windows inclut un dictionnaire, il n'est pas nécessaire d'installer le dictionnaire. Ici, la procédure est décrite en supposant qu'elle sera installée sur Windows.

Tout d'abord, à partir du site de téléchargement répertorié sur le Site officiel ・ Mecab-0.996.exe ・ Mecab-python-0.996.tar.gz Télécharger.

Ensuite, démarrez mecab-0.996.exe et installez l'unité principale. Sélectionnez le code de caractère du dictionnaire en chemin, mais sélectionnez le Shift-JIS par défaut. (Je suis un peu inquiet si je n'ai pas à utiliser UTF-8 ...)

Vous devriez pouvoir utiliser la commande mecab à ce stade, mais elle ne semble pas être dans votre PATH. Ajoutez manuellement le bac du répertoire d'installation à votre PATH.

Essayez d'utiliser mecab sur la ligne de commande. Comme d'habitude, "hors des cuisses et des cuisses".

>mecab↓
Des cuisses et des cuisses ↓
Sumomo substantif,Général,*,*,*,*,Sumomo,Sumomo,Sumomo
Aussi assistant,Assistance,*,*,*,*,Aussi,Mo,Mo
Cuisse substantif,Général,*,*,*,*,Les pêches,pêche,pêche
Aussi assistant,Assistance,*,*,*,*,Aussi,Mo,Mo
Cuisse substantif,Général,*,*,*,*,Les pêches,pêche,pêche
Mots auxiliaires,syndicat,*,*,*,*,de,Non,Non
Dont nomenclature,Non indépendant,Avocat possible,*,*,*,domicile,Uchi,Uchi
EOS

Installer les liaisons MeCab Python

Ensuite, décompressez mecab-python-0.996.tar.gz dans un répertoire approprié. Accédez au répertoire décompressé et exécutez la compilation et l'installation selon le README. Voici le résultat de l'exécution.

>python setup.py build
'mecab-config'Est une commande interne ou externe,
Non reconnu comme programme opérationnel ou fichier de commandes.
Traceback (most recent call last):
  File "setup.py", line 13, in <module>
    version = cmd1("mecab-config --version"),
  File "setup.py", line 7, in cmd1
    return os.popen(str).readlines()[0][:-1]
IndexError: list index out of range

Trébuchez soudainement sur la construction. Il ne semble y avoir aucune commande appelée mecab-config dans setup.py. J'ai un PATH, mais je ne trouve pas de fichier exécutable qui lui ressemble quand je regarde sous bin.

Sur Google, il semble que mettre des liaisons Python sur Windows soit assez ennuyeux. Vous pouvez faire de votre mieux, mais interrompu car le but est de faire du text mining et non d'exécuter MeCab sous Windows. J'ai décidé de le mettre dans un autre environnement Linux.


Site de référence
Création d'un environnement qui utilise MeCab avec R et Python (Windows, Mac)

Recommended Posts

Text mining avec Python ① Analyse morphologique
Text mining avec Python ① Analyse morphologique (re: version Linux)
[Python] Analyse morphologique avec MeCab
Python: texte japonais: analyse morphologique
Analyse morphologique japonaise avec Python
Text mining avec Python ② Visualisation avec Word Cloud
Python: analyse morphologique simplifiée avec des expressions régulières
Analyse de données avec python 2
Analyse vocale par python
Text mining avec Python-Scraping-
Analyse vocale par python
Analyse de données avec Python
[Analyse de co-occurrence] Analyse de co-occurrence facile avec Python! [Python]
Analyse de squelette planaire avec Python
Analyse des secousses musculaires avec Python
[PowerShell] Analyse morphologique avec SudachiPy
Analyse des émotions par SMS avec ML-Ask
Collecte d'informations sur Twitter avec Python (analyse morphologique avec MeCab)
Défiez l'analyse des composants principaux des données textuelles avec Python
GOTO en Python avec Sublime Text 3
Analyse d'impédance (EIS) avec python [impedance.py]
Extraction de texte avec AWS Textract (Python3.6)
Activer Python raw_input avec Sublime Text 3
Python: analyse négative / positive: application d'analyse de texte
Parlez du texte japonais avec OpenJTalk + python
J'ai joué avec Mecab (analyse morphologique)!
Analyse de données à partir de python (visualisation de données 1)
Analyse de régression logistique Self-made avec python
Analyse de données à partir de python (visualisation de données 2)
Analyse morphologique avec Igo + mecab-ipadic-neologd en Python (avec bonus Ruby)
De l'introduction de JUMAN ++ à l'analyse morphologique du japonais avec Python
Reconnaissance vocale en anglais avec python [speech to text]
[Didacticiel d'analyse Python en base de données avec SQL Server 2017]
Analyse bidimensionnelle du flux de perméation saturée-insaturée avec Python
Apprentissage automatique avec python (2) Analyse de régression simple
Analyse des tweets avec Python, Mecab et CaboCha
Analyse de données à partir de python (pré-traitement des données-apprentissage automatique)
Analyse de conduction thermique bidimensionnelle non stationnaire avec Python
Essayez de fouiller votre journal avec Python
Lire des caractères dans des images avec Python OCR
FizzBuzz en Python3
Grattage avec Python
De la préparation à l'analyse morphologique avec python en utilisant polyglotte au marquage des mots partiels
Statistiques avec python
Grattage avec Python
Analyse de données python
Twilio avec Python
Intégrer avec Python
Jouez avec 2016-Python
AES256 avec python
Testé avec Python
python commence par ()
avec syntaxe (Python)
[Jouons avec Python] Viser la génération automatique de phrases ~ Effectuer une analyse morphologique ~
Bingo avec python
Zundokokiyoshi avec python
Excel avec Python
Micro-ordinateur avec Python
Cast avec python