Les données texte existent dans le fichier Excel, et les données texte sont divisées et sorties au format délimité par des tabulations (fichier tsv).
Mac OS 10.12.3 Python 3.6.0 mecab of 0.996 mecab-python3==0.7
Installation avec Homebrew (Mac) Utiliser MeCab de Python 3 Ou faites-le et installez-le vous-même Activer le moteur d'analyse morphologique MeCab dans Python3 (version de mars 2016)
Utilisation de mecab avec Python3
[Python] Lire Excel avec des pandas
mecab.py
#!/usr/bin/env python
import xlrd
import MeCab
import sys
args = sys.argv
#Ouvrez le fichier Excel
book = xlrd.open_workbook(args[1])
sh = book.sheet_by_index(0)
# header
print("\t".join(('text','price')))
#Perspective avec option de division
t = MeCab.Tagger ("-Owakati")
#À propos de chaque ligne
for rx in range(1, sh.nrows):
#Choisissez les colonnes dont vous avez besoin
text = sh.cell_value(rowx=rx, colx=1)
price = sh.cell_value(rowx=rx, colx=2)
#Supprimer les sauts de ligne
text = text.replace('\n','').replace('\r','')
try:
#Suppression de perspective et de saut de ligne
m = t.parse(text).replace('\n','')
#production
print( "\t".join((m, price)) )
except RuntimeError as e:
print("RuntimeError:" + e)
$ ./mecab.py [nom de fichier Excel]
Recommended Posts