Il y a des cas où je souhaite utiliser une fonction d'analyse de texte existante écrite dans une autre langue pour l'analyse de texte, alors je l'ai essayé. Appelons un outil d'initialisation de document basé sur Python appelé neologdn de MATLAB. Je suis nouveau sur Python, donc je suis désolé si je fais beaucoup d'erreurs.
MATLAB R2020a Python 3.6
Il existe une page officielle appelée "Appeler les fonctions de la bibliothèque Python", alors préparez-vous en vous référant à ceci. Les environnements MATLAB et Python sont nécessaires, mais même si vous dites Python en un mot, il y en a un qui prend en charge l'appel depuis MATLAB, et cela semble être plus facile, donc selon la page officielle Je l'ai installé.
Entrez ce qui suit du côté MATLAB comme un essai.
MATLAB
py.os.listdir('.')
Ensuite, j'ai pu afficher la liste des fichiers en utilisant os.listdir côté Python.
Ensuite, préparez-vous à utiliser neologdn, un outil qui normalise le japonais.
neologdn is a Japanese text normalizer for mecab-neologd. The normalization is based on the neologd's rules: https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja
Installez neologd.
invite de commande
py -m pip install neologdn
Vous êtes maintenant prêt.
Exécutons la phrase d'exemple dans le readme de neologd dans MATLAB.
MATLAB
>> py.neologdn.normalize("Hankaku Kana")
ans =
Python str n'a pas de propriétés.
Mouchoir
>> py.neologdn.normalize("Symbole pleine largeur! ?? @ #")
ans =
Python str n'a pas de propriétés.
Symbole pleine largeur!?@#
>> py.neologdn.normalize("Exception de symbole pleine largeur "・"")
ans =
Python str n'a pas de propriétés.
Exception de symbole pleine largeur "・"
>> py.neologdn.normalize("Façon de raccourcissement long")
ans =
Python str n'a pas de propriétés.
Façon de raccourcissement de ton long
>> py.neologdn.normalize("Tilda Supprimez-nous~~ ∾ ~ 〰 ~ i")
ans =
Python str n'a pas de propriétés.
Manière de suppression de Tilda
>> py.neologdn.normalize("Différents tirets ˗֊ ------ - ⁃⁻₋−")
ans =
Python str n'a pas de propriétés.
Divers traits d'union-
>> py.neologdn.normalize("Livre de lecture supplémentaire PRML")
ans =
Python str n'a pas de propriétés.
Lecteur supplémentaire PRML
>> py.neologdn.normalize(" Natural Language Processing ")
ans =
Python str n'a pas de propriétés.
Natural Language Processing
>> py.neologdn.normalize("Mignon bon bon bon", pyargs('repeat',6))
ans =
Python str n'a pas de propriétés.
Mignon bon bon
>> py.neologdn.normalize("Déchets Déchets Déchets Déchets", pyargs('repeat',1))
ans =
Python str n'a pas de propriétés.
Déchets
>>
Vous pouvez le traiter selon le read me. Au fait, le résultat semble être retourné en type str.
Il serait utile de pouvoir le normaliser comme ça avant de le diviser en jetons avec la boîte à outils d'analyse de texte.
Recommended Posts