Appelez la bibliothèque Python pour la normalisation de texte depuis MATLAB

introduction

Il y a des cas où je souhaite utiliser une fonction d'analyse de texte existante écrite dans une autre langue pour l'analyse de texte, alors je l'ai essayé. Appelons un outil d'initialisation de document basé sur Python appelé neologdn de MATLAB. Je suis nouveau sur Python, donc je suis désolé si je fais beaucoup d'erreurs.

environnement

MATLAB R2020a Python 3.6

procédure

Il existe une page officielle appelée "Appeler les fonctions de la bibliothèque Python", alors préparez-vous en vous référant à ceci. Les environnements MATLAB et Python sont nécessaires, mais même si vous dites Python en un mot, il y en a un qui prend en charge l'appel depuis MATLAB, et cela semble être plus facile, donc selon la page officielle Je l'ai installé.

Entrez ce qui suit du côté MATLAB comme un essai.

MATLAB


py.os.listdir('.')

Ensuite, j'ai pu afficher la liste des fichiers en utilisant os.listdir côté Python.

Ensuite, préparez-vous à utiliser neologdn, un outil qui normalise le japonais.

neologdn is a Japanese text normalizer for mecab-neologd. The normalization is based on the neologd's rules: https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja

Installez neologd.

invite de commande


py -m pip install neologdn

Vous êtes maintenant prêt.

Exécutons la phrase d'exemple dans le readme de neologd dans MATLAB.

MATLAB


>> py.neologdn.normalize("Hankaku Kana")

ans = 

Python str n'a pas de propriétés.

Mouchoir

>> py.neologdn.normalize("Symbole pleine largeur! ?? @ #")

ans = 

Python str n'a pas de propriétés.

Symbole pleine largeur!?@#

>> py.neologdn.normalize("Exception de symbole pleine largeur "・"")

ans = 

Python str n'a pas de propriétés.

Exception de symbole pleine largeur "・"

>> py.neologdn.normalize("Façon de raccourcissement long")

ans = 

Python str n'a pas de propriétés.

Façon de raccourcissement de ton long

>> py.neologdn.normalize("Tilda Supprimez-nous~~ ∾ ~ 〰 ~ i")

ans = 

Python str n'a pas de propriétés.

Manière de suppression de Tilda

>> py.neologdn.normalize("Différents tirets ˗֊ ------ - ⁃⁻₋−")

ans = 

Python str n'a pas de propriétés.

Divers traits d'union-

>> py.neologdn.normalize("Livre de lecture supplémentaire PRML")

ans = 

Python str n'a pas de propriétés.

Lecteur supplémentaire PRML

>> py.neologdn.normalize(" Natural Language Processing ")

ans = 

Python str n'a pas de propriétés.

    Natural Language Processing

>> py.neologdn.normalize("Mignon bon bon bon", pyargs('repeat',6))

ans = 

Python str n'a pas de propriétés.

Mignon bon bon

>> py.neologdn.normalize("Déchets Déchets Déchets Déchets", pyargs('repeat',1))

ans = 

Python str n'a pas de propriétés.

Déchets

>> 

Vous pouvez le traiter selon le read me. Au fait, le résultat semble être retourné en type str. image.png

Il serait utile de pouvoir le normaliser comme ça avant de le diviser en jetons avec la boîte à outils d'analyse de texte.

Recommended Posts

Appelez la bibliothèque Python pour la normalisation de texte depuis MATLAB
Appelez Matlab depuis Python pour optimiser
Appeler Polly à partir du kit SDK AWS pour Python
Je voulais utiliser la bibliothèque Python de MATLAB
Utiliser IvyFEM (bibliothèque de méthodes d'éléments finis pour .NET) à partir de Python
Appeler C depuis Python avec DragonFFI
3.6 Normalisation de texte
Extraire du texte d'images avec Python
<Pour les débutants> bibliothèque python <Pour l'apprentissage automatique>
Conseils pour appeler Python à partir de C
Appelez python de nim avec Nimpy
Appeler C / C ++ depuis Python sur Mac
Appeler le langage C depuis Python (python.h)
Appelez votre propre bibliothèque partagée en langage C à partir de Python à l'aide de ctypes
[google-oauth] [python] Bibliothèque cliente des API Google pour Python
"Programmation Python AI" à partir de 0 pour Windows
Remarque pour Pyjulia appelant Julia depuis Python
Python> Numéros de sortie de 1 à 100, 501 à 600> Pour csv
Appeler des commandes depuis Python (édition Windows)
Essayez d'utiliser la bibliothèque Studio à partir de Python. [Anim Save]
Envelopper C avec Cython pour une utilisation à partir de Python
~ Conseils pour les débutants de Python donnés avec amour par Pythonista ① ~
Appel de scripts Python à partir de Python intégré en C ++ / C ++
Envelopper C ++ avec Cython pour une utilisation à partir de Python
~ Conseils pour les débutants de Python donnés avec amour par Pythonista ② ~
Un moyen simple d'appeler Java depuis Python
Inscription auprès de PyPI à partir de la bibliothèque Python moderne faite par vous-même
30/10/2016 else pour Python3> pour:
Bibliothèque de messagerie Python 3.6
python [pour moi]
Bibliothèque Python AST
sql à sql
Installez PyCall sur Raspberry PI et essayez d'utiliser la bibliothèque GPIO pour Python de Ruby
MeCab de Python
Note sur la bibliothèque Python
Installez psycopg2 (bibliothèque pgsql pour python3) sur Apple Silicon
Python: texte japonais: caractéristique du discours à partir de la similitude des mots
Lecture de texte Python pour plusieurs lignes et une ligne
Traduire de Visual Studio 2017 vers Python (API Microsoft Translator Text)
[Python] Pas de valeur pour l'argument lui-même dans un appel de méthode non lié
[Python] Récupérez le texte de la loi à partir de l'API e-GOV law
Appelons votre propre bibliothèque C ++ avec Python (Préférences)
Mémo d'apprentissage Python pour l'apprentissage automatique par Chainer du chapitre 2
Appelez votre propre module python à partir du package ROS
Python: texte japonais: caractéristique de la parole à partir de la continuité des mots
[Python] Comment appeler une fonction de c depuis python (édition ctypes)