Traitement linguistique 100 coups 2015 ["Chapitre 6: Traitement de texte anglais"](http: //www.cl.ecei) Il s'agit de l'enregistrement des 51e "mots découpés" de .tohoku.ac.jp / nlp100 / # ch6). Cette fois est techniquement presque la même que la dernière fois. Un simple coup qui se termine par moins de 10 lignes de code.
Lien | Remarques |
---|---|
051.Découpez les mots.ipynb | Lien GitHub du programme de réponse |
100 coups de traitement du langage amateur:51 | Copiez et collez la source de nombreuses pièces source |
type | version | Contenu |
---|---|---|
OS | Ubuntu18.04.01 LTS | Il fonctionne virtuellement |
pyenv | 1.2.16 | J'utilise pyenv car j'utilise parfois plusieurs environnements Python |
Python | 3.8.1 | python3 sur pyenv.8.J'utilise 1 Les packages sont gérés à l'aide de venv |
Un aperçu des différentes technologies de base pour le traitement du langage naturel grâce au traitement de texte anglais à l'aide de Stanford Core NLP.
Stanford Core NLP, dérivation, balisage de mot partiel, extraction d'expressions propres, analyse de co-référence, analyse de dépendance, analyse de structure de phrase, S-expression
Effectuez le traitement suivant sur le texte anglais (nlp.txt).
Considérez les blancs comme des sauts de mots, prenez 50 sorties en entrée et en sortie sous la forme d'un mot par ligne. Cependant, affichez une ligne vide à la fin de l'instruction.
import re
with open('./050.result.txt') as file_in, \
open('./051.result.txt', 'w') as file_out:
for line in file_in:
if line != '\n':
line = re.sub(r'''
[\.|;|:|\?|!|,]* # . or ; or : or ? or ! or ,Est 0 fois ou plus
\s #Vide
''', '\n', line, flags = re.VERBOSE)
print(line, file=file_out)
Traitement à l'aide d'expressions régulières suivant l'heure précédente. Cette fois, remplacez le vide (espace) par un saut de ligne. Cette fois, c'est plus simple car il n'y a pas d'affirmations positives d'anticipation / d'anticipation. Même s'il y avait un système de symboles avant le blanc, il a été remplacé.
Lorsque le programme est exécuté, le résultat suivant (extrait des 20 premières lignes) est sorti.
text:051.result.txt(Extrait des 20 premières lignes)
Natural
language
processing
From
Wikipedia
the
free
encyclopedia
Natural
language
processing
(NLP)
is
a
field
of
computer
science
Recommended Posts