Le 11 novembre 2019, l'analyseur morphologique Sudachi a été développé. Un dictionnaire de synonymes a été publié par Works Applications!
Le dictionnaire de synonymes est principalement utilisé pour la recherche de documents et les chatbots pour absorber les fluctuations de notation.
Cette fois, j'ai examiné le contenu de ce dictionnaire en utilisant la bibliothèque Python Pandas.
$ wget https://raw.githubusercontent.com/WorksApplications/SudachiDict/develop/src/main/text/synonyms.txt
En regardant Documents, cela ressemble au format csv! J'écrirai un script python à partir d'ici.
import pandas as pd
df = pd.read_csv("synonyms.txt", skip_blank_lines=True,
names=('group_id', 'type', 'expand', 'vocab_id',
'relation', 'abbreviation', 'spelling', 'domain',
'surface', 'reserve1', 'reserve2'))
Puisqu'il s'agit d'un csv avec des lignes vides, définissez skip_blank_lines
. «names» est approprié.
Pour le moment, créons une fonction qui affiche tous les df
s avec les en-têtes correspondants.
def search_synonyms(word):
for row in df[df.surface==word].itertuples():
print(df[df.group_id==row.group_id].loc[:,['group_id', 'domain', 'surface']])
Les synonymes sont regroupés par numéro de groupe (group_id
), il semble donc normal que vous preniez la même ligne que le numéro de groupe de la ligne dont l'en-tête ( surface
) correspond à mot
!
Par exemple, lancer search_synonymes ('Giant')
ressemblera à ceci!
group_id domain surface
5662 3895 (Des sports)Armée géante de Yomiuri
5663 3895 (Des sports)Géant
5664 3895 (Des sports)Yomiuri
5665 3895 (Des sports)Armée géante
5666 3895 (Des sports)Géants de Yomiuri
5667 3895 (Des sports)géants
5668 3895 (Des sports) Giants
group_id domain surface
31690 16305 (Homme) 巨Homme
31691 16305 (Homme)Géant
31692 16305 (Homme) giant
J'ai pu récupérer diverses notations du "géant" de l'équipe et de la nomenclature générale "géant"!
Cette fois, j'ai jeté un coup d'œil au dictionnaire de synonymes de Sudachi. Sudachi lui-même et ce dictionnaire de synonymes seront mis à jour régulièrement à l'avenir. Gardez un œil sur les futures mises à jour!
Recommended Posts