J'ai été impressionné de rencontrer SKK avant-hier. (Vie utilisateur 3ème jour w) Je ne veux pas utiliser CGI Server basé sur Google, j'ai donc choisi la vie de dictionnaire. Le dictionnaire Hatena semble bon.
--Il existe de nombreuses sources en ruby, mais il n'y a pas de python --Le code python a été terminé en moins de 10 minutes
Au fait, je ne l'ai jamais traité, mais la source
make_skk_dic.py
# coding=utf-8
import pandas as pd
import numpy as np
import codecs
import re
def furi_del_norm(txt):
r = re.match(r"[UNE-Mois]", txt)
if r:
return np.Nan
return txt
def main():
df = pd.DataFrame()
with codecs.open("keywordlist_furigana.csv", 'r', "euc_jp", "ignore") as file:
df = pd.read_table(file, delimiter="\t")
df.columns = ["furi", "word"]
df = df.dropna()
df["word"] = df["word"].replace('\r')
df["furi"] = df["furi"].replace('\r')
df["furi"] = df["furi"].apply(furi_del_norm)
df = df.dropna()
df = df.sort(columns=["furi"], ascending=True)
# to_csv pas bon
TMP_FILE_PATH = "SKK-JISHO.hatena"
with codecs.open(TMP_FILE_PATH, 'w', "utf-8", "ignore") as file:
#Avec Corvus SKK, activez les éléments suivants(Postscript:2017/03/03)
# file.write(";; okuri-ari entries.")
# file.write(";; okuri-nasi entries.")
for i, row in df.iterrows():
file.write("%s /%s/" % (str(row["furi"]), str(row["word"])))
file.write("\n")
if __name__ == "__main__":
main()
Recommended Posts