Moteur d'analyse morphologique chinois Jieba

J'ai essayé de l'utiliser avec la version Python de jieba. [D'autres versions de langage de programmation sont également disponibles](https://github.com/fxsjy/jieba#%E5%85%B6%E4%BB%96%E8%AF%AD%E8%A8%80%E5% AE% 9E% E7% 8E% B0).

Installation

$ pip install jieba

Segmentation de texte

>>> import jieba
>>> text = "Je suis diplômé de l'Université de Tokyo. Hayagami 10 points a commencé."
#"J'assisterai demain à un cours à l'Université de Tokyo. A partir de 10 heures du matin."

La valeur de retour de jieba.cut est un générateur La valeur de retour de jieba.lcut est une liste La valeur de retour de jieba.cut_for_search est un générateur La valeur de retour de jieba.lcut_for_search est une liste

Accurate Mode

>>> segments = jieba.cut(text)
>>> list(segments)
['je', 'Mingten', 'En quittant', 'Université de Tokyo', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']

>>> segments = jieba.lcut(text)
>>> segments
['je', 'Mingten', 'En quittant', 'Université de Tokyo', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']

** Université de Tokyo ** est un mot, sympa! Full Mode Défini sur cut_all = True.

>>> segments = jieba.cut(text, cut_all=True)
>>> list(segments)
['je', 'Mingten', 'En quittant', 'Tokyo', 'TokyoUniversité', 'Université', 'Académiquement', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']

>>> segments = jieba.lcut(text, cut_all=True)
>>> segments
['je', 'Mingten', 'En quittant', 'Tokyo', 'TokyoUniversité', 'Université', 'Académiquement', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']

Search Engine Mode

>>> segments = jieba.cut_for_search(text)
>>> list(segments)
['je', 'Mingten', 'En quittant', 'Tokyo', 'Université', 'TokyoUniversité', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']

>>> segments = jieba.lcut_for_search(text)
>>> segments
['je', 'Mingten', 'En quittant', 'Tokyo', 'Université', 'TokyoUniversité', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']

Extraction de mots-clés

>>> import jieba.analyse
>>> text = '''
...Les progrès de la mondialisation s'accélèrent constamment et le front de la course s'accélère constamment. Adaptation à ce défi trivial, chaque type de talent demande la production de puissance de communication, le plan de dévouement, la conquête conjointe de ce problème de mondialisation trivial. Dans ce contexte, c'est une personne talentueuse qui travaille comme guide, et est affectée à contrecœur aux épaules de l'Université de Tokyo. Un courage infini après notre général, notre sagesse et notre mission, opposition directe à ce défi insignifiant.
...Gakusei Seisuke, 攀 贵 赀 跅 巅 巋 寋 庸 躸 En face de la bourse d'études sur la route, boursier de l'année, boursier de l'université, bourse, bourse, bourse, bourse, bourse, bourse, bourse et bourse. Bureau national sans scrupules de l'Université de Tokyo, il s'agit d'un étudiant insignifiant, d'une terre à long terme fournie par un érudit, d'une société de construction de terrains conviviale pour les messagers.
...L'Université de Tokyo, désormais dans une position simple, est un fleuron unique à l'avant et à l'arrière des cultures de l'Est et de l'Ouest. 秉 踉 輠, avenir prospectif, achèvement de l'aspiration de l'Université de Tokyo à chaque cérémonie talent humain 汇 汇 汇 汇 汇 汇 汇 汇 汇 汇 觛, Université de Tokyo, monde national, culture, abattre le mur de l'année, limite du monde littéraire transcendantal de la recherche scientifique d'un nouveau domaine, exposition de collaboration industrie-gouvernement-université. C'est le premier objectif, la demande pour le cou, l'excellence, l'internationalité, l'institut d'étudiant de recherche à double usage et l'exposition parallèle....Bourse de l'Université de Tokyo, puissance de l'Université de Tokyo, paix mondiale, production de bien-être humain, offre intemporelle. Développement social moderne, demande pour nous-mêmes, demande de développement, recherche scientifique générale et temps nouveau. En même temps que le tuteur résident, la réforme du système est impossible ou impossible. Parallèlement à la réforme de la formation des étudiants de premier cycle, la transformation fondamentale de l'institut de recherche, les connaissances du messager et l'indépendance des étudiants. En plus de cela, la promotion de la demande, la réforme du système du personnel, l'égalité des hommes et des femmes, l'égalité des hommes et des femmes, et le caractère qualitatif de la dynamique des ressources humaines. Problème déraisonnable à un problème, promotion La prémisse de réforme mentionnée ci-dessus, la prémisse de réforme susmentionnée, la crédibilité sociale, la sympathie de la bourse, la bourse de la bourse, la bourse du chercheur
...La poussée continue du nouveau, le pouvoir de nous-mêmes, le développement de l'Université de Tokyo, le développement du bureau du peuple japonais ou de l'université du monde.
... '''

Le texte sera The University of Tokyo President's Dialogue Chinese Version.

Extraction par valeur tf-idf

>>> keywords = jieba.analyse.extract_tags(text, topK=20, withWeight=False, allowPOS=())
>>> keywords
['Université de Tokyo', 'Persistant', 'Confiance', 'Science', 'Défi', 'Talent humain', 'La physique', 'Sagesse', 'Institut étudiant de recherche', '爱', 'Science研究', 'Shinshin', 'Promotion', 'Globalisation', 'réforme', 'Kaken', 'Ce trivial', 'Puissant', 'Sentiment de joie', 'Ritsu']

Ça m'a l'air bien. C'est un peu différent des kanji japonais, mais c'est presque lisible.

Extraction basée sur TextRank

>>> keywords = jieba.analyse.textrank(text, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
>>> keywords
['Stratégie', 'Sagesse', 'Shinshin', 'Science', 'Exposition', 'demande', 'réforme', 'Talent humain', 'Promotion', 'Kaken', 'Défi', 'Réel', 'Zone', 'Volonté', 'société', 'Science研究', 'Humanité', 'culture', 'La physique', 'Yuga']

Autre

Il a de nombreuses autres fonctionnalités, Vous pouvez jouer avec le dictionnaire, les parties de balises, etc., il semble donc préférable de regarder Officiel pour plus de détails. La première moitié de README.md est en chinois, mais la seconde moitié est traduite en anglais.

L'auteur n'a rien à voir avec l'Université de Tokyo.

Essayez d'utiliser jieba, un moteur d'analyse morphologique chinois