Extraction d'articles d'ACL2020, une conférence internationale sur le traitement du langage naturel, en utilisant l'API arXiv de Python

introduction

Les articles ACL2020 ont commencé à être soumis à arXiv, j'ai donc utilisé l'API arXiv pour les lister (pour moi-même).

environnement

$ pip install arxiv
import arxiv
import pandas as pd

Conditions de recherche

Extrayez les articles contenant «ACL2020» dans la colonne des commentaires des articles de la catégorie Calcul et langage.

Je me suis référé à cette page pour savoir comment utiliser l'API.

#Requête de recherche
l = arxiv.query(query='(co="ACL2020" OR co:"ACL 2020") AND cat:cs.CL', sort_by='submittedDate')

#Étant donné que des articles non liés ont été inclus, j'en ai fait un DataFrame et l'ai filtré
df = pd.io.json.json_normalize(l)
acl_df = df[df["arxiv_comment"].str.contains("ACL", na=False)]
acl2020_df = acl_df[acl_df["arxiv_comment"].str.contains("2020", na=False)]

len(acl2020_df)
#Il y avait 102 cas

Liste des articles (au 26 avril 2020)

J'ai essayé d'extraire les articles adoptés (soumis) à ACL2020 par l'API arxiv. Document de démonstration du système, atelier de recherche étudiant, long / court sont mixtes

** Peut contenir des erreurs. ** ** ** utiliser comme référence. ** **

référence

Recommended Posts

Extraction d'articles d'ACL2020, une conférence internationale sur le traitement du langage naturel, en utilisant l'API arXiv de Python
J'ai lu un livre d'introduction sur le traitement du langage naturel
Profitons du traitement du langage naturel à l'aide de l'API COTOHA
[Pour les débutants] Analyse du langage à l'aide de l'outil de traitement du langage naturel "GiNZA" (de l'analyse morphologique à la vectorisation)