Facile avec Brown Corpus, qui est livré avec nltk_data de NLTK. Pour créer des données pour le balisage de mots partiels, appelez simplement tagged_sents (). Si vous spécifiez des catégories, vous ne pouvez gérer que les données de ce domaine (en plus des actualités, il existe diverses critiques, fiction, romance, mystère, etc.).
import nltk
from nltk.corpus import brown
corpus = brown.tagged_sents(categories='news')
def dataset(N=100):
d = []
for tagged_sent in corpus[:N]:
untagged_sent = nltk.tag.untag(tagged_sent)
pos_sequence = [pos for (word, pos) in tagged_sent]
d.append((untagged_sent, pos_sequence))
return d
if __name__ == "__main__":
dataset = dataset()
Recommended Posts