Ceci est un mémo pour moi pendant que je lis Introduction aux applications de traitement du langage naturel en 15 étapes. Cette fois, au chapitre 4, étape 15, notez vos propres points. (Bien que j'écris rarement)
En tant que dernier chapitre du livre, ce sera une collection d'indices pour rechercher des données publiques pour un ensemble de données qui convient à chaque objectif ou pour le construire vous-même en effectuant le traitement du langage naturel et l'apprentissage automatique que nous avons vus jusqu'à présent. ing.
base de données | Fonctionnalité |
---|---|
Wikipedia | Un fichier de vidage de toutes les données est officiellement publié dans l'Encyclopédie Web. |
Aozora Bunko | Vous pouvez télécharger gratuitement le fichier texte de l'œuvre littéraire dont le droit d'auteur a expiré. |
corpus d'actualités | Une partie de l'article de Livedoor News est la licence Creative Commons (voir)-Il est fourni sous (Aucune modification). |
WordNet japonais | Il s'agit d'une base de données qui exprime la structure hiérarchique des significations des mots, et peut être utilisée pour le prétraitement et l'analyse morphologique. |
En plus de ceux-ci, certains sont facturés, nécessitent une application d'utilisation et ont une utilisation limitée.
Si vous ne disposez pas de l'ensemble de données public souhaité, vous pouvez explorer votre site Web pour collecter des données. Les données non supervisées sont faciles à collecter.
L'exploration est gratuite, mais il est difficile de collecter des données supervisées. L'approvisionnement dans le cloud est facturé (une récompense est requise pour les travailleurs du cloud), mais des tâches peuvent être définies et de nombreux travailleurs peuvent demander de nombreuses tâches en parallèle à faible coût.
Étant donné que le travail d'un locuteur japonais est nécessaire pour construire un ensemble de données japonais, les services domestiques (Cloudworks, Lancers, etc.) seront inévitablement utilisés.
Recommended Posts