Je souhaite effectuer un traitement simple du langage naturel (analyse morphologique + α) à l'aide de MeCab dans le prétraitement d'Azure Data Factory. Ce serait pratique si vous pouviez l'implémenter en tant que fonction et l'appeler plus tard à partir de divers services tels que LogicApps. J'ai donc envisagé deux méthodes de mise en œuvre.
Pour le moment, Azure Functions semble être suffisant, mais en supposant une situation où des traitements lourds tels que l'apprentissage automatique seront effectués à l'avenir, j'ai également essayé Databricks car je voulais également comprendre le service Databricks.
Si vous écrivez d'abord la conclusion, ** ・ Les débutants d'Azure Databricks peuvent facilement comprendre ce qui suit Microsoft Learn (gratuit) **
Exécutez l'ingénierie des données avec Azure Databricks https://docs.microsoft.com/ja-jp/learn/paths/data-engineering-with-databricks/
** ・ MeCab peut être utilisé en installant "mecab-python3" sur le cluster avec PyPI ** ** - Terminez en accédant au portail Azure et à Databricks avec un navigateur, aucun paramètre d'environnement local requis **
Il existe de nombreux points de manque de compréhension, veuillez donc signaler toute erreur. Corrigez et ajoutez le cas échéant.
Plateforme d'analyse basée sur Apache Spark. Les ressources de calcul peuvent être mises à l'échelle et distribuées selon les besoins.
Il y a certaines parties qui sont un peu difficiles à comprendre, mais les frais sont à peu près pour les deux suivants.
· Machine virtuelle (VM) provisionnée dans le cluster · Unités de databricks (DBU) basées sur l'instance de VM sélectionnée
Il existe également de petits frais pour les disques gérés, le stockage d'objets blob et les adresses IP publiques.
Tarification Azure Databricks https://azure.microsoft.com/ja-jp/pricing/details/databricks/
Soit dit en passant, si vous utilisez la «version d'essai» de 14 jours, vous serez exempté de la facturation de DBU. D'autre part, sachez que les VM seront facturées comme d'habitude.
Avec Databricks (et non Azure), vous pouvez l'essayer gratuitement pendant 14 jours, ressources informatiques comprises. L'interface est la même pour Azure Databricks et Databricks, vous pouvez donc essayer ceci. https://databricks.com/try-databricks
Vous pouvez choisir parmi Python, Scala, SQL et R lorsque vous créez un notebook. En utilisant la commande Databricks Magic, il est possible de mélanger plusieurs langues dans un bloc-notes. (Si vous écrivez% python au début d'une cellule, cette cellule sera exécutée par python, etc.)
Si vous recherchez et créez normalement à partir du portail Azure, il n'y a aucune hésitation particulière.
Je me demande s'il faut définir le niveau de prix sur Standard ou Premium, mais il semble qu'il soit possible de modifier le niveau de prix plus tard tout en conservant la configuration du notebook, de l'utilisateur et du cluster, donc je ne suis pas trop nerveux. Bien. Dans Premium, les fonctions de contrôle d'accès, d'authentification et de journal d'audit seront améliorées.
Mise à niveau ou rétrogradation de l'espace de travail Azure Databricks https://docs.microsoft.com/ja-jp/azure/databricks/administration-guide/account-settings/account#upgrade-or-downgrade-an-azure-databricks-workspace
De plus, comme mentionné ci-dessus, si vous sélectionnez la version d'essai et que vous l'utilisez tout le temps, vous serez facturé fermement avec les frais de VM, alors soyez prudent. (La facturation DBU est exonérée)
Après avoir déployé Databricks, accédez à la ressource et lancez l'espace de travail. Sélectionnez Clusters dans l'écran Databricks et Créer un cluster.
Créez un cluster en définissant le type et le nombre de machines virtuelles à provisionner.
La bibliothèque peut être installée à partir de l'écran des détails du cluster créé.
Après cela, vous pouvez installer le package avec PyPI, etc.
l'a fait.
Créez un bloc-notes en Python à partir de Workspace> Créer> Bloc-notes. Après cela, vous pouvez analyser la morphologie avec import Me Cab.
Comparé à l'utilisation de Python avec des fonctions, il était très facile à mettre en place car tout était terminé sur le Web. Même lors de la gestion avec plusieurs personnes, c'est facile car il n'est pas nécessaire de correspondre à l'environnement local.
Le coût de l'instance "DS3 v2" spécifiée par défaut est le suivant. Vous serez facturé pour le temps (en minutes) pendant lequel l'instance est active.
Il évolue sous une charge importante, par exemple, si le nombre de nœuds de calcul (Workers) double, le montant de facturation double également. (VM et DBU coûtent le double)
Tarification Azure Databricks https://azure.microsoft.com/ja-jp/pricing/details/databricks/
Recommended Posts