Télécharger des fichiers de CentOS vers Azure Data Lake Gen2 avec azcopy

Dans l'article suivant, j'ai essayé de créer des données TPC-H, mais comme j'ai téléchargé le fichier de CentOS avec azcopy, je vais décrire la méthode. Créer un environnement de test à l'aide de TPC-H (pool Synapse SQL)

1. Création d'un compte de stockage et d'un conteneur

Tout d'abord, créez un compte de stockage et un conteneur à télécharger.

1-1. Sélectionnez un compte de stockage dans le portail Azure

image.png

1-2. Ajout d'un compte de stockage

image.png

1-3. Ajoutez les informations nécessaires dans l'onglet de base

Dans cet exemple, tous sauf «groupe de ressources», «nom du compte de stockage» et «réplication» sont spécifiés par défaut.

1-4. Sélectionnez les informations requises dans l'onglet Réseau

Dans les paramètres réseau, cette fois je l'ai créé sans rien changer avec la valeur par défaut. image.png

1-5. Sélectionnez la protection des données

Rien n'est réglé cette fois. image.png

1-6. Sélectionnez Data Lake Storage Gen2 dans l'onglet Détails.

image.png

1-7. Créez un compte de stockage en vérifiant et en créant

image.png

Cliquez sur le bouton Créer pour créer un compte de stockage.

1-8. Création d'un conteneur

Une fois le compte de stockage créé, créez un conteneur à partir du compte de stockage créé. image.png Sélectionnez «+ Conteneur» dans l'écran ci-dessous. image.png J'ai créé un conteneur appelé azcopytest. image.png

2. Paramètres de contrôle d'accès au compte de stockage (IAM)

Les paramètres IAM sont requis pour accéder à Blob. De plus, azcopy sera effectué à l'aide des informations IAM définies ici. Si ce paramètre n'est pas défini, une erreur telle que «403 Cette requête n'est pas autorisée à effectuer cette opération en utilisant cette autorisation.» Se produira pendant azcopy et azcopy ne sera pas possible.

2-1. Sélectionnez le compte de stockage que vous avez créé précédemment

image.png

2-2. Ajout de l'attribution de rôle depuis le contrôle d'accès (IAM)

image.png

Pour le rôle, sélectionnez les autorisations requises telles que Storage BLOB Data Co-Creator et spécifiez l'utilisateur à affecter à IAM. image.png

3. Introduction d'azcopy sur CentOS

Tout d'abord, téléchargez azcopy avec wget.

$ wget https://azcopyvnext.azureedge.net/release20200818/azcopy_linux_amd64_10.6.0.tar.gz

Après le téléchargement, décompressez et accédez au répertoire créé.

$ tar xvfx azcopy_linux_amd64_10.6.0.tar.gz
$ cd azcopy_linux_amd64_10.6.0

4. Connectez-vous avec azcopy

Vous devez vous connecter avec azcopy avant de télécharger le fichier avec azcopy.

4-1. Confirmation de l'identifiant du locataire

Confirmez l'ID de locataire car vous devez entrer l'ID de locataire lors de la connexion avec azcopy. L'ID de locataire peut être confirmé à partir d'Azure AD. image.png

Vous pouvez le vérifier à partir de «Informations sur le locataire» après la transition d'écran. image.png

4-2. Connectez-vous avec azcopy

Connectez-vous à partir de CentOS comme suit.

$ ./azcopy login --tenant-id "<ID du locataire>"

Lorsque vous l'exécutez, il ouvrira un navigateur et vous serez invité à entrer le code de l'URL spécifiée, alors ouvrez le navigateur et entrez le code. image.png

Lorsque vous entrez l'URL spécifiée dans le navigateur, l'écran suivant apparaîtra, alors entrez le code. image.png

Si la connexion réussit, le message «réussi» sera affiché comme indiqué ci-dessous. image.png

4. Télécharger vers BLOB avec azcopy

Téléchargez vers Blob à l'aide de la commande de copie d'azcopy.

$ ./azcopy copy "Nom du fichier local" "https://<Nom du compte de stockage>.blob.core.windows.net/<Nom du conteneur>"

De plus, si vous souhaitez télécharger plusieurs fichiers, vous pouvez spécifier «*», etc.

$ ./azcopy copy "Annuaire local/*" "https://<Nom du compte de stockage>.blob.core.windows.net/<Nom du conteneur>"

5. Bonus

Une fois le téléchargement terminé, vous pouvez charger les données dans le pool SQL Azure Syanpase Analytics à l'aide de PolyBase, etc. La méthode est incluse dans un autre article, veuillez donc vous y référer si vous le souhaitez. J'ai essayé de remplir le pool Synapse SQL avec PolyBase

Recommended Posts

Télécharger des fichiers de CentOS vers Azure Data Lake Gen2 avec azcopy
[Note] Télécharger depuis S3, télécharger vers S3
Mettre à jour MySQL de 5.7 à 8.0 avec Docker