Cet article s'appuie sur Glue Studio, publié le 23 septembre 2020, pour créer, exécuter et surveiller des travaux Glue sur une base graphique. AWS Glue
AWS Glue fournit un environnement sans serveur qui utilise la puissance d'Apache Spark pour préparer et traiter les ensembles de données à analyser.
AWS Glue Documentation Optimize memory management in AWS Glue
AWS Glue Studio
AWS Glue Studio est une nouvelle interface visuelle pour AWS Glue. Cela permet aux développeurs d'extraction, de transformation et de chargement (ETL) de créer, d'exécuter et de surveiller facilement les tâches AWS Glue ETL. Vous pouvez désormais utiliser une interface visuelle simple pour déplacer et transformer des données afin de créer des tâches qui s'exécutent sur AWS Glue. Vous pouvez ensuite utiliser le tableau de bord AWS Glue Studio Job Execution pour surveiller l'exécution ETL afin de vous assurer que votre travail fonctionne comme prévu.
Reportez-vous à Rendre l'ETL plus facile avec AWS Glue Studio sur le blog AWS Big Data. Pour créer et exécuter une tâche dans Glue Studio.
1. Click either the Jobs on the navigation panel or Create and manage jobs, and start creating a job. 2. Choose the Blank graph and click the Create button.
3. Choose the (+) icon.
On the Node properties tab, 4. For Name, enter input. 5. For Node type, choose S3(Glue Data Catalog table with S3 as the data source.). On the Data source properties - S3 tab, (make a Data Catalog with Crawler beforehand) 6. For Database, pyspark_input 7. For Table, titanic_data_csv 8. For Partition predicate, leave blank. On the Output schema tab, 9. Check the Schema.
10. Choose the input node. 11. Choose the (+) icon. On the Node properties tab, 12. For Name, enter transform. 13. For Node type, choose the Custom transform. 14. For Node parents, choose the input. On the Transform tab, 15. For Code block, write Python code of PySpark. On the Output schema tab, 16. Check the Schema. By adding Custom transform, a next node to receive the DynamicFrameCollection is added automatically.
On the Node properties tab, 17. For Name, enter receive (The word "recieve" is spelled wrong.) 18. For Node type, choose the SelectFromCollection. 19. For Node parents, choose the transform.
20. Choose the receive node. 21. Choose the (+) icon.
On the Node properties tab, 22. For Name, enter output. 23. For Node type, choose the S3(Output data directly in an S3 bucket.). 24. For Node parents, choose the receive. On the Data target properties - S3, 25. For Format, choose the CSV. 26. For Compression Type, None. 27. For S3 Target Location, enter S3 location in the format s3://bucket/prefix/object/ with a trailing slash (/). 28. For Partition, leave blank. On the Output schema tab, 29. Check the Schema.
30. IAM Role: AmazonS3FullAccess / AWSGlueConsoleFullAccess 31. For Job Bookmark, choose Disable. 32. For Number of retries, optionally enter 1.
33. Choose save. 34. When the job is saved, choose Run.
35. In the AWS Glue Studio navigation panel, choose Monitoring. 35. In the Glue console, check the Glue Job.
J'ai pu créer, exécuter et surveiller le travail.
C'est tout pour le sujet, mais voici un aperçu de ce que vous pouvez faire avec un service appelé Glue. Cette architecture est un exemple d'infrastructure de traitement de données qui effectue un traitement par lots à l'aide de Glue.
1. Mettre des données dans S3 déclenche CloudWatch et CloudWatch Les fonctions de l'étape cible commencent 2. Step Functions reçoit la fonction de Lambda, du robot d'exploration de Glue et de PySpark Exécuter la tâche pour S3 3. Exportez les données converties par PySpark vers S3J'ai utilisé Glue Studio pour créer et exécuter des travaux Glue sur une base graphique.