[JAVA] Un enregistrement d'une simple pression sur le flux de données de GCP

Intro Depuis que j'ai touché à Google Cloud Dataflow, je garde une trace de ce que j'ai ressenti comme un rappel.

Qu'est-ce que Google Cloud Dataflow?

En termes simples, il s'agit d'un service GCP qui gère le fonctionnement et la gestion des données en streaming et d'autres informations. Cette fois, je placerai les données reçues par PubSub dans CloudStrage via DataFlow. On suppose qu'un grand nombre d'éléments tels que les journaux et les données de suivi sont affichés et qu'ils sont conservés ou utilisés pour une analyse ultérieure.

1.Pub/Subにトピックを作成

Pub / Sub est un autre nom simple, mais il s'agit également d'un service GCP. Ce qu'on appelle la messagerie ou la file d'attente. Ce sera le point de départ de ces données, un déclencheur en un sens. Pour le moment, nommez-le simplement à partir de la console GUI normalement.

2. Préparez un bucket dans Cloud Storage

Préparez un endroit pour être le point final de cette période. Créez un nouveau compartiment ou préparez un dossier s'il existe déjà. Préparez également un dossier pour placer les fichiers temporaires (décrit plus loin).

3. Créer DataFlow à partir d'un modèle

Une fois que vous vous êtes préparé jusqu'à présent, il ne vous reste plus qu'à cliquer sur l'écran. Étant donné que DataFlow a des modèles pour les cas d'utilisation fréquemment utilisés, Vous pouvez créer quelque chose qui fonctionne dans une certaine mesure simplement en le sélectionnant correctement et en effectuant les réglages nécessaires.

Lorsque vous atteignez l'écran de création à partir du lien «Créer une tâche à partir d'un modèle», sélectionnez le nom et la région de la tâche. Sélectionnez ensuite un modèle. Cette fois, sélectionnez "Pub / Sub to Text Files on Cloud Strage" (tel quel!). Pour définir d'autres paramètres essentiels,

スクリーンショット 2020-09-23 13.30.41.png

4. Essayez de publier dans le sujet

Avec ce qui précède, tous les paramètres sont terminés. Après avoir exécuté la tâche et publié le message depuis PubSub, au bout d'un moment, le fichier est créé dans Cloud Storage. Il y a un message publié à l'intérieur! Au fait, il semble que les messages accumulés en 5 minutes par défaut soient envoyés à Cloud Storage sous la forme d'un fichier après chaque saut de ligne.

Remarques / impressions

Recommended Posts

Un enregistrement d'une simple pression sur le flux de données de GCP
Une série de flux de création de table → création, suppression d'enregistrement → suppression de table dans Ruby on Rails
Une brève explication de commitAllowingStateLoss
Une brève description des dépendances JAVA
[Ruby on Rails] Introduction des données initiales
Un bref résumé des conteneurs DI et DI
Création d'un flux de test sur CircleCI à l'aide de Jib
(Ruby on Rails6) Création de données dans une table