La dernière fois, j'ai présenté la fonction ** Fusion ** qui peut gérer plusieurs sources de données en une seule. En utilisant au mieux la ** micro-requête ** et en traitant de manière transparente les sources de données précieuses dispersées sur le réseau comme une seule source de données, la valeur et le potentiel des données seront encore améliorés. J'espère que vous comprenez que l'idée du mécanisme lui-même lié aux sources de données peut évoluer dans une direction plus efficace et plus flexible.
Maintenant, à partir de ce moment, je voudrais vous présenter la coopération avec ** Big Data **, qui est la véritable essence de ** Zoomdata **.
Des articles tels que Zoomdata et Hadoop (Hive on Tez) Cooperation (Azure Edition) écrits par ** Kitase ** ont déjà été publiés. Il se peut donc que certaines personnes aient vérifié la coopération, mais cette fois, nous utiliserons la célèbre ** solution Big Data ** qui est ouverte au public, et utiliserons chaque Sandbox dans l'espace virtuel. Donc, je voudrais expliquer la procédure de configuration de base, etc. lors de la liaison avec Zoomdata localement.
En ce qui concerne l'environnement ** big data **, nous effectuons cette série de travaux dans un environnement virtuel, nous aimerions donc continuer dans le sens de l'utilisation de l'image virtuelle construite appelée Sandbox. Je vais. Si vous effectuez une recherche avec un moteur de recherche, vous obtiendrez bientôt des informations sur certains environnements d'essai, mais cette fois pour la première fois, ** Cloudera ** J'utiliserai Sandbox fourni par l'entreprise et j'essaierai de vérifier la connexion avec ** Zoom data **.
Sélectionnez ** Télécharger ** depuis Cloudera Homepage et sélectionnez ** [TELECHARGER MAINTENANT](https: //www.cloudera.) Sous ** Quick Starts **. Si vous sélectionnez com / downloads / quickstart_vms / 5-12.html) **, vous serez en mesure d'enregistrer le téléchargement de l'image virtuelle actuellement distribuée (au moment de la rédaction), donc ** Spécifiez avec précision les informations spécifiées. Veuillez vous inscrire ** et obtenir l'image virtuelle souhaitée. En plus de ** Zoomdata **, de l'espace mémoire pour un environnement Big Data pour la vérification de la connexion et les ressources CPU requises seront nécessaires à partir de ce moment, donc selon le cas, le matériel d'exploitation peut être séparé. Il peut être nécessaire de prendre des mesures telles que l'élévation (correspondant à la cohérence du réseau, etc.), mais veuillez créer chaque environnement à vos risques et périls. De plus, nous vous serions reconnaissants de bien vouloir vous abstenir de vous renseigner auprès de Cloudera à ce sujet.
Si le téléchargement est terminé avec succès et que le démarrage est réussi, l'écran du bureau s'affiche. (Remarque: bien que l'écran soit traduit en japonais (je l'ai défini pour mon intérêt personnel uniquement ...), l'environnement d'origine sera la version anglaise. Bien sûr, il peut être vérifié sans problème même dans l'environnement anglais, donc c'est comme il est Continuez, s'il vous plaît)
Tout d'abord, définissez les données de vérification. Il y a un affichage ** Hue ** en haut du navigateur, veuillez donc le sélectionner. L'affichage changera et le travail de ** Étape 1 ** commencera, mais après un certain temps, le contenu de vérification de l'environnement sera affiché à l'écran.
Sélectionnez ensuite ** Exemples ** dans ** Étape 2 **.
Sélectionnez les données à utiliser dans cette vérification. Cette fois, je pense que je vais vérifier la connexion entre ** Impala ** et ** Solr Search **, qui est un système de recherche, alors sélectionnez-les et installez-les dans l'ordre.
Vérifiez la génération de données au cas où. Sélectionnez l'icône ** Accueil ** (Mes documents) en haut de l'écran du navigateur.
Vous pouvez confirmer que les données de vérification ont été configurées avec succès, vérifiez donc également l'adresse IP de la machine virtuelle.
Maintenant que le côté source du Big Data est prêt, je voudrais commencer à configurer la connexion avec ** Zoomdata **. Tout d'abord, entrez avec ** admin **, sélectionnez l'icône d'engrenage en haut de l'écran de la console et sélectionnez ** Sources **.
Sélectionnez ensuite l'icône ** Cloudera Impala **.
Définissez les éléments requis et sélectionnez ** Suivant ** en bas à gauche.
Sélectionnez un nouveau paramètre de connecteur et définissez les paramètres requis. Définissez un nom unique pour chaque connecteur et entrez les informations ** JdbcUrl ** comme suit.
jdbc:hive2://xxx.xxx.xxx.xxx:21050/;auth=noSasl
Pour ** xxx.xxx.xxx.xxx **, définissez l'adresse IP confirmée plus tôt, et le numéro de port est prédéfini par chaque source de données, utilisez donc ces chiffres tels quels. Vous pouvez laisser les autres éléments tels quels. (Pour plus d'informations sur ce domaine, veuillez consulter le document du fournisseur)
Après avoir terminé les paramètres de base, sélectionnez ** Valider ** et la connexion sera vérifiée, veuillez donc patienter un peu.
Si la fenêtre contextuelle verte qui occupe l'achèvement de la connexion s'affiche en haut de l'écran, le paramètre de connexion avec la source de données est terminé avec succès. Ensuite, sélectionnez les données à traiter. Sélectionnez ** Suivant ** en bas à droite de l'écran.
Il y aura quelques échantillons prédéfinis, donc cette fois je sélectionnerai ** web_logs **, qui semble avoir le plus d'éléments de données.
Les détails de chaque donnée seront affichés, alors sélectionnez ** Suivant ** en bas à droite. Cette fois, cela signifie l'essayer rapidement, donc en gros, veuillez procéder comme pour les écrans suivants. Cependant, afin de lier les données avec ** Time Bar **, veuillez modifier certains des attributs des éléments de données expliqués précédemment. (Plus précisément, remplacez l'attribut ** jour ** par ** HEURE **, remplacez le paramètre personnalisé par ** aaaa-MM-jj **, puis définissez l'élément suivant sur ** JOUR **. C'est bon si tu le quittes
Une fois les changements d'attribut ** day ** terminés avec succès et les réglages généraux des paramètres terminés, le côté ** Zoomdata ** pourra accéder à ** Impala ** avec sa micro-requête préférée.
Créons maintenant un tableau de bord simple pour vérifier la connexion. La procédure sera la même que précédemment, nous allons donc procéder ** rapidement **.
Sélectionnez ** Cloudera Impala ** défini cette fois dans Créer un tableau de bord à partir de l'icône en haut à gauche.
Étant donné que les graphiques disponibles apparaîtront, sélectionnez ** Bars ** et définissez ** Groupe ** en bas du graphique sur ** Ville **.
Faites glisser la ** Barre de temps ** en bas du graphique pour voir si les affichages se synchronisent. Ensuite, créons un ** graphique en anneau **. La procédure est toujours la même, donc ici nous ne présenterons que le flux.
En ce qui concerne les données d'affichage de ** Donut Chart **, il y avait un taux d'utilisation de ** OS ** dans l'élément de données, je l'ai donc sélectionné dans ** Groupe **.
Enfin, j'aimerais sauvegarder le tableau de bord que j'ai créé cette fois. Si nécessaire, modifiez chaque titre de graphique et titre de tableau de bord (comme d'habitude, c'est un "titre coquin" ...), puis sélectionnez ** Enregistrer ** en haut à droite de l'écran de la console et saisissez les informations requises. Après cela, si vous sélectionnez ** Enregistrer ** en bas à droite de la fenêtre contextuelle, il s'affichera sur l'écran d'accueil de la console, vous pourrez donc commencer à partir d'ici à partir de la prochaine fois.
Cette fois, nous avons vérifié la coopération entre ** Big Data ** et ** Zoom data ** à l'aide d'un environnement virtuel en utilisant ** Cloudera Impala ** comme exemple. Vous pouvez voir que la connexion à un environnement Big Data bien construit est en fait très simple (à cet égard, ainsi qu'à chaque ** solution Big Data ** à venir). Bien sûr, puisqu'il s'agit d'un environnement de vérification, il y a une limitation selon laquelle ce n'est pas grand, mais bien sûr, pour chaque solution qui suppose une ** montée en charge **, une ** microquery ** connexion et ** une technologie en mémoire * * Une connexion efficace et à haut débit peut être réalisée , de sorte que même dans un énorme environnement de " vraies données massives **", ** une utilisation et un fonctionnement simples et flexibles peuvent être réalisés * * Il sera possible de le faire.
La prochaine fois, j'aimerais me connecter avec ** Solr **, dont j'ai pu confirmer l'existence de données de démonstration dans les paramètres au début.
Concernant la création de cet article, nous avons utilisé Sandbox, qui est ouvert au public par ** Cloudera **, comme moteur de la source Big Data. Nous aimerions profiter de cette occasion pour vous remercier beaucoup
Recommended Posts