In den letzten Jahren wurde das Umfeld von ** Big Data ** in jüngster Zeit besonders auf die dramatische Entwicklung und ihr Potenzial sowie auf Technologien wie ** Maschinelles Lernen ** und ** KI ** zur Lösung neuer Probleme und zur Wertschöpfung ausgerichtet. Ist es nicht ein Same? In diesem Teil hat sich die Netzwerkgesellschaft mit der Entwicklung zu einem großen Markt entwickelt. In der Welt, in der Daten bisher verwendet werden, wird sie stärker von der Geräteleistung und -umgebung als vom ursprünglichen Wert der Daten beeinflusst. Sie werden so klein wie möglich verarbeitet, um Daten effizient zu speichern, und ihre Wiederverwendung erfolgt auch in diesen Prozessen. Wie können die gelöschten Informationen mit angemessener Gültigkeit abgeleitet und reproduziert werden? Viele Arbeitskräfte und ausgezeichnete Theorien und Techniken wurden entwickelt. Natürlich sprechen die Daten als feierliches Ergebnis vor allem beredt, also führen Sie auf der Grundlage dieser Daten (1) die vorgeschriebenen Verfahren durch, (2) überprüfen Sie die Gültigkeit der temporären Konstruktion und (3). Meistens "ab dem Warten auf das Ergebnis der Datenverarbeitung" **, um den nächsten Schritt zu erstellen und (4) die nächsten Daten durch Implementierung zu sammeln. Dann kann auf einer Allzweckplattform der Prozess der Erstellung der endgültigen Datenform ** on-stream (nicht erraten) ** beobachtet und schnell auf Änderungen in der Umgebung wie dem Geschäft reagiert werden. Aber was passiert, wenn es verfügbar ist? Und was passiert als nächstes, wenn Sie das verborgene Potenzial und den Wert, den die Daten ursprünglich hatten, voll ausschöpfen können? ・・・ Ich möchte die Situation in diesem Bereich noch einmal vorstellen, aber in Eile können verschiedene Big Data, die für die Umwelt unverzichtbar sind, mit hoher Geschwindigkeit und mit hoher Effizienz ** im Stream verarbeitet werden (Gedanken des Benutzers und ursprüngliche Arbeit). Ich werde weiterhin erklären, wie man eine Umgebung erstellt, die mit (nicht aufhören) ** visualisiert und analysiert werden kann.

(1) Vorbereitung der Umwelt

Dieses Mal verwendet ** Hortonworks ** die öffentlich zugängliche Sandbox, um eine Verknüpfung mit ** Zoomdata ** herzustellen. Wählen Sie das orangefarbene ** Start ** oben rechts auf der Startseite aus und gehen Sie zu ** Angezeigte Seite ** Wenn Sie ** SANDBOX herunterladen ** auswählen, wird eine Liste der virtuellen Zielbilder angezeigt (zum Zeitpunkt des Schreibens). Laden Sie daher diesmal Version 2.6 herunter. Zu diesem Zeitpunkt wird der Eingabebildschirm für die erforderlichen Elemente angezeigt. Registrieren Sie daher alle Informationen genau und ermitteln Sie die Umgebung. Wenn die Installation in der virtuellen Umgebung nach dem Herunterladen erfolgreich ist, wird jeder Dienst gestartet und der Konsolenbildschirm angezeigt.

Die Zugriffsmethode auf die Verwaltungskonsole über das Web wird auf dem Bildschirm angezeigt. Geben Sie daher die Adresse in den Browser ein.

Wählen Sie auf der linken Seite des Bildschirms ** DASHBOARD STARTEN ** aus, geben Sie Ihre ID und Ihr Passwort ein und das Dashboard sollte angezeigt werden.

Nur für den Fall, dass ich prüfe, ob es Daten gibt, die zur Überprüfung verwendet werden können, scheint es einige interessante Tabellen zu geben. Wenn Sie also nach dem Verbinden ein Dashboard erstellen, lassen Sie mich diese Daten verwenden Ich werde es bekommen.

(2) Verbindungseinstellung mit Zoomdaten

Geben Sie zunächst die übliche Seite ** Quellen ** mit ** admin ** ein. Dieses Mal werden wir versuchen, eine Verbindung mit ** Hive On Tez ** herzustellen. Wählen Sie also dieses Symbol aus.

Geben Sie wie gewohnt die erforderlichen Informationen ein und wählen Sie unten rechts auf dem Bildschirm ** Weiter ** aus.

Die Einstellungen dieses Mal sind wie folgt.

Connection Name : Hortonworks Hive On Tez JdbcUrl : jdbc:hive2://xxxx.xxxx.xxxx.xxxx:10000/default Dabei ist xxx.xxx.xxx.xxx die Adresse der virtuellen Maschine, auf der Sandbox ausgeführt wird.

Wählen Sie nach Abschluss der Einstellungen ** Validieren ** und warten Sie eine Weile.

(3) Verbindungsüberprüfung und Dashboard-Erstellung

Sobald die Verbindung erfolgreich hergestellt wurde, können Sie die verfügbaren Datentabellen auswählen. Dieses Mal möchte ich ein Dashboard mit ** Store ** erstellen.

In Bezug auf die nachfolgenden Einstellungen werde ich diesmal nicht damit spielen. Fahren Sie daher mit ** knackig ** fort und wechseln Sie zur Startseite ** Zoomdaten **. Oben links auf dem Bildschirm befindet sich eine Anzeige ** + Neu **. Bitte wählen Sie diese aus. Es werden mehrere Menüs angezeigt. Wählen Sie den Punkt ** Chart & Dashboard ** und dann die Option ** Hive On Tez **, die dieses Mal im Menü der verbundenen Datenquelle eingestellt ist.

Da die verfügbaren Diagramme angezeigt werden, wählen Sie vorerst ** Balken: Mehrere Metriken ** und überprüfen Sie alle Elemente, die angezeigt werden können. (** Lautstärke ** wird aus Gründen der Übersichtlichkeit entfernt)

Die Verbindungsüberprüfung ist abgeschlossen, wenn das Balkendiagramm mit 5 Elementen angezeigt wird.

In ähnlicher Weise erstellen wir ein Visualisierungsdiagramm für die verfügbaren Informationen und erstellen ein ** "Nanchatte Dashboard" ** mit den bisher eingeführten Methoden.

Speichern Sie das fertige Dashboard, damit es beim nächsten Mal wiederverwendet werden kann.

Es wurde sicher gerettet.

(4) Zusammenfassung dieser Zeit

Übrigens haben wir diesmal die Verbindungsüberprüfung mit ** Hive On Tez ** durchgeführt. Wenn die Datenquellenseite jedoch fest aufgebaut ist, ist es einfacher als erwartet, ** Big Data ** zu visualisieren und zu analysieren. Ich hoffe du verstehst, dass du es schaffen kannst. Ab dem nächsten Mal werden wir weiterhin einige Lösungsverbindungen überprüfen und entsprechende Informationen einführen. Vielen Dank für Ihre Zusammenarbeit.

(5) Danke

In Bezug auf die Erstellung dieses Artikels haben wir Sandbox, die von ** Hortonworks ** veröffentlicht wird, als Engine für die Big-Data-Quelle verwendet. Wir möchten diese Gelegenheit nutzen, um Ihnen vielmals zu danken.

(6) Nebenbei ... (?)

Im vorherigen Artikel habe ich ** Fusion ** eingeführt, das so behandelt werden kann, als wäre es eine Datenquelle, indem ein gemeinsamer Schlüssel zwischen verschiedenen Datenquellen festgelegt wird. Als wir dieses Mal mit der Verbindungsüberprüfung einer Reihe von ** Big Data ** -Lösungen fortfuhren, gab es in den zuvor vorbereiteten Testdaten eine Tabelle mit derselben Konfiguration, also ** "unterschiedliche Big Data" unter Verwendung dieser Daten Ich möchte "Fusion zwischen Lösungen" ** überprüfen. (Dieses Mal werden wir ** sample_07 ** und ** sample_08 ** verwenden, um die Kombination von ** Cloudera Impala ** und ** Hortonworks Hive On Tez ** zu überprüfen.)

Wir werden den Konnektor für ** Fusion ** definieren, aber das Verfahren ist das gleiche wie das bisher eingeführte, so dass eine detaillierte Erklärung hier weggelassen wird. Bitte beachten Sie, dass im Fall einer ** Fusion ** -Einstellung zwischen ** Big Data ** der Parameter aufgrund der Spezifikationen auf Englisch eingestellt wird.

Die Definition von ** Fusion ** lautet diesmal wie folgt unter Verwendung von ** Code **, der beiden Parteien gemeinsam ist.

Wenn Sie danach mit allem fortfahren, wie es ist, wird diese ** Fusion ** vermutlich auf der Seite ** Quellen ** registriert. Klicken Sie daher oben links auf dem Bildschirm auf ** + Neues Diagramm & Dashboard **. Wählen Sie es aus und erstellen Sie ein Diagramm mit ** Balken: Mehrere Metriken **.

Die maximale Anzahl der anzuzeigenden Daten wird oben links im Diagramm angezeigt. Wählen Sie diese Anzahl aus und ändern Sie den Maximalwert über das Popup. (Diesmal von 20 auf 100 geändert)

** Impala ** und ** durch Abrufen von Daten aus zwei verschiedenen ** Big Data ** -Quellen ** und Festlegen von Parametern, die auf der Grundlage gemeinsamer Schlüsselinformationen in demselben Diagramm angezeigt werden sollen Wir konnten überprüfen, ob das Diagramm erstellt wurde, indem wir mit ** microquery ** über Hive On Tez ** darauf zugegriffen haben.

Ich denke, dass die Verwendung von ** Fusion ** zwischen verschiedenen ** Big Data ** -Quellen ** innovative Ideen für die Datennutzung und Möglichkeiten zur Lösung neuer Probleme bieten kann. Ich hoffe, Sie werden davon profitieren.