Echtzeitanalysen mit Spark Streaming

Viele Organisationen verwenden Batch-Daten und Echtzeit-Daten-Streaming-Berichte, um strategische und umsetzbare Einblicke in langfristige Geschäftstrends zu gewinnen. Eine wachsende Zahl von Kunden nutzt die Verarbeitung von Streaming-Daten mit neuen und dynamischen Daten, die kontinuierlich in Big Data Anwendungsfällen generiert werden. Die Streaming-Daten werden zur Erstellung von Berichten, zur Durchführung von Aktionen auf der Grundlage von Schwellenwerten oder für anspruchsvollere Formen der Datenanalyse, wie die Anwendung von Algorithmen des Machine Learning, verwendet.

Die Real-Time Analytics mit Spark Streaming-Anleitung konfiguriert automatisch die AWS-Services, die zum einfachen Erfassen, Speichern, Verarbeiten und Analysieren von Echtzeit- und Batch-Daten mithilfe von Funktionen aus der Business-Intelligence-Architektur und der Big-Data-Architektur erforderlich sind. Diese Anleitung stellt eine hochverfügbare, sichere, flexible und kostengünstige Streaming-Datenanalysearchitektur in der AWS Cloud bereit, die Apache Spark Streaming und Amazon Kinesis nutzt. 

Übersicht

Das folgende Diagramm zeigt die Architektur, die Sie mit dem Beispielcode auf GitHub erstellen können.

Real-Time Analytics with Spark Streaming | Architekturdiagramm
 Zum Vergrößern anklicken

Lösungsarchitektur für Real-Time Analytics with Spark Streaming

Diese Anleitung stellt ein Amazon Virtual Private Cloud (Amazon VPC)-Netzwerk mit einem öffentlichen und einem privaten Subnetz bereit. Das öffentliche Subnetz enthält ein NAT-Gateway und einen Bastion-Host. Das private Subnetz hostet den Amazon-EMR-Cluster mit Apache Zeppelin.

Amazon Kinesis Data Streams sammelt Daten aus Datenquellen und sendet die Daten durch das NAT-Gateway an den Amazon-EMR-Cluster. Nachdem die Spark-Streaming-Anwendung die Daten verarbeitet hat, speichert sie die Daten in einem Amazon-S3-Bucket.

Echtzeitanalysen mit Spark Streaming

Version 1.2.0
Letzte Aktualisierung: 12.2021
Autor: AWS

Hat Ihnen dieser Leitfaden geholfen?
Feedback geben 

Funktionen

Referenzimplementierung für Echtzeitanalysen mit Spark Streaming

Die Anleitung für Echtzeitanalysen mit Spark Streaming sorgt für die automatische Bereitstellung und Konfiguration der AWS-Services, die für die Verarbeitung von Echtzeit- und Stapeldaten in wenigen Minuten erforderlich sind.

Apache-Zeppelin-Unterstützung

Die Anleitung nutzt Apache Zeppelin, ein webbasiertes Notebook für interaktive Datenanalysen, um es Kunden zu ermöglichen, sowohl ihre Echtzeit- als auch ihre Batch-Daten zu visualisieren.

Spark-Streaming-Anwendung

Diese Anleitung ist für die Verwendung Ihrer eigenen in Java oder Scala geschriebenen Anwendung konzipiert.
Entwicklungssymbol
Bereitstellen einer eigenen Lösung

Durchsuchen Sie unsere Bibliothek der AWS-Lösungsimplementierungen, um Antworten auf häufige Architekturprobleme zu erhalten.

Weitere Informationen 
Einen APN-Partner suchen
Einen APN-Partner suchen

Finden Sie Beratungs- und Technologiepartner mit AWS-Zertifizierung, die Ihnen den Einstieg erleichtern.

Weitere Informationen 
Erkunden (Symbol)
Beratungsangebote für Lösungen erkunden

Durchsuchen Sie unser Portfolio mit Beratungsangeboten, um AWS-geprüfte Hilfe mit Lösungsbereitstellung zu erhalten.

Weitere Informationen