AWS-Lösungsportfolio

Echtzeitanalysen mit Spark Streaming

Viele Organisationen verwenden Batch-Daten und Echtzeit-Daten-Streaming-Berichte, um strategische und umsetzbare Einblicke in langfristige Geschäftstrends zu gewinnen. Eine wachsende Zahl von Kunden nutzt die Verarbeitung von Streaming-Daten mit neuen und dynamischen Daten, die in Big-Data-Anwendungsfällen kontinuierlich generiert werden. Die Streaming-Daten werden zur Erstellung von Berichten, zur Durchführung von Aktionen auf der Grundlage von Schwellenwerten oder für anspruchsvollere Formen der Datenanalyse, wie die Anwendung von Algorithmen des Machine Learning, verwendet.

Die Real-Time Analytics mit Spark Streaming-Anleitung konfiguriert automatisch die AWS-Services, die zum einfachen Erfassen, Speichern, Verarbeiten und Analysieren von Echtzeit- und Batch-Daten mithilfe von Funktionen aus der Business-Intelligence-Architektur und der Big-Data-Architektur erforderlich sind. Diese Anleitung stellt eine hochverfügbare, sichere, flexible und kostengünstige Streaming-Datenanalysearchitektur in der AWS Cloud bereit, die Apache Spark Streaming und Amazon Kinesis nutzt.

Übersicht

Das folgende Diagramm zeigt die Architektur, die Sie mit dem Beispielcode auf GitHub erstellen können.

Real-Time Analytics with Spark Streaming | Architekturdiagramm

Lösungsarchitektur für Real-Time Analytics with Spark Streaming

Diese Anleitung stellt ein Amazon Virtual Private Cloud (Amazon VPC)-Netzwerk mit einem öffentlichen und einem privaten Subnetz bereit. Das öffentliche Subnetz enthält ein NAT-Gateway und einen Bastion-Host. Das private Subnetz hostet den Amazon-EMR-Cluster mit Apache Zeppelin.

Amazon Kinesis Data Streams sammelt Daten aus Datenquellen und sendet die Daten durch das NAT-Gateway an den Amazon-EMR-Cluster. Nachdem die Spark-Streaming-Anwendung die Daten verarbeitet hat, speichert sie die Daten in einem Amazon-S3-Bucket.

Weitere Informationen

Weniger anzeigen

Echtzeitanalysen mit Spark Streaming

Version 1.2.0
Letzte Aktualisierung: 12.2021
Autor: AWS

Beispielcode auf GitHub

Implementierungsressourcen

Ressourcen & häufig gestellte Fragen »
Kontakt »

Hat Ihnen dieser Leitfaden geholfen?

Nein

Feedback geben

Funktionen

Referenzimplementierung für Echtzeitanalysen mit Spark Streaming

Die Anleitung für Echtzeitanalysen mit Spark Streaming sorgt für die automatische Bereitstellung und Konfiguration der AWS-Services, die für die Verarbeitung von Echtzeit- und Stapeldaten in wenigen Minuten erforderlich sind.

Apache-Zeppelin-Unterstützung

Die Anleitung nutzt Apache Zeppelin, ein webbasiertes Notebook für interaktive Datenanalysen, um es Kunden zu ermöglichen, sowohl ihre Echtzeit- als auch ihre Batch-Daten zu visualisieren.