Anleitung zur Implementierung von Analytik in nahezu Echtzeit mit Spark Streaming in AWS

Diese Anleitung zeigt, wie man eine Self-Service-Datenanalytikumgebung konfiguriert, die einfach zu starten ist und auf die Dateningenieure und Datenwissenschaftler zugreifen können. Die integrierte Entwicklungsumgebung (IDE) basiert auf Jupyter Notebooks und bietet eine interaktive Oberfläche für eine einfache Datenerkundung. Sie enthält alle erforderlichen Tools zum Debuggen, Erstellen und Planen von Nahezu-Echzeit-Datenpipelines. Die Umgebung unterstützt eine sichere Teamzusammenarbeit mit Workload-Isolierung und ermöglicht es Administratoren, Ressourcen von einer einzigen Oberfläche aus selbst bereitzustellen, zu skalieren und zu deaktivieren, ohne die Komplexität der zugrunde liegenden Infrastruktur aufzudecken oder Sicherheit, Governance und Kosten zu gefährden. Administratoren können Clusterkonfigurationen unabhängig verwalten und kontinuierlich Kosten, Sicherheit, Zuverlässigkeit und Leistung optimieren.

Bitte beachten: [Haftungsausschluss]

Architekturdiagramm

[Beschreibung des Architekturdiagramms]

Architekturdiagramm als PDF herunterladen

Guidance Architecture Diagram for Implementing Near Real-Time Analytics with Spark Streaming on AWS

Schritt 1
Cloud-Betriebsteams entwickeln Cluster-Vorlagen zu Amazon EMR in AWS CloudFormation gemäß ihren gewünschten Spezifikationen (wie Instance-Typen und Netzwerkkonfigurationen) und veröffentlichen die Vorlagen als Produkte im AWS Service Catalog für die Self-Service-Bereitstellung.

Schritt 2
Gebotsereignisse oder Pixel in Webanzeigen erfassen Nutzereindrücke und senden die Daten an einen Endpunkt von Amazon Kinesis Data Streams.

Schritt 3
Dateningenieurteams melden sich bei ihren Workspaces in Amazon EMR Studio an. Hier stellen sie selbst Amazon-EMR-Cluster bereit. Alternativ fügen sie bestehende Cluster hinzu, um Spark-Streaming-Anwendungen wie Gebotsvalidierung oder Impressionsmessung mithilfe interaktiver Notebooks zu entwickeln.

Schritt 4
Eine Spark-Streaming-Anwendung wird auf einem Amazon-EMR-Cluster ausgeführt. Sie nimmt kontinuierlich unformatierte Gebots- oder Impressionsereignisdaten von Kinesis Data Streams auf. Die Anwendung transformiert die Daten. Anschließend werden die transformierten Daten in einem Data Lake von Amazon Simple Storage Service (Amazon S3) gespeichert.

Dieser Prozess ermöglicht eine Betriebsberichterstattung nahezu in Echtzeit. Sie können bereitgestellte Amazon-EMR-Cluster für die größtmögliche Flexibilität bei der Kostenoptimierung oder Serverless-Amazon-EMR-Cluster wählen, um die Bereitstellung und Cluster-Verwaltung zu vereinfachen.

Schritt 5
Amazon S3 speichert Daten in partitionierten Ordnern. Die Daten können komprimiert und im Spaltenformat oder in anderen offenen Tabellenformaten wie Apache Iceberg vorliegen.

Schritt 6
Alle Datenbank- und Tabellenmetadaten sind in einem AWS-Glue-Datenkatalog registriert, sodass Daten von mehreren AWS-Services wie Amazon Athena oder Amazon SageMaker abgefragt werden können.

Schritt 7
(Optional) Data-Lake-Administratoren können den Datenkatalog bei AWS Lake Formation registrieren, um detailliertere Zugriffskontrollen bereitzustellen und die Benutzerverwaltung zu zentralisieren.

Schritt 8
Benutzer können mit Athena nahezu in Echtzeit SQL-Abfragen für kuratierte Clickstream- oder Impressionsdaten in Amazon S3 ausführen und Dashboards mit Amazon QuickSight visualisieren.

Schritt 9
Zusätzlich zum Data Lake von Amazon S3 können Amazon-EMR-Workloads Daten in NoSQL-Datenbanken wie Amazon DynamoDB oder In-Memory-Datenbanken wie Aerospike schreiben. Dies unterstützt Lese-Workloads, die eine schnelle Leistung in großem Umfang erfordern, wie z. B. Gebotsfilterung oder Betriebsberichte.

Erste Schritte

Diese Anleitung anwenden

Beispielcode

Den Beispielcode verwenden, um diese Anleitung in Ihrem AWS-Konto bereitzustellen

Well-Architected-Säulen

Das AWS-Well-Architected-Framework hilft Ihnen, die Vor- und Nachteile der Entscheidungen zu verstehen, die Sie beim Aufbau von Systemen in der Cloud treffen. Die sechs Säulen des Frameworks ermöglichen es Ihnen, architektonische bewärhte Methoden für die Entwicklung und den Betrieb zuverlässiger, sicherer, effizienter, kostengünstiger und nachhaltiger Systeme zu erlernen. Mit dem AWS-Well-Architected-Tool, das kostenlos in der AWS-Managementkonsole verfügbar ist, können Sie Ihre Workloads anhand dieser bewährten Methoden überprüfen, indem Sie eine Reihe von Fragen für jede Säule beantworten.

Das obige Architekturdiagramm ist ein Beispiel für eine Lösung, die unter Berücksichtigung der bewährten Methoden von Well-Architected erstellt wurde. Um eine vollständige Well-Architected-Lösung zu erhalten, sollten Sie so viele bewährte Methoden von Well-Architected wie möglich befolgen.

Betriebliche Exzellenz

Amazon EMR Studio bietet eine vollständig verwaltete, webbasierte integrierte Entwicklungsumgebung (IDE) mit Jupyter Notebooks, die es Dateningenieuren- oder Datenwissenschaftler-Teams ermöglicht, Spark-Streaming-Anwendungen interaktiv zu entwickeln, zu visualisieren und zu debuggen, ohne zusätzliche Server verwalten zu müssen. Teams können Amazon-EMR-Cluster, die mithilfe von Infrastructure as Code (IaC)-Vorlagen im Servicekatalog vordefiniert wurden, selbst bereitstellen. Dies reduziert die Abhängigkeit von Cloud-Betriebsteams, verbessert die Agilität der Entwicklung und hilft Unternehmen, bewährte Methoden für Sicherheit und Governance mit minimalem Aufwand zu befolgen.

Whitepaper zur betrieblichen Exzellenz lesen
Sicherheit

Amazon EMR Studio unterstützt Authentifizierung und Autorisierung mit AWS Identity and Access Management (IAM) oder AWS Identity Center, sodass keine direkte Verbindung mit SSH (Secure Shell) zu Spark-Clustern hergestellt werden muss. Lake Formation ermöglicht eine granulare und zentrale Zugriffskontrolle auf die Daten in Ihren Data Lakes, zentralisiert die Benutzerzugriffsverwaltung und verbessert die Sicherheit und Verwaltung Ihrer Datenpipelines.

Whitepaper zur Sicherheit lesen
Zuverlässigkeit

Kinesis Data Streams und Amazon EMR bieten Autoscaling-Funktionen, um den Durchsatzanforderungen Ihres Echtzeit-Datenstrom-Workflows gerecht zu werden. Amazon EMR verwendet das Apache-Spark-Framework, welches Aufträge bei Anwendungs- oder Netzwerkausfällen automatisch verteilt und erneut zu starten versucht. Kinesis Data Streams skaliert außerdem automatisch die Kapazität und repliziert Daten synchron über drei Availability Zones hinweg, wodurch hohe Verfügbarkeit und Datenbeständigkeit gewährleistet werden.

Whitepaper zur Zuverlässigkeit lesen
Leistung und Effizienz

Kinesis Data Streams skaliert automatisch die Kapazität als Reaktion auf schwankenden Datenverkehr, sodass Ihr Verarbeitungsworkflow in Echtzeit den Durchsatzanforderungen gerecht wird. Amazon EMR bietet mehrere Features zur Leistungsoptimierung für Spark, sodass Benutzer ohne Änderungen an ihren Anwendungen 3,5-mal schneller arbeiten können. Darüber hinaus verarbeitet Athena Abfragen automatisch parallel und stellt die notwendigen Ressourcen bereit. Außerdem können Daten in Amazon-S3-Partitionsschlüsseln und Spaltenformaten gespeichert werden, um die Abfrageleistung zu erhöhen.

Whitepaper zur Leistung und Effizienz lesen
Kostenoptimierung

Diese Anleitung enthält ein Beispiel für eine Amazon-EMR-Clustervorlage, die Instance-Flotten mit Amazon-EC2-Spot-Instance-Kapazität verwendet und Graviton3-Instance-Typen von Amazon EC2 spezifiziert. Dies kann im Vergleich zu vergleichbaren x86-basierten Amazon Elastic Compute Cloud (Amazon EC2)-Instances zu Kosteneinsparungen von bis zu 20 Prozent führen. Darüber hinaus ermöglicht die Verwendung von Leerlauf-Timeouts und Amazon-S3-Speicherstufen eine bessere Nutzung der Rechen- und Speicherressourcen bei optimierten Kosten.

Whitepaper zur Kostenoptimierung lesen
Nachhaltigkeit

Graviton3-Instance-Typen von Amazon EC2 verbrauchen bis zu 60 Prozent weniger Energie bei gleicher Leistung wie vergleichbare Amazon-EC2-Instances und tragen so zur Reduzierung des CO2-Fußabdrucks bei. Die Verwendung von Amazon-EC2-Spot-Instances und Amazon-EMR-Einstellungen für das Leerlauf-Timeout trägt zu einer besseren Nutzung der Ressourcen bei und minimiert die Umweltauswirkungen des Workloads.

Whitepaper zur Nachhaltigkeit lesen

[SEO-Zwischenüberschrift]

Architekturdiagramm

Erste Schritte

Diese Anleitung anwenden

Beispielcode

Well-Architected-Säulen

Ähnliche Inhalte

[Titel]

Haftungsausschluss

War diese Seite hilfreich?

Anleitung zur Implementierung von Analytik in nahezu Echtzeit mit Spark Streaming in AWS

[SEO-Zwischenüberschrift]

Architekturdiagramm

Erste Schritte

Diese Anleitung anwenden

Beispielcode

Well-Architected-Säulen

Ähnliche Inhalte

[Titel]

Haftungsausschluss

War diese Seite hilfreich?

Ende des Supports für Internet Explorer