Überspringen zum Hauptinhalt

Erste Schritte mit Amazon EMR

Amazon EMR

So benutzt man EMR

1. Wählen Sie Ihr bevorzugtes EMR-Bereitstellungsmodell aus

Mit Amazon EMR können Sie große Datenmengen mithilfe von Open-Source-Tools wie Apache Spark, Hive, Flink, Trino und mehr verarbeiten. Wählen Sie einfach Ihr bevorzugtes EMR-Bereitstellungsmodell aus:

  • EMR Serverless: Führen Sie Anwendungen aus, ohne Cluster zu verwalten, und skalieren Sie Ressourcen je nach Workload automatisch nach oben oder unten
  • EMR in EC2: Zur Steuerung der Clusterkonfiguration, einschließlich Instance-Typen und benutzerdefinierter AMIs.
  • EMR in EKS: Konsolidieren Sie Analytik mit Ihren anderen Kubernetes-basierten Anwendungen auf einem gemeinsam genutzten Amazon EKS-Cluster.

2. Ihre Datenverarbeitungsanwendung entwickeln

Amazon EMR unterstützt eine Vielzahl von Frameworks und Sprachen, sodass Sie alles erstellen können, von Standard-ETL-Pipelines bis hin zur umfassenden Datenaufbereitung der generativen KI.

Sprachen: Verwenden Sie Python (PySpark) für Datenwissenschaft und Machine Learning, SQL (über Hive oder Trino) für analytische Abfragen oder Java und Scala für leistungsstarke Spark-Anwendungen.

Frameworks: Erstellen und starten Sie Anwendungen mit Apache Spark für umfangreiche Datenverarbeitung, Apache Flink für Echtzeit-Streaming, Trino für schnelles SQL über mehrere Datenquellen und Apache Hudi oder Iceberg für die Verwaltung transaktionaler Data Lakes.

3. Daten vorbereiten und aufnehmen

Um mit der Verarbeitung zu beginnen, müssen Ihre Daten für Amazon EMR zugänglich sein. Amazon S3 ist zwar die Standardspeicher-Ebene für EMR-Anwendungen, aber Sie haben mehrere Hochgeschwindigkeitsmethoden, um Daten aus Ihrer lokalen Umgebung oder anderen AWS-Services zu verschieben.

  • Direkte Uploads: Zur sofortigen Verarbeitung laden Sie Objekte mithilfe der AWS-Managementkonsole, der CLI oder der SDKs direkt auf Amazon S3 hoch.
  • Hochgeschwindigkeitskonnektivität: Verwenden Sie AWS Direct Connect, um das öffentliche Internet zu umgehen und eine private, dedizierte Netzwerkverbindung von Ihrem Rechenzentrum zu AWS herzustellen. Dies bietet eine konsistente Bandbreite und eine reduzierte Latenz für umfangreiche Übertragungen.
  • Streaming in Echtzeit: Verwenden Sie Amazon Data Firehose oder Amazon Managed Streaming für Apache Kafka (MSK), um Daten direkt bei der Generierung in Ihre EMR-Anwendungen einzuspeisen und Analysen nahezu in Echtzeit zu ermöglichen.
  • Zero-ETL-Integrationen: Analysieren Sie Daten aus Amazon Aurora oder Amazon Redshift mithilfe von Zero-ETL-Features, die es EMR ermöglichen, auf Betriebsdaten zuzugreifen, ohne dass eine manuelle Pipeline-Konstruktion erforderlich ist.
  • Hybrider Zugriff: Wenn sich Ihre Daten in einer lokalen Hadoop-HDFS-Umgebung befinden, können Sie den S3 Connector verwenden, um Daten direkt in EMR einzulesen oder bestimmte Datensätze für die cloudbasierte Verarbeitung zu synchronisieren.

4. Starten und überwachen

Amazon EMR bietet ein optimiertes Bereitstellungserlebnis, unabhängig davon, ob Sie einen einmaligen Auftrag oder eine kontinuierliche Produktionspipeline ausführen.

  • Über EMR Studio starten: Öffnen Sie Ihr EMR-Studio-Notebook und hängen Sie es an eine Serverless-Anwendung oder einen vorhandenen EC2-Cluster an. Mit einem Klick können Sie Ihren Spark- oder Hive-Code in einer vollständig verwalteten Umgebung ausführen.
  • Serverless: Wenn Sie EMR Serverless verwenden, reichen Sie Ihren Auftrag über die Konsole, CLI oder API ein. EMR stellt automatisch genau den benötigten Rechen- und Speicherbedarf bereit und skaliert nach oben, um Spitzenwerte zu bewältigen, und auf Null, wenn der Vorgang abgeschlossen ist.
  • Start über SageMaker Unified Studio: In SageMaker Unified Studio können Sie ein Serverless-Notebook öffnen und es sofort mit einer Serverless-EMR-Anwendung oder einem EMR auf einem EC2-Cluster verbinden. 

5. Überwachung und Optimierung der Ausführung

EMR bietet Einblick in Ihre Datenpipelines mit integrierten Tools, mit denen Sie Engpässe erkennen und die Kosten automatisch optimieren können.

Überwachen Sie den Auftragsfortschritt und den Cluster-Zustand über die EMR-Managementkonsole, die AWS-CLI oder die SDKs. EMR bietet eine native Integration mit Amazon CloudWatch für Echtzeit-Metriken, Protokolle und automatische Warnmeldungen.

Greifen Sie direkt von der Konsole aus auf die Live-und persistente Spark- oder Tez-Benutzeroberfläche zu – debuggen Sie Live-Jobs in Echtzeit und sogar nach Abschluss eines Serverless-Auftrags, um Ausführungspläne und DAGs (gerichtete azyklische Graphen) zu überprüfen.

Sind Sie bereit, Ihren ersten Cluster zu starten?

Klicken Sie hier, um einen Cluster über die Amazon-EMR-Verwaltungskonsole in Betrieb zu nehmen. Navigieren Sie auf der Seite „Create Cluster“ zu „Advanced Cluster Configuration“ und klicken Sie rechts oben auf die graue Schaltfläche „Configure Sample Application“, wenn Sie eine Beispielanwendung mit Beispieldaten ausführen möchten.

Schulungen und Hilfe

    Benötigen Sie Unterstützung beim Erstellen eines Machbarkeitsnachweises oder bei der Feinabstimmung Ihrer EMR-Anwendungen? AWS verfügt über ein weltweites Supportteam speziell für EMR. Wenn Sie mehr über zeitlich begrenzte (2–6 Wochen) kostenpflichtige Supportbetreuungen erfahren möchten, kontaktieren Sie uns bitte.

    Der Kurs „Big-Data-Lösungen in AWS“ wurde entwickelt, um Ihnen an praktischen Beispielen die Verwendung von Amazon Web Services für Big-Data-Workloads nahezubringen. AWS zeigt Ihnen, wie Sie Amazon-EMR-Aufträge ausführen, um Daten unter Verwendung der großen Vielfalt an Hadoop-Tools wie Pig und Hive zu verarbeiten. AWS vermittelt Ihnen zudem, wie Sie mit Amazon DynamoDB und Umgebungen von Amazon-Redshift-Big-Data in der Cloud erstellen, erläutert die Vorteile von Amazon Kinesis und erklärt, wie Sie bewährte Methoden zum Entwerfen von Big-Data-Umgebungen für Analyse, Sicherheit und Kosteneffizienz einsetzen. Klicken Sie hier, um weitere Informationen zur Big-Data-Schulung zu erhalten.

    „Scale Unlimited“ bietet angepasste Vor-Ort-Schulungen für Unternehmen an, die schnell lernen müssen, wie sie EMR und andere Technologien für Big Data verwenden. Weitere Informationen finden Sie hier.