Amazon EMR

Einfache Ausführung und Skalierung von Apache Spark, Hive, Presto und anderen Big-Data-Frameworks

Amazon EMR ist die branchenführende Cloud-Big-Data-Plattform für die Verarbeitung riesiger Datenmengen mit Open-Source-Tools wie Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi und Presto. Mit Amazon EMR können Sie Ihre Big-Data-Umgebungen einfach einrichten, betreiben und skalieren, indem Sie zeitaufwändige Aufgaben wie die Bereitstellung von Kapazität und die Optimierung von Clustern automatisieren. Mit EMR können Sie die Analyse im Petabyte-Maßstab zu Kosten weniger als der Hälfte herkömmlicher vor Ort-Lösungen und mehr als 3x schneller als Standard-Apache Spark ausführen. Sie können Workloads auf Amazon EC2-Instances, in EKS-Clustern (Amazon Elastic Kubernetes Service) oder lokal mithilfe von EMR auf AWS Outposts ausführen.

Entdecken Sie, wie Apache Hudi die Pipelines für die Änderungsdatenerfassung (Change Data Capture, CDC) und Datenschutzbestimmungen vereinfacht

Eine Einführung in Amazon EMR (3:00)

Vorteile

Einfache Nutzung

Analysten, Dateningenieure und Datenwissenschaftler können mithilfe von EMR-Notebooks zusammenarbeiten und Daten interaktiv untersuchen, verarbeiten und visualisieren. Geben Sie einfach die Version der EMR-Anwendungen und die Art der Berechnung an, die Sie verwenden möchten. EMR kümmert sich um die Bereitstellung, Konfiguration und Optimierung von Clustern, damit Sie sich auf die Ausführung von Analysen konzentrieren können.

Geringe Kosten

EMR-Preise sind einfach und planbar: Sie zahlen für jede genutzte Sekunde, wobei mindestens eine Gebühr für eine Minute in Rechnung gestellt wird. Sie können einen EMR-Cluster mit 10 Knoten schon für nur 0,15 USD pro Stunde starten. Sie können 50 bis 80 % der Kosten der Instances sparen, wenn Sie Amazon EC2 Spot für vorübergehende Workloads und Reserved Instances für lang andauernde Workloads auswählen. Sie können auch Savings Plans verwenden.

Elastisch

Im Gegensatz zur starren Infrastruktur von Vor-Ort-Clustern entkoppelt EMR Datenverarbeitung und Speicher, sodass Sie diese jeweils unabhängig skalieren und die mehrstufige Speicherung von Amazon S3 nutzen können. Mit EMR können Sie eine, Hunderte oder Tausende von Rechen-Instances oder Containern bereitstellen, um Daten in jedem Maßstab zu verarbeiten. Die Anzahl der Instances kann automatisch mithilfe von Auto Scaling (das die Clustergrößen nach Auslastung verwaltet) erhöht oder verringert werden und Sie bezahlen nur für das, was Sie nutzen.

Zuverlässig

Sie müssen weniger Zeit für die Optimierung und Überwachung Ihres Clusters aufwenden. EMR ist für die Cloud optimiert. Es überwacht auch Ihren Cluster, wiederholt fehlgeschlagene Aufgaben und ersetzt Instances mit schlechter Leistung automatisch. Cluster sind hoch verfügbar und führen bei einem Knotenausfall automatisch ein Failover durch. EMR bietet die neuesten stabilen Open-Source-Software-Versionen, sodass Sie keine Aktualisierungen und Bugfixes verwalten müssen, was zu weniger Problemen und weniger Aufwand bei der Wartung der Umgebung führt.

Sicher

EMR konfiguriert automatisch die EC2-Firewall-Einstellungen, die den Netzwerkzugriff auf Instances steuern, und startet Cluster in einer Amazon Virtual Private Cloud (VPC). Sie können die Verschlüsselung auf der Serverseite oder die Verschlüsselung auf der Clientseite mit dem AWS Key Management Service oder Ihren eigenen kundenverwalteten Schlüsseln verwenden. Mit EMR ist es einfach, andere Verschlüsselungsoptionen zu aktivieren, z. B. Verschlüsselung während der Übertragung und im Speicher, sowie starke Authentifizierung mit Kerberos. Sie können AWS Lake Formation oder Apache Ranger verwenden, um detaillierte Datenzugriffssteuerungen für Datenbanken, Tabellen und Spalten anzuwenden.

Flexibel

Sie haben die vollständige Kontrolle über Ihre EMR-Cluster und Ihre individuellen EMR-Aufgaben. Sie können EMR-Cluster mit benutzerdefinierten Amazon Linux-AMIs starten und die Cluster mithilfe von Skripten einfach konfigurieren, um zusätzliche Softwarepakete von Drittanbietern zu installieren. Mit EMR können Sie Anwendungen bei ausführenden Clustern im laufenden Betrieb neu konfigurieren, ohne Cluster neu starten zu müssen. Sie können die Ausführungsumgebung auch für einzelne Aufgaben anpassen, indem Sie die Bibliotheken und Laufzeitabhängigkeiten in einem Docker-Container angeben und zusammen mit Ihrer Aufgabe senden.

Bereitstellungsoptionen

Amazon EMR auf Amazon EC2

Sie können EMR auf Amazon EC2 bereitstellen und On-Demand-, Reserved- und Spot-Instances nutzen. EMR verwaltet die Bereitstellung, Verwaltung und Skalierung der EC2-Instances. AWS bietet mehr Instance-Optionen als jeder andere Cloud-Anbieter, sodass Sie die Instance auswählen können, die Ihnen die beste Leistung oder die besten Kosten für Ihre Workload bietet.

Weitere Informationen »

Amazon EMR auf Amazon EKS

Sie können Big-Data-Aufgaben bei Bedarf über Amazon Elastic Kubernetes Service (EKS) ausführen, ohne EMR-Cluster bereitstellen zu müssen, um die Ressourcennutzung zu verbessern und das Infrastrukturmanagement zu vereinfachen. Amazon EKS bietet Ihnen die Flexibilität, Kubernetes-Anwendungen in der AWS-Cloud oder lokal zu starten, auszuführen und zu skalieren. Mit Amazon EMR auf EKS können Sie Rechen- und Speicherressourcen für alle Ihre Anwendungen gemeinsam nutzen und mit einem einzigen Satz von Kubernetes-Tools Ihre Infrastruktur zentral überwachen und verwalten.

Weitere Informationen »

Amazon EMR auf AWS Outposts

Amazon EMR ist auf AWS Outposts verfügbar, sodass Sie EMR in Ihren lokalen Umgebungen wie in der Cloud einrichten, bereitstellen, verwalten und skalieren können. AWS Outposts bieten AWS-Services, Infrastruktur und Betriebsmodelle für praktisch jedes Rechenzentrum, jeden Co-Location-Bereich oder jede lokale Einrichtung.

Weitere Informationen »

Anwendungsfälle

Machine Learning

Verwenden Sie die integrierten Machine-Learning-Tools von EMR, einschließlich Apache Spark MLlib, TensorFlow und Apache MXNet für skalierbare Machine-Learning-Algorithmen. Zudem verwenden Sie benutzerdefinierte AMIs und Bootstrap-Aktionen, um Ihre bevorzugten Bibliotheken und Tools einfach hinzuzufügen und Ihre eigenen prädiktiven Analysetools zusammenzustellen.

Extrahieren, transformieren, laden (ETL)

EMR bietet Ihnen die Möglichkeit, Datentransformations-Workloads (ETL) großer Datensätze, wie das Sortieren, Aggregieren und Zusammenführen von Daten, schnell und kosteneffizient durchzuführen.

Erfahren Sie, wie Redfin transiente EMR-Cluster für ETL verwendet »

Clickstream-Analyse

Analysieren Sie Clickstream-Daten aus Amazon S3 mit Apache Spark und Apache Hive, um Benutzer zu segmentieren, Benutzereinstellungen nachzuvollziehen und effektivere Anzeigen zu schalten.

Streamen in Echtzeit

Analysieren Sie Ereignisse aus Apache Kafka, Amazon Kinesis oder anderen Streaming-Datenquellen in Echtzeit mit Apache Spark Streaming und Apache Flink, um lang andauernde, hochverfügbare und fehlertolerante Streaming-Datenleitungen in EMR zu erstellen. Legen Sie transformierte Datensätze in S3 oder HDFS und Einblicke in Amazon Elasticsearch Service ab.

Erfahren Sie, wie Hearst Spark Streaming nutzt »

Interaktive Analysen

EMR Notebooks bieten eine verwaltete Analyseumgebung auf Basis von Open-Source-Jupyter, die es Daten-Wissenschaftlern, Analysten und Entwicklern ermöglicht, Daten vorzubereiten und zu visualisieren, mit Kollegen zusammenzuarbeiten, Anwendungen zu erstellen und interaktive Analysen durchzuführen.

Genomik

Mit EMR können riesige Mengen genomischer Daten und anderer wissenschaftlicher Datensätze rasch und effizient verarbeitet werden. Forscher können kostenlos auf durch AWS gehostete genomische Daten zugreifen.

Erfahren Sie mehr über Apache Spark und Präzisionsmedizin »

Fallbeispiele

Analytische Forschung

Weitere Informationen ...

Neuerungen

Datum
  • Datum
1

Erste Schritte mit AWS

EMR-Migrationsleitfaden lesen
Migrationsfaden lesen

Erfahren Sie, wie Sie Big Data von lokalen Speicherorten zu AWS migrieren.

Weitere Informationen 
Für ein kostenloses AWS-Konto registrieren
Für ein kostenloses Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Beginnen Sie mit der Entwicklung mit EMR in der Konsole
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie die Erstellung mit Amazon EMR in der AWS-Konsole.

Anmelden 

Big Data von lokalen Speicherorten zu AWS migrieren

Ressourcen zur Planung Ihrer Migration

Weitere Informationen zu Big Data und Analysen auf AWS

AWS Big Data Blog lesen