Amazon EMR

Einfache Ausführung und Skalierung von Apache Spark, Hive, Presto und anderen Big-Data-Frameworks

Amazon EMR ist die branchenführende Cloud-Big-Data-Plattform für die Verarbeitung riesiger Datenmengen mit Open-Source-Tools wie Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi und Presto. Mit EMR können Sie die Analyse im Petabyte-Maßstab zu Kosten weniger als der Hälfte herkömmlicher On-Premise-Lösungen und mehr als 3x schneller als Standard-Apache Spark ausführen. Bei kurz andauernden Aufgaben können Sie Cluster hoch- und herunterfahren und pro Sekunde für die verwendeten Instances zahlen. Bei lang andauernden Workloads können Sie hochverfügbare Cluster erstellen, die automatisch skaliert werden, um den Bedarf zu decken. Wenn Sie bereits On-Premise-Bereitstellungen von Open-Source-Tools wie z. B. Apache Spark und Apache Hive haben, können Sie auch EMR-Cluster auf AWS Outposts ausführen.

Erfahren Sie, wie Sie Kosten senken und Vorgänge vereinfachen können, indem Sie On-Premise-Workloads auf EMR migrieren

Entdecken Sie, wie Apache Hudi die Pipelines für die Änderungsdatenerfassung (Change Data Capture, CDC) und Datenschutzbestimmungen vereinfacht

Eine Einführung in Amazon EMR (3:00)

Vorteile

Einfache Nutzung

Analysten, Dateningenieure und Daten-Wissenschaftler können EMR-Notebooks verwenden, mit dem Einzelpersonen und Teams leicht zusammenarbeiten und Daten interaktiv untersuchen, verarbeiten und visualisieren können. Sie können einfach die Version der EMR-Anwendungen und den Typ der Datenverarbeitung angeben, die Sie verwenden möchten. EMR kümmert sich um die Bereitstellung, Konfiguration und Optimierung von Clustern, damit Sie sich auf die Ausführung von Analysen konzentrieren können.

Geringe Kosten

EMR-Preise sind einfach und planbar: Sie zahlen für jede genutzte Sekunde, wobei mindestens eine Gebühr für eine Minute in Rechnung gestellt wird. Sie können einen EMR-Cluster mit 10 Knoten schon für nur 0,15 USD pro Stunde starten. Sie können auch 50 bis 80 % der Kosten der Instances sparen, wenn Sie Amazon EC2 Spot für vorübergehende Workloads und Reserved Instances für lang andauernde Workloads auswählen. Sie können auch Savings Plans verwenden.

Elastisch

Im Gegensatz zur starren Infrastruktur von On-Premise-Clustern entkoppelt EMR Datenverarbeitung und Speicher, sodass Sie diese jeweils unabhängig skalieren und mehrstufige Speicherung von Amazon S3 nutzen können. Mit EMR können Sie eine, Hunderte oder sogar Tausende von Datenverarbeitungs-Instances bereitstellen, um Daten jeder Größenordnung zu verarbeiten. Die Anzahl der Instances kann automatisch mithilfe von Auto Scaling (das die Clustergrößen nach Auslastung verwaltet) erhöht oder verringert werden und Sie bezahlen nur für das, was Sie nutzen.

Zuverlässig

Sie müssen weniger Zeit für die Optimierung und Überwachung Ihres Clusters aufwenden. EMR ist für die Cloud optimiert. Es überwacht auch Ihren Cluster, wiederholt fehlgeschlagene Aufgaben und ersetzt Instances mit schlechter Leistung automatisch. Durch mehrere Master-Knoten sind die Cluster hochverfügbar und im Falle eines Knotenausfalls wird ein automatisches Failover eingeleitet. EMR bietet die neuesten stabilen Open-Source-Software-Versionen, sodass Sie keine Aktualisierungen und Bugfixes verwalten müssen, was zu weniger Problemen und weniger Aufwand bei der Wartung der Umgebung führt.

Sicher

EMR konfiguriert automatisch die EC2-Firewall-Einstellungen, die den Netzwerkzugriff auf Instances steuern, und startet Cluster in Amazon Virtual Private Cloud (VPC). Sie können die Verschlüsselung auf der Serverseite oder die Verschlüsselung auf der Clientseite mit dem AWS Key Management Service oder Ihren eigenen kundenverwalteten Schlüsseln verwenden. Mit EMR ist es einfach, andere Verschlüsselungsoptionen zu aktivieren, z. B. Verschlüsselung während der Übertragung und im Speicher, sowie starke Authentifizierung mit Kerberos. Sie können AWS Lake Formation oder Apache Ranger verwenden, um detaillierte Datenzugriffssteuerungen für Datenbanken, Tabellen und Spalten anzuwenden.

Flexibel

Sie haben die vollständige Kontrolle über Ihren Cluster mit Root-Zugriff auf jede Instance. Sie können EMR-Cluster mit benutzerdefinierten Amazon Linux-AMIs starten und zusätzliche Anwendungen mit Bootstrap-Aktionen problemlos installieren. Mit EMR können Sie Anwendungen bei ausführenden Clustern im laufenden Betrieb neu konfigurieren, ohne Cluster neu starten zu müssen. Darüber hinaus können Sie mit Hadoop 3.0 Bibliotheksabhängigkeiten in Docker-Containern verpacken und sie mit Ihren Aufgaben übermitteln, um Umgebungsabhängigkeiten zu vereinfachen.

Anwendungsfälle

Machine Learning

Verwenden Sie die integrierten Machine-Learning-Tools von EMR, einschließlich Apache Spark MLlib, TensorFlow und Apache MXNet für skalierbare Machine-Learning-Algorithmen. Zudem verwenden Sie benutzerdefinierte AMIs und Bootstrap-Aktionen, um Ihre bevorzugten Bibliotheken und Tools einfach hinzuzufügen und Ihre eigenen prädiktiven Analysetools zusammenzustellen.

Extract Transform Load (ETL)

EMR bietet Ihnen die Möglichkeit, Datentransformations-Workloads (ETL) großer Datensätze, wie das Sortieren, Aggregieren und Zusammenführen von Daten, schnell und kosteneffizient durchzuführen.

Erfahren Sie, wie Redfin transiente EMR-Cluster für ETL verwendet »

Clickstream-Analyse

Analysieren Sie Clickstream-Daten aus Amazon S3 mit Apache Spark und Apache Hive, um Benutzer zu segmentieren, Benutzereinstellungen nachzuvollziehen und effektivere Anzeigen zu schalten.

Streamen in Echtzeit

Analysieren Sie Ereignisse aus Apache Kafka, Amazon Kinesis oder anderen Streaming-Datenquellen in Echtzeit mit Apache Spark Streaming und Apache Flink, um lang andauernde, hochverfügbare und fehlertolerante Streaming-Datenleitungen in EMR zu erstellen. Legen Sie transformierte Datensätze in S3 oder HDFS und Einblicke in Amazon Elasticsearch Service ab.

Erfahren Sie, wie Hearst Spark Streaming nutzt »

Interaktive Analysen

EMR Notebooks bieten eine verwaltete Analyseumgebung auf Basis von Open-Source-Jupyter, die es Daten-Wissenschaftlern, Analysten und Entwicklern ermöglicht, Daten vorzubereiten und zu visualisieren, mit Kollegen zusammenzuarbeiten, Anwendungen zu erstellen und interaktive Analysen durchzuführen.

Genomik

Mit EMR können riesige Mengen genomischer Daten und anderer wissenschaftlicher Datensätze rasch und effizient verarbeitet werden. Forscher können kostenlos auf durch AWS gehostete genomische Daten zugreifen.

Erfahren Sie mehr über Apache Spark und Präzisionsmedizin »

Fallbeispiele

Analytische Forschung

Weitere Informationen ...

Neuerungen

Datum
  • Datum
1

Erste Schritte mit AWS

EMR-Migrationsleitfaden lesen
Migrationsfaden lesen

Erfahren Sie, wie Sie Big Data von lokalen Speicherorten zu AWS migrieren.

Weitere Informationen 
Für ein kostenloses AWS-Konto registrieren
Für ein kostenloses Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Beginnen Sie mit der Entwicklung mit EMR in der Konsole
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie die Erstellung mit Amazon EMR in der AWS-Konsole.

Anmelden 

Big Data von lokalen Speicherorten zu AWS migrieren

Ressourcen zur Planung Ihrer Migration

Weitere Informationen zu Big Data und Analysen auf AWS

AWS Big Data Blog lesen