Amazon EMR

Einfache Ausführung und Skalierung von Apache Spark, Hadoop, HBase, Presto, Hive und anderen Big Data-Frameworks

Amazon EMR ist die branchenführende Big-Data-Plattform, die nativ in der Cloud ist und es Teams ermöglicht, große Datenmengen schnell und kostengünstig zu verarbeiten. Open-Source-Tools wie Apache Spark, Apache Hive, Apache HBase, Apache Flink und Presto in Kombination mit der dynamischen Skalierbarkeit von Amazon EC2 und dem skalierbaren Speicher von Amazon S3 bieten Analyseteams die benötigte Funktionseinheit und Flexibilität, um mit EMR Analysen im Petabyte-Bereich für einen Bruchteil der Kosten herkömmlicher lokaler Cluster durchzuführen. Entwickler und Analysten können Jupyter-basierte EMR Notebooks für die iterative Entwicklung, Zusammenarbeit und den Zugriff auf Daten verwenden, die in AWS-Datenprodukten wie Amazon S3, Amazon DynamoDB und Amazon Redshift gespeichert sind – für schnellere Abfrageergebnisse und eine schnelle Operationalisierung der Analysen.

Kunden aus vielen Branchen nutzen EMR, um Anwendungsfälle mit großen Datenmengen sicher und zuverlässig zu bearbeiten, darunter Machine Learning, Datentransformationen (ETL), finanzielle und wissenschaftliche Simulationen, Bioinformatik, Protokollanalyse und Deep Learning. EMR bietet Teams die Flexibilität, Anwendungsfälle auf kurzlebigen Einzweck-Clustern, die sich automatisch an die Nachfrage anpassen, oder auf lang laufenden, hochverfügbaren Clustern mit dem neuen Multi-Master-Bereitstellungsmodus auszuführen. 

Eine Einführung in Amazon EMR (3:00)

Vorteile

Einfache Nutzung

EMR startet Cluster innerhalb von Minuten. Dabei müssen Sie sich nicht um die Bereitstellung von Knoten, die Einrichtung der Infrastruktur, die Konfiguration von Hadoop oder die Optimierung von Clustern kümmern. Diese Aufgaben werden von EMR ausgeführt, damit Sie sich auf die Analyse konzentrieren können. Analysten, Dateningenieure und Daten-Wissenschaftler können mithilfe von EMR-Notebooks in Sekundenschnelle ein serverloses Jupyter-Notebook starten, mit dem Einzelpersonen und Teams zusammenarbeiten und Daten in einem einfach zu bedienenden Notebook-Format interaktiv untersuchen, verarbeiten und visualisieren können.

Geringe Kosten

EMR-Preise sind einfach und planbar: Sie zahlen für jede genutzte Sekunde, wobei mindestens eine Gebühr für eine Minute in Rechnung gestellt wird. Sie können einen 10-Knoten-EMR-Cluster mit Anwendungen wie Apache Spark und Apache Hive für nur 0,15 USD pro Stunde starten. Da EMR über eine native Unterstützung für Amazon EC2 Spot und Reserved Instances verfügt, können Sie außerdem 50 bis 80 % der Kosten der zugrunde liegenden Instances einsparen.

Elastisch

Mit EMR können Sie eine, Hunderte oder sogar Tausende von Datenverarbeitungs-Instances bereitstellen, um Daten jeder Größenordnung zu verarbeiten. Die Anzahl der Instances kann manuell oder automatisch mithilfe von Auto Scaling (das die Clustergrößen nach Auslastung verwaltet) erhöht oder verringert werden, und Sie bezahlen nur für das, was Sie nutzen. Im Gegensatz zur starren Infrastruktur von lokalen Clustern entkoppelt EMR Rechenleistung und persistenten Speicher, sodass Sie diese jeweils unabhängig skalieren können.

Zuverlässig

Sie müssen weniger Zeit für die Optimierung und Überwachung Ihres Clusters aufwenden. EMR ist für die Cloud optimiert. Es überwacht auch Ihren Cluster, wiederholt fehlgeschlagene Aufgaben und ersetzt Instances mit schlechter Leistung automatisch. EMR bietet die neuesten stabilen Open-Source-Software-Versionen, sodass Sie keine Aktualisierungen und Bugfixes verwalten müssen, was zu weniger Problemen und weniger Aufwand bei der Wartung der Umgebung führt. Durch mehrere Master-Knoten sind die Cluster hochverfügbar und im Falle eines Knotenausfalls wird ein automatisches Failover eingeleitet.

Sicher

EMR konfiguriert automatisch die EC2-Firewall-Einstellungen, die den Netzwerkzugriff auf Instances steuern, und startet Cluster in Amazon Virtual Private Cloud (VPC), einem von Ihnen selbst definierten logisch isolierten Netzwerk. Für in S3 gespeicherte Objekte können Sie die Verschlüsselung auf der Serverseite oder die Verschlüsselung auf der Clientseite mit EMRFS (einem Objektspeicher für Hadoop auf S3) mithilfe von AWS Key Management Service oder vom Kunden verwalteten Schlüsseln verwenden. Mit EMR ist es einfach, andere Verschlüsselungsoptionen zu aktivieren, z. B. Verschlüsselung während der Übertragung und im Speicher sowie starke Authentifizierung mit Kerberos.

Flexibel

Sie haben die vollständige Kontrolle über Ihren Cluster. Sie verfügen über Root-Zugriff auf jede Instance, Sie können mühelos zusätzliche Anwendungen installieren und jeden Cluster mit Bootstrap-Aktionen anpassen. Sie können EMR-Cluster auch mit benutzerdefinierten Amazon Linux AMIs starten und laufende Cluster während der Laufzeit neu konfigurieren, ohne dass der Cluster neu gestartet werden muss.

Anwendungsfälle

Machine Learning

Verwenden Sie die integrierten Tools für Machine Learning von EMR, einschließlich Apache Spark MLlib, TensorFlow und Apache MXNet für skalierbare Machine-Learning-Algorithmen, und verwenden Sie benutzerdefinierte AMIs und Bootstrap-Aktionen, um Ihre bevorzugten Bibliotheken und Tools einfach hinzuzufügen und Ihre eigenen prädiktiven Analysetools zusammenzustellen.

Erfahren Sie, wie Intent Media Spark MLib verwendet »

Extract Transform Load (ETL)

EMR bietet Ihnen die Möglichkeit, Verarbeitungslasten zur Datentransformation (ETL) großer Datensätze, wie das Sortieren, Aggregieren und Zusammenführen von Daten, schnell und kosteneffizient durchzuführen.

Erfahren Sie, wie Redfin transiente EMR-Cluster für ETL verwendet »

Clickstream-Analyse

Analysieren Sie Clickstream-Daten aus Amazon S3 mit Apache Spark und Apache Hive, um Benutzer zu segmentieren, Benutzereinstellungen nachzuvollziehen und effektivere Anzeigen zu schalten.

Erfahren Sie, wie Razorfish mit EMR Click-Stream-Analysen durchführt »

Streamen in Echtzeit

Analysieren Sie Ereignisse aus Apache Kafka, Amazon Kinesis oder anderen Streaming-Datenquellen in Echtzeit mit Apache Spark Streaming und EMR, um lang laufende, hochverfügbare und fehlertolerante Streaming-Datenleitungen zu erstellen. Legen Sie transformierte Datensätze in Amazon S3 oder HDFS und Insights in Amazon Elasticsearch ab.

Erfahren Sie, wie Hearst Spark Streaming nutzt »

Interaktive Analysen

EMR-Notebooks bieten eine verwaltete Analyseumgebung auf Basis von Open-Source-Jupyter, die es Daten-Wissenschaftlern, Analysten und Entwicklern ermöglicht, Daten vorzubereiten und zu visualisieren, mit Kollegen zusammenzuarbeiten, Anwendungen zu erstellen und interaktive Analysen durchzuführen.

Genomik

Mit EMR können riesige Mengen genomischer Daten und anderer wissenschaftlicher Datensätze rasch und effizient verarbeitet werden. Forscher können kostenlos auf durch AWS gehostete genomische Daten zugreifen.

Erfahren Sie mehr über Apache Spark und Präzisionsmedizin »

Fallbeispiele

Analytische Forschung

1

Erste Schritte mit AWS

Step 1 - Sign up for an AWS account

Registrieren Sie sich, um ein AWS-Konto zu erstellen

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent.
icon2

Erfahren Sie mehr in unseren 10-Minuten-Tutorials

Entdecken und lernen Sie mit einfachen Tutorials.
icon3

Beginnen Sie die Erstellung mit AWS

Nutzen Sie schrittweise Anleitungen bei der Entwicklung, die Ihnen helfen, Ihr AWS-Projekt zu starten.

Big Data von lokalen Speicherorten zu AWS migrieren

Amazon EMR-Migrationsleitfaden lesen Einen lokalen Amazon EMR-Migrations-Workshop anfordern

Weitere Informationen zu Big Data on AWS

Big Data-Blog besuchen