Amazon EMR

Einfache Ausführung und Skalierung von Apache Spark, Hadoop, HBase, Presto, Hive und anderen Big Data-Frameworks

Amazon EMR bietet ein verwaltetes Hadoop-Framework, mit dem Sie umfangreiche Datenmengen einfach, schnell und kosteneffektiv in dynamisch skalierbaren Amazon EC2 Instances verarbeiten können. Sie können in Amazon EMR auch andere beliebte verteilte Frameworks wie Apache Spark, HBase, Presto, und Flink ausführen. Darüber hinaus haben Sie die Möglichkeit, mit Daten in anderen AWS-Datenspeichern wie Amazon S3 und Amazon DynamoDB zu interagieren. EMR Notebooks, basierend auf dem beliebten Jupyter Notebook, bieten eine Entwicklungs- und Kollaborationsumgebung für Ad-hoc-Abfragen und explorative Analysen.

EMR verarbeitet sicher und zuverlässig eine breite Palette von Big Data-Anwendungsfällen. Hierzu zählen unter anderem Protokollanalysen, Web-Indizierungen, Datentransformationen (ETL), Machine Learning, Finanzanalysen, wissenschaftliche Simulationen und Bioinformatik.

Eine Einführung in Amazon EMR (3:00)

Vorteile

Einfache Nutzung

Sie können ein EMR-Cluster in wenigen Minuten starten. Sie brauchen sich nicht um die Bereitstellung von Knoten, die Einrichtung von Clustern, die Konfiguration von Hadoop oder die Optimierung von Clustern zu kümmern. Diese Aufgaben werden von EMR ausgeführt, damit Sie sich auf die Analyse konzentrieren können. Datenwissenschaftler, Entwickler und Analysten können EMR Notebooks, eine verwaltete Umgebung auf Basis von Jupyter Notebook, auch für die Entwicklung von Anwendungen und die Zusammenarbeit mit Kollegen nutzen.

Geringe Kosten

EMR-Preise sind einfach und planbar: Sie zahlen für jede genutzte Sekunde, wobei mindestens eine Gebühr für eine Minute in Rechnung gestellt wird. Sie können einen 10-Knoten-EMR-Cluster mit Anwendungen wie Hadoop, Spark und Hive für nur 0,15 USD pro Stunde starten. Da EMR über eine native Unterstützung für Amazon EC2 Spot und Reserved Instances verfügt, können Sie außerdem 50 bis 80 % der Kosten der zugrunde liegenden EC2 Instances einsparen.

Flexibel

Mit EMR können Sie eine, Hunderte oder sogar Tausende von Datenverarbeitungs-Instances bereitstellen, um Daten jeder Größenordnung zu verarbeiten. Sie können die Anzahl der Instances einfach manuell oder mittels Auto Scaling erhöhen oder verringern, und zahlen nur für das, was Sie nutzen. EMR entkoppelt auch berechnete Instances und persistente Speicher, so dass sie unabhängig skaliert werden können.

Zuverlässig

Sie brauchen weniger Zeit für die Optimierung und Überwachung Ihres Clusters aufzuwenden. EMR hat Hadoop für die Cloud optimiert. Es überwacht auch Ihren Cluster, wiederholt fehlgeschlagene Aufgaben und ersetzt Instances mit schlechter Leistung automatisch. EMR bietet die neuesten stabilen Open-Source-Software-Versionen, so dass Sie keine Aktualisierungen und Bugfixes verwalten müssen, was zu weniger Problemen und weniger Aufwand bei der Wartung der Umgebung führt.

Sicher

EMR konfiguriert automatisch die Amazon EC2-Firewall-Einstellungen, die den Netzwerkzugriff auf Instances steuern, und Sie können Cluster in Amazon Virtual Private Cloud (VPC) starten, einem selbst definierten logisch isolierten Netzwerk. Für in Amazon S3 gespeicherte Objekte können Sie die Amazon S3-Verschlüsselung auf der Serverseite oder Amazon S3-Verschlüsselung auf der Clientseite mit EMRFS, AWS Key Management Service oder mit vom Kunden verwalteten Schlüsseln verwenden. Darüber hinaus können Sie mühelos andere Verschlüsselungsoptionen sowie die Authentifizierung mit Kerberos aktivieren.

Flexibel

Sie haben die vollständige Kontrolle über Ihren Cluster. Sie verfügen über Root-Zugriff auf jede Instance, sodass Sie mühelos zusätzliche Anwendungen installieren können, und Sie können jeden Cluster mit Bootstrap-Aktionen anpassen. Sie können EMR-Cluster auch mit benutzerdefinierten Amazon Linux-AMIs starten.

Anwendungsfälle

Clickstream-Analyse

Sie können mit EMR Clickstream-Daten analysieren, um Benutzer zu segmentieren, Benutzereinstellungen zu verstehen und effektivere Anzeigen zu schalten.

Weitere Informationen dazu, wie Razorfish mit EMR Click-Stream-Analysen durchführt »

Echtzeitanalysen

Verwenden und verarbeiten Sie Echtzeitdaten von Amazon Kinesis, Apache Kafka oder anderen Daten-Streams mit Spark Streaming für Amazon EMR. Führen Sie fehlertolerante Streaming-Analysen durch, und schreiben Sie die Ergebnisse in Amazon S3 oder HDFS.

Erfahren Sie, wie Hearst Spark Streaming nutzt »

Protokollanalyse

Mit Hadoop lassen sich durch Web- und mobile Anwendungen generierte Protokolle verarbeiten. Hadoop hilft den Kunden, Petabytes an unstrukturierten und halbstrukturierten Daten in nützliche Einblicke in Anwendungen und Benutzerverhalten zu verwandeln.

Extract Transform Load (ETL)

EMR bietet Ihnen die Möglichkeit, Verarbeitungslasten zur Datentransformation (ETL) großer Datensätze, wie das Sortieren, Aggregieren und Zusammenführen von Daten, schnell und kosteneffizient durchzuführen.

Erfahren Sie, wie Redfin transiente EMR-Cluster für ETL verwendet »

Prädiktive Analysen

Apache Spark für EMR beinhaltet MLlib für skalierbare Algorithmen für Machine Learning. Alternativ haben Sie auch die Möglichkeit, Ihre eigenen Bibliotheken zu verwenden. Durch die Speicherung von Datensätzen im Speicher kann Spark eine hervorragende Leistung für gängige Workloads des Machine Learning bieten.

Erfahren Sie, wie Intent Media Spark MLib verwendet »

Genomik

Mit EMR können riesige Mengen genomischer Daten und anderer wissenschaftlicher Datensätze rasch und effizient verarbeitet werden. Forscher können kostenlos auf durch AWS gehostete genomische Daten zugreifen.

Erfahren Sie mehr über Apache Spark und Präzisionsmedizin »

Fallbeispiele

Analytische Forschung

1

Erste Schritte mit AWS

icon1

Registrieren Sie sich, um ein AWS-Konto zu erstellen

Sie erhalten sofort Zugriff auf das kostenlose Kontingent für AWS.
icon2

Erfahren Sie mehr in unseren zehnminütigen praktischen Anleitungen

Entdecken und lernen Sie mit einfachen Tutorials.
icon3

Beginnen Sie die Erstellung mit AWS

Erstellen Sie mithilfe von Schritt-für-Schritt-Anleitungen AWS-Projekte.

Weitere Informationen zu Amazon EMR

Funktionsübersicht anzeigen
Bereit zum Entwickeln?
Erste Schritte mit Amazon EMR
Haben Sie noch Fragen?
Kontakt