Amazon Elastic MapReduce (Amazon EMR) ist ein Web-Service, mit dem große Datenmengen schnell und kostengünstig verarbeitet werden können.

Amazon EMR nutzt Hadoop, ein Open Source-Framework, für die Verteilung Ihrer Daten und die Verarbeitung auf einem skalierbaren Cluster aus Amazon EC2-Instances. Amazon EMR wird von einer Vielzahl von Anwendungen verwendet, darunter Anwendungen für Protokollanalyse, Web-Indizierung, Data Warehousing, maschinelles Lernen, Finanzanalyse, wissenschaftliche Simulationen und Bioinformatik. Unsere Kunden starten jährlich Millionen von EMR-Clustern.


Sie können ein Amazon EMR-Cluster in wenigen Minuten starten. Sie brauchen sich nicht um die Bereitstellung von Knoten, die Einrichtung von Clustern, die Konfiguration von Hadoop oder die Optimierung von Clustern zu kümmern. Diese Aufgaben werden von Amazon EMR ausgeführt, damit Sie sich auf die Analyse konzentrieren können.

Mit Amazon EMR können Sie eine, Hunderte oder sogar Tausende von Datenverarbeitungs-Instances bereitstellen, um Daten jeder Größenordnung zu verarbeiten. Sie können die Anzahl der Instances mühelos erhöhen oder verringern und zahlen nur für das, was Sie nutzen.

Sie können einen Hadoop-Cluster mit 10 Knoten schon ab 0,15 USD pro Stunde in Betrieb nehmen. Da Amazon EMR über systemeigene Unterstützung für Spot-und Reserved Instances verfügt, können Sie außerdem 50-80 % der Kosten der zugrunde liegenden EC2-Instances einsparen.

Sie brauchen weniger Zeit für die Optimierung und Überwachung Ihres Clusters aufzuwenden. Amazon EMR hat Hadoop für die Cloud optimiert. Es überwacht auch Ihren Cluster, wiederholt fehlgeschlagene Aufgaben und ersetzt Instances mit schlechter Leistung automatisch.

Amazon EMR konfiguriert automatisch die Amazon EC2-Firewall-Einstellungen, die den Netzwerkzugriff auf Instances steuern, und Sie können Cluster in Amazon Virtual Private Cloud (VPC) starten, einem selbst definierten logisch isolierten Netzwerk.

Sie haben die vollständige Kontrolle über Ihren Cluster. Sie verfügen über Root-Zugriff auf jede Instance, sodass Sie mühelos zusätzliche Anwendungen installieren können, und Sie können jeden Cluster anpassen. Amazon EMR unterstützt zudem mehrere Hadoop-Verteilungen und -Anwendungen.

Amazon EMR kann zur Analyse von Clickstream-Daten verwendet werden, um die Benutzer zu segmentieren und ihre Präferenzen zu verstehen. Inserenten können auch Clickstreams und die Aufrufprotokolle analysieren, um die Effizienz der Werbung zu steigern.

Weitere Informationen dazu, wie Razorfish mit EMR Click-Stream-Analysen durchführt »

Mit Amazon EMR können riesige Mengen genomischer Daten und anderer wissenschaftlicher Datensätze rasch und effizient verarbeitet werden. Forscher können kostenfrei auf in AWS gehostete genomische Daten zugreifen.

Informationen zum 1000 Genomes-Projekt und AWS »

Mit Amazon EMR lassen sich durch Web- und mobile Anwendungen generierte Protokolle verarbeiten. Amazon EMR hilft Kunden, Petabytes an unstrukturierten und halbstrukturierten Daten in nützliche Einblicke in Anwendungen und Benutzerverhalten zu verwandeln.

Erfahren Sie, wie Yelp mithilfe von EMR wichtige Website-Funktionen verbessert »

So können Sie Amazon EMR nutzen:

  1. Entwickeln Sie die Anwendung für Ihre Datenverarbeitung. Sie können Java, Hive (eine SQL-artige Sprache), Pig (eine Datenverarbeitungssprache), Cascading, Ruby, Perl, Python, R, PHP, C++ oder Node.js verwenden. Amazon EMR bietet Ihnen für einen schnellen Einstieg Codebeispiele und Tutorials.
  2. Hochladen von Anwendung und Daten auf Amazon S3. Wenn Sie eine große Datenmenge hochladen müssen, ist es überlegenswert, AWS Import/Export oder AWS Direct Connect zu verwenden (zum Hochladen mittels physischer Speichermedien bzw. zum Herstellen einer dedizierten Netzwerkverbindung zwischen Ihrem Rechenzentrum und AWS). Wenn Sie möchten, können Sie Ihre Daten auch direkt in einen laufenden Cluster schreiben.
  3. Cluster konfigurieren und starten. Legen Sie über die AWS Management Console, die Befehlszeilen-Schnittstelle von EMR, SDKs oder APIs die Anzahl der EC2-Instances für Ihren Cluster, die Instance-Typen (Standard, hoher Speicherbedarf, hoher CPU-Bedarf, hoher E/A-Bedarf usw.), die Anwendungen, die installiert werden sollen, (Hive, Pig, HBase usw.) und den Standort Ihrer Anwendung und Daten fest. Sie können mit Bootstrap-Aktionen zusätzliche Software installieren oder die Standardeinstellungen ändern.
  4. (Optional) Cluster überwachen. Sie können den Zustand und den Fortschritt des Clusters mit der Management Console, der Befehlszeilen-Schnittstelle, SDKs oder APIs überwachen. Zur Überwachung/für Alarmsysteme kann EMR mit Amazon CloudWatch kombiniert werden. Es unterstützt auch beliebte Überwachungs-Tools wie Ganglia. Sie können jederzeit zum/aus dem Cluster Kapazitäten hinzufügen/entfernen, je nachdem, wieviel Daten zu verarbeiten sind. Zur Problembehebung steht die einfache Debugging-GUI der Konsole zur Verfügung.
  5. Ausgabe abrufen. Die Ausgabe kann von Amazon S3 oder von HDFS am Cluster abgerufen werden. Daten mit Tools wie Tableau und MicroStrategy visualisieren. Amazon EMR beendet den Cluster automatisch, wenn die Verarbeitung fertiggestellt ist. Alternativ können Sie den Cluster laufen lassen und ihm weitere Arbeit geben.

Sind Sie bereit, Ihren ersten Cluster zu starten? Klicken Sie hier, um das Erste-Schritte-Tutorial anzuzeigen. In diesem Tutorial werden Sie einen Cluster einrichten, der die Häufigkeit von Wörtern in einer Beispieltextdatei zählt. In wenigen Minuten werden Sie ihn zum Laufen gebracht haben.