Amazon Elastic MapReduce (Amazon EMR) ist ein Web-Service, mit dem große Datenmengen schnell und kostengünstig verarbeitet werden können.

Amazon EMR vereinfacht das Verarbeiten von Big Data, indem es ein verwaltetes Hadoop-Framework zur Verfügung stellt, mit dem Sie problemlos, schnell und kostengünstig große Datenmengen in dynamisch skalierbaren Amazon EC2-Instances verteilen und verarbeiten können. Es können in Amazon EMR auch andere beliebte verteilte Frameworks wie Spark und Presto ausgeführt werden. Außerdem können Sie mit Daten in anderen AWS-Datenspeichern interagieren, etwa in Amazon S3 und Amazon DynamoDB.

Amazon EMR verarbeitet Ihre Big Data-Anwendungsfälle sicher und zuverlässig, darunter Anwendungen für Protokollanalyse, Web-Indizierung, Data Warehousing, maschinelles Lernen, Finanzanalyse, wissenschaftliche Simulationen und Bioinformatik.

Introduction to Amazon EMR (3:06)

thumb-S6Ja55n-o0M-3

Erste Schritte mit Amazon EMR

Anmelden oder ein AWS-Konto erstellen

Wenn Sie hohe Datenverarbeitungsanforderungen haben, kommen für Sie ggf. niedrigere Gebühren in Frage.

Sie können auch für eine 12 Monate lang unbegrenzte EMR-Nutzung eine Vorauszahlung leisten.

Wenn Sie weitere Informationen wünschen, kontaktieren Sie uns.


Benutzerfreundlich

Sie können ein Amazon EMR-Cluster in wenigen Minuten starten. Sie brauchen sich nicht um die Bereitstellung von Knoten, die Einrichtung von Clustern, die Konfiguration von Hadoop oder die Optimierung von Clustern zu kümmern. Diese Aufgaben werden von Amazon EMR ausgeführt, damit Sie sich auf die Analyse konzentrieren können.

Geringe Kosten

Die Preisgestaltung von Amazon EMR ist einfach und berechenbar: Sie zahlen einen Stundentarif für jede genutzte Instance-Stunde. Sie können einen Hadoop-Cluster mit 10 Knoten schon ab 0,15 USD pro Stunde in Betrieb nehmen. Da Amazon EMR über systemeigene Unterstützung für Spot-und Reserved Instances verfügt, können Sie außerdem 50-80 % der Kosten der zugrunde liegenden EC2-Instances einsparen.

Elastisch

Mit Amazon EMR können Sie eine, Hunderte oder sogar Tausende von Datenverarbeitungs-Instances bereitstellen, um Daten jeder Größenordnung zu verarbeiten. Sie können die Anzahl der Instances mühelos erhöhen oder verringern und zahlen nur für das, was Sie nutzen.

Zuverlässig

Sie brauchen weniger Zeit für die Optimierung und Überwachung Ihres Clusters aufzuwenden. Amazon EMR hat Hadoop für die Cloud optimiert. Es überwacht auch Ihren Cluster, wiederholt fehlgeschlagene Aufgaben und ersetzt Instances mit schlechter Leistung automatisch.

Sicher

Amazon EMR konfiguriert automatisch die Amazon EC2-Firewall-Einstellungen, die den Netzwerkzugriff auf Instances steuern, und Sie können Cluster in Amazon Virtual Private Cloud (VPC) starten, einem selbst definierten logisch isolierten Netzwerk.  Für in Amazon S3 gespeicherte Objekte können Sie die Amazon S3-Verschlüsselung auf der Serverseite oder Amazon S3-Verschlüsselung auf der Clientseite mit EMRFS, AWS Key Management Service oder mit vom Kunden verwalteten Schlüsseln verwenden.

Sicher

Sie haben die vollständige Kontrolle über Ihren Cluster. Sie verfügen über Root-Zugriff auf jede Instance, sodass Sie mühelos zusätzliche Anwendungen installieren können, und Sie können jeden Cluster anpassen. Amazon EMR unterstützt zudem mehrere Hadoop-Verteilungen und -Anwendungen.

Amazon EMR kann zur Analyse von Clickstream-Daten verwendet werden, um die Benutzer zu segmentieren und ihre Präferenzen zu verstehen. Inserenten können auch Clickstreams und die Aufrufprotokolle analysieren, um die Effizienz der Werbung zu steigern.

Weitere Informationen dazu, wie Razorfish mit EMR Click-Stream-Analysen durchführt »

Mit Amazon EMR können riesige Mengen genomischer Daten und anderer wissenschaftlicher Datensätze rasch und effizient verarbeitet werden. Forscher können kostenfrei auf in AWS gehostete genomische Daten zugreifen.

Informationen zum 1000 Genomes-Projekt und AWS »

Mit Amazon EMR lassen sich durch Web- und mobile Anwendungen generierte Protokolle verarbeiten. Amazon EMR hilft Kunden, Petabytes an unstrukturierten und halbstrukturierten Daten in nützliche Einblicke in Anwendungen und Benutzerverhalten zu verwandeln.

Erfahren Sie, wie Yelp mithilfe von EMR wichtige Website-Funktionen verbessert »

So können Sie Amazon EMR nutzen:

  1. Entwickeln Sie die Anwendung für Ihre Datenverarbeitung. Sie können Java, Hive (eine SQL-artige Sprache), Pig (eine Datenverarbeitungssprache), Cascading, Ruby, Perl, Python, R, PHP, C++ oder Node.js verwenden. Amazon EMR bietet Ihnen für einen schnellen Einstieg Codebeispiele und Tutorials.
  2. Hochladen von Anwendung und Daten auf Amazon S3. Wenn Sie eine große Datenmenge hochladen müssen, ist es überlegenswert, AWS Import/Export oder AWS Direct Connect zu verwenden (zum Hochladen mittels physischer Speichermedien bzw. zum Herstellen einer dedizierten Netzwerkverbindung zwischen Ihrem Rechenzentrum und AWS). Wenn Sie möchten, können Sie Ihre Daten auch direkt in einen laufenden Cluster schreiben.
  3. Cluster konfigurieren und starten. Legen Sie über die AWS Management Console, die Befehlszeilen-Schnittstelle von EMR, SDKs oder APIs die Anzahl der EC2-Instances für Ihren Cluster, die Instance-Typen (Standard, hoher Speicherbedarf, hoher CPU-Bedarf, hoher E/A-Bedarf usw.), die Anwendungen, die installiert werden sollen, (Hive, Pig, HBase usw.) und den Standort Ihrer Anwendung und Daten fest. Sie können mit Bootstrap-Aktionen zusätzliche Software installieren oder die Standardeinstellungen ändern.
  4. (Optional) Cluster überwachen. Sie können den Zustand und den Fortschritt des Clusters mit der Management Console, der Befehlszeilen-Schnittstelle, SDKs oder APIs überwachen. Zur Überwachung/für Alarmsysteme kann EMR mit Amazon CloudWatch kombiniert werden. Es unterstützt auch beliebte Überwachungs-Tools wie Ganglia. Sie können jederzeit zum/aus dem Cluster Kapazitäten hinzufügen/entfernen, je nachdem, wieviel Daten zu verarbeiten sind. Zur Problembehebung steht die einfache Debugging-GUI der Konsole zur Verfügung.
  5. Ausgabe abrufen. Die Ausgabe kann von Amazon S3 oder von HDFS am Cluster abgerufen werden. Daten mit Tools wie Tableau und MicroStrategy visualisieren. Amazon EMR beendet den Cluster automatisch, wenn die Verarbeitung fertiggestellt ist. Alternativ können Sie den Cluster laufen lassen und ihm weitere Arbeit geben.

Sind Sie bereit, Ihren ersten Cluster zu starten? Klicken Sie hier, um das Erste-Schritte-Tutorial anzuzeigen. In diesem Tutorial werden Sie einen Cluster einrichten, der die Häufigkeit von Wörtern in einer Beispieltextdatei zählt. In wenigen Minuten werden Sie ihn zum Laufen gebracht haben.