Amazon Elastic MapReduce (Amazon EMR) ist ein Web-Service, mit dem große Datenmengen schnell und kostengünstig verarbeitet werden können.

Amazon EMR vereinfacht das Verarbeiten von Big Data, indem es ein verwaltetes Hadoop-Framework zur Verfügung stellt, mit dem Sie problemlos, schnell und kostengünstig große Datenmengen in dynamisch skalierbaren Amazon EC2-Instances verteilen und verarbeiten können. Es können in Amazon EMR auch andere beliebte verteilte Frameworks wie Apache Spark und Presto ausgeführt werden. Außerdem können Sie mit Daten in anderen AWS-Datenspeichern interagieren, etwa in Amazon S3 und Amazon DynamoDB.

Amazon EMR verarbeitet Ihre Big Data-Anwendungsfälle sicher und zuverlässig, darunter Anwendungen für Protokollanalyse, Web-Indizierung, Data Warehousing, maschinelles Lernen, Finanzanalyse, wissenschaftliche Simulationen und Bioinformatik.

Introduction to Amazon EMR (3:06)

thumb-S6Ja55n-o0M-3

Benutzerfreundlich

Sie können ein Amazon EMR-Cluster in wenigen Minuten starten. Sie brauchen sich nicht um die Bereitstellung von Knoten, die Einrichtung von Clustern, die Konfiguration von Hadoop oder die Optimierung von Clustern zu kümmern. Diese Aufgaben werden von Amazon EMR ausgeführt, damit Sie sich auf die Analyse konzentrieren können.

Geringe Kosten

Die Preisgestaltung von Amazon EMR ist einfach und berechenbar: Sie zahlen einen Stundentarif für jede genutzte Instance-Stunde. Sie können einen Hadoop-Cluster mit 10 Knoten schon für nur 0,15 USD pro Stunde starten. Da Amazon EMR über systemeigene Unterstützung für Spot und Reserved Instances verfügt, können Sie außerdem 50-80 % der Kosten der zugrunde liegenden EC2-Instances einsparen.

Elastisch

Mit Amazon EMR können Sie eine, Hunderte oder sogar Tausende von Datenverarbeitungs-Instances bereitstellen, um Daten jeder Größenordnung zu verarbeiten. Sie können die Anzahl der Instances mühelos erhöhen oder verringern, und Sie zahlen nur für das, was Sie nutzen.

Zuverlässig

Sie brauchen weniger Zeit für die Optimierung und Überwachung Ihres Clusters aufzuwenden. Amazon EMR hat Hadoop für die Cloud optimiert. Es überwacht auch Ihren Cluster, wiederholt fehlgeschlagene Aufgaben und ersetzt Instances mit schlechter Leistung automatisch.

Sicher

Amazon EMR konfiguriert automatisch die Amazon EC2-Firewall-Einstellungen, die den Netzwerkzugriff auf Instances steuern, und Sie können Cluster in Amazon Virtual Private Cloud (VPC) starten, einem selbst definierten logisch isolierten Netzwerk.  Für in Amazon S3 gespeicherte Objekte können Sie die Amazon S3-Verschlüsselung auf der Serverseite oder Amazon S3-Verschlüsselung auf der Clientseite mit EMRFS, AWS Key Management Service oder mit vom Kunden verwalteten Schlüsseln verwenden.

Sicher

Sie haben die vollständige Kontrolle über Ihren Cluster. Sie verfügen über Root-Zugriff auf jede Instance, sodass Sie mühelos zusätzliche Anwendungen installieren können, und Sie können jeden Cluster anpassen. Amazon EMR unterstützt zudem mehrere Hadoop-Verteilungen und -Anwendungen.

Amazon EMR kann zur Analyse von Clickstream-Daten verwendet werden, um die Benutzer zu segmentieren und ihre Präferenzen zu verstehen. Inserenten können auch Clickstreams und die Aufrufprotokolle analysieren, um die Effizienz der Werbung zu steigern.

Weitere Informationen dazu, wie Razorfish mit EMR Click-Stream-Analysen durchführt »

Mit Amazon EMR können riesige Mengen genomischer Daten und anderer wissenschaftlicher Datensätze rasch und effizient verarbeitet werden. Forscher können kostenfrei auf durch AWS gehostete genomische Daten zugreifen.

Hier finden Sie Informationen zu den 1000 Projekten von Genomes und AWS »

Mit Amazon EMR lassen sich durch Web- und mobile Anwendungen generierte Protokolle verarbeiten. Amazon EMR hilft den Kunden, Petabytes an unstrukturierten und halbstrukturierten Daten in nützliche Einblicke in Anwendungen und Benutzerverhalten zu verwandeln.

Erfahren Sie, wie Yelp mithilfe von EMR wichtige Website-Funktionen verbessert »

Sind Sie bereit, Ihren ersten Cluster zu starten? Klicken Sie hier, um das Erste-Schritte-Tutorial anzuzeigen. In diesem Tutorial werden Sie einen Cluster einrichten, der die Häufigkeit von Wörtern in einer Beispieltextdatei zählt. In wenigen Minuten werden Sie Ihren Cluster zum Laufen gebracht haben.