AWS Cloud
AWS Cloud
Erste Schritte mit Amazon EMR

Amazon EMR bietet ein verwaltetes Hadoop-Framework, mit dem Sie umfangreiche Datenmengen einfach, schnell und kosteneffektiv in dynamisch skalierbaren Amazon EC2 Instances verarbeiten können. Sie können in Amazon EMR auch andere beliebte verteilte Frameworks wie Apache Spark, HBase, Presto und Flink ausführen. Darüber hinaus haben Sie die Möglichkeit, mit Daten in anderen AWS-Datenspeichern wie Amazon S3 und Amazon DynamoDB zu interagieren.

Amazon EMR verarbeitet sicher und zuverlässig eine breite Palette von Big Data-Anwendungsfällen. Hierzu zählen unter anderem Protokollanalysen, Web-Indizierungen, Datentransformationen (ETL), maschinelles Lernen, Finanzanalysen, wissenschaftliche Simulationen und Bioinformatik.

Um Videos auf dieser Seite ansehen zu können, ist Adobe Flash Player oder ein anderer, moderner Browser ist erforderlich.

amazon_emr_thumb_resize_prod_pg_378x171
6:03
Einführung in Amazon EMR

Zum Vergrößern klicken

Amazon EMR Release Velocity

Amazon EMR Release Velocity

Dank Versionsverwaltung auf Amazon EMR können Sie problemlos die neuesten Open-Source-Projekte auf Ihrem EMR-Cluster öffnen, darunter auch Anwendungen in den Ökosystemen von Apache Hadoop und Spark. Die Software wird von Amazon EMR installiert und konfiguriert. Ihnen bleibt dadurch mehr Zeit zur Steigerung der Wertschöpfung Ihrer Daten, ohne sich Gedanken über die Infrastruktur oder Verwaltungsaufgaben machen zu müssen.


Benutzerfreundlich

Benutzerfreundlich

Sie können ein Amazon EMR-Cluster in wenigen Minuten starten. Sie brauchen sich nicht um die Bereitstellung von Knoten, die Einrichtung von Clustern, die Konfiguration von Hadoop oder die Optimierung von Clustern zu kümmern. Diese Aufgaben werden von Amazon EMR ausgeführt, damit Sie sich auf die Analyse konzentrieren können. 

Geringe Kosten

Geringe Kosten

Die Preisgestaltung von Amazon EMR ist einfach und berechenbar: Sie zahlen einen Stundentarif für jede genutzte Instance-Stunde. Sie können einen Hadoop-Cluster mit 10 Knoten schon für nur 0,15 USD pro Stunde starten. Da Amazon EMR über systemeigene Unterstützung für Amazon EC2 Spot und Reserved Instances verfügt, können Sie außerdem 50 bis 80 % der Kosten der zugrunde liegenden EC2 Instances einsparen.

Elastic

Elastisch

Mit Amazon EMR können Sie eine, Hunderte oder sogar Tausende von Datenverarbeitungs-Instances bereitstellen, um Daten jeder Größenordnung zu verarbeiten. Sie können die Anzahl der Instances einfach manuell oder mittels Auto Scaling erhöhen oder verringern, und zahlen nur für das, was Sie nutzen.

Zuverlässig

Zuverlässig

Sie brauchen weniger Zeit für die Optimierung und Überwachung Ihres Clusters aufzuwenden. Amazon EMR hat Hadoop für die Cloud optimiert. Es überwacht auch Ihren Cluster, wiederholt fehlgeschlagene Aufgaben und ersetzt Instances mit schlechter Leistung automatisch.

 

Optimale Sicherheit

Sicher

Amazon EMR konfiguriert automatisch die Amazon EC2-Firewall-Einstellungen, die den Netzwerkzugriff auf Instances steuern, und Sie können Cluster in Amazon Virtual Private Cloud (VPC) starten, einem selbst definierten logisch isolierten Netzwerk. Für in Amazon S3 gespeicherte Objekte können Sie die Amazon S3-Verschlüsselung auf der Serverseite oder Amazon S3-Verschlüsselung auf der Clientseite mit EMRFS, AWS Key Management Service oder mit vom Kunden verwalteten Schlüsseln verwenden.

Flexibel

Flexibel

Sie haben die vollständige Kontrolle über Ihren Cluster. Sie verfügen über Root-Zugriff auf jede Instance, sodass Sie mühelos zusätzliche Anwendungen installieren können, und Sie können jeden Cluster anpassen. Amazon EMR unterstützt zudem mehrere Hadoop-Verteilungen und -Anwendungen.

Click-Stream-Analyse

Click-Stream-Analyse

Sie können mit Amazon EMR Clickstream-Daten analysieren, um Benutzer zu segmentieren, Benutzereinstellungen zu verstehen und effektivere Anzeigen zu schalten.    
    
Weitere Informationen dazu, wie Razorfish mit EMR Click-Stream-Analysen durchführt »

Echtzeitanalyse

Echtzeitanalysen

Verwenden und verarbeiten Sie Echtzeitdaten von Amazon Kinesis, Apache Kafka oder anderen Daten-Streams mit Spark Streaming für Amazon EMR. Führen Sie fehlertolerante Streaming-Analysen durch, und schreiben Sie die Ergebnisse in Amazon S3 oder HDFS.
Erfahren Sie, wie Hearst Spark Streaming nutzt »

Protokollanalyse

Protokollanalyse

Mit Amazon EMR lassen sich durch Web- und mobile Anwendungen generierte Protokolle verarbeiten. Amazon EMR hilft den Kunden, Petabytes an unstrukturierten und halbstrukturierten Daten in nützliche Einblicke in Anwendungen und Benutzerverhalten zu verwandeln.
Erfahren Sie, wie Yelp mithilfe von EMR wichtige Website-Funktionen verbessert »

ETL

Extract Transform Load (ETL)

Amazon EMR bietet Ihnen die Möglichkeit, Verarbeitungslasten zur Datentransformation (ETL) großer Datensätze, wie das Sortieren, Aggregieren und Zusammenführen von Daten, schnell und kosteneffizient durchzuführen.
  
Erfahren Sie, wie Redfin transiente EMR-Cluster für ETL verwendet »

Prädiktive Analysen

Prädiktive Analysen

Apache Spark für Amazon EMR beinhaltet MLlib für skalierbare Algorithmen für maschinelles Lernen. Alternativ haben Sie auch die Möglichkeit, Ihre eigenen Bibliotheken zu verwenden. Dank der In-Memory-Speicherung von Datensätzen bietet Spark eine hohe Leistung für gängige Verarbeitungslasten im Bereich des maschinellen Lernens.
Erfahren Sie, wie Intent Media Spark MLib verwendet »

Genomik

Genomik

Mit Amazon EMR können riesige Mengen genomischer Daten und anderer wissenschaftlicher Datensätze rasch und effizient verarbeitet werden. Forscher können kostenfrei auf durch AWS gehostete genomische Daten zugreifen.
Erfahren Sie mehr über Apache Spark und Präzisionsmedizin »

Der Einstieg in Amazon EMR ist ganz einfach. Nutzen Sie unser Handbuch Erste Schritte, um mit nur wenigen Klicks Ihr erstes Amazon EMR-Cluster zu erstellen und Daten zu analysieren.

 

Erste Schritte