Mit Amazon EMR können Sie schnell und einfach automatisch oder manuell Kapazität in beliebigem Umfang hinzufügen oder entfernen. Das ist sehr nützlich bei variablen oder nicht vorhersagbaren Verarbeitungsanforderungen. So kann es bei einem Verarbeitungsschwerpunkt in der Nacht sein, dass Sie tagsüber 100 Instances, in der Nacht aber 500 Instances benötigen. Oder es tritt der Fall ein, dass Sie für einen kurzen Zeitraum erhebliche Kapazitäten benötigen. Mit Amazon EMR können Sie kurzfristig Hunderte und Tausende von Instances bereitstellen, automatisch entsprechend den Rechenanforderungen skalieren und die Cluster herunterfahren, sobald die Aufgabe erledigt ist (um nicht für ungenutzte Kapazität zu zahlen).

Erste Schritte mit Amazon EMR

Kostenloses Konto erstellen

Hilfe erforderlich? Wenden Sie sich an uns.

elastic

Es gibt zwei Hauptoptionen für das Hinzufügen und Entfernen von Kapazitäten:

Mehrere Cluster bereitstellen: Wenn Sie mehr Kapazität benötigen, können Sie einfach einen neuen Cluster starten, den Sie wieder beenden, sobald Sie ihn nicht mehr benötigen. Sie können unbeschränkt viele Cluster haben. Bei mehreren Benutzern oder Anwendungen kann es ratsam sein, mehrere Cluster zu verwenden. So können Sie beispielsweise Ihre Eingabedaten in Amazon S3 speichern und für jede Anwendung, die diese Daten verarbeiten muss, einen eigenen Cluster starten. Ein Cluster kann für die CPU optimiert sein, ein anderer für die Speicherung usw.

Größe eines ausgeführten Clusters ändern: Mit Amazon EMR können Sie die Größe eines ausgeführten Clusters auf einfache Weise automatisch skalieren oder manuell ändern. Vergrößern Sie ein Cluster beispielsweise vorübergehend, um die Verarbeitungsleistung zu erhöhen, oder verkleinern Sie es, um Kosten zu sparen, wenn Sie die Kapazität nicht benötigen. Manche Kunden fügen bei Stapelverarbeitung Hunderte Instances hinzu, die sie danach wieder entfernen. Wenn Sie Ihrem Cluster Instances hinzufügen, kann EMR jetzt die bereitgestellte Kapazität unmittelbar nutzen. Beim Skalieren wählt EMR proaktiv Knoten im Leerlauf aus, um die Auswirkungen auf aktive Aufträge zu reduzieren.

Amazon EMR ist für Kostenreduktion bei der Verarbeitung großer Datenmengen konzipiert. Dafür sorgen Merkmale wie die günstige sekundenbasierte Verrechnung, die Amazon EC2 Spot-Integration, die Amazon EC2 Reserved Instance-Integration, die Elastizität und die Amazon S3-Integration.

Günstige Sekundensätze: Amazon EMR wird pro Sekunde mit einem Minimum von einer Minute in Rechnung gestellt, beginnend bei 0,015 USD pro Instance-Stunde für Instances vom Typ "Small" (131,40 USD pro Jahr). Im Abschnitt Preise finden Sie weitere Details.

Integration von Amazon EC2-Spot-Instances: Bei Amazon EC2 Spot-Instances können Sie selbst den Preis für Amazon EC2-Kapazität festlegen. Sie geben einfach ein, welchen Stundensatz Sie für einen bestimmten Instance-Typ maximal zu zahlen bereit sind. So lange Ihr Preisgebot über dem Spot-Instance-Marktpreis liegt, verfügen Sie über die Instances und zahlen so normalerweise einen Bruchteil des Preises von On-Demand-Instances. Der Spot Price schwankt abhängig von Angebot und Nachfrage an Instances, doch Sie zahlen niemals mehr als den von Ihnen angegebenen Höchstpreis. Mit Amazon EMR ist die Nutzung von Spot-Instances einfach – so sparen Sie Zeit und Geld. Amazon EMR-Cluster haben "Core-Knoten", auf denen HDFS läuft, und "Aufgabenknoten", wo das nicht der Fall ist. Aufgabenknoten sind ideal für Spot: Wenn der Spot-Preis steigt und Sie diese Instances verlieren, verlieren Sie keine in HDFS gespeicherten Daten. (Weitere Informationen über Core- und Aufgabenknoten.)

Integration von Amazon EC2 Reserved Instances: Mithilfe von Amazon EC2 Reserved Instances nutzen Sie die Vorteile elastischer Datenverarbeitung, sparen Kosten und reservieren Kapazität. Sie zahlen bei Reserved Instances eine geringe einmalige Gebühr und erhalten dafür einen beachtlichen Rabatt auf die für die Instance anfallende Gebühr pro Sekunde. Mit Amazon EMR ist die Nutzung von Reserved Instances einfach – damit Sie bis zu 65 % des Preises von On-Demand-Instances sparen können.

Elastizität: Da Sie in Amazon EMR auf einfache Weise Ihre Cluster automatisch skalieren können, müssen Sie keine Überkapazitäten bereitstellen. Beispiel: Sie wissen nicht, wie viele Daten Ihr/e Cluster in 6 Monaten verarbeiten wird/werden, oder Sie haben unregelmäßigen Verarbeitungsbedarf. Bei Amazon EMR müssen Sie nicht den künftigen Bedarf abschätzen oder für Bedarfsspitzen vorsorgen, da Sie jederzeit problemlos Kapazitäten hinzufügen oder entfernen können.

Amazon S3-Integration: Das EMR File System (EMRFS) ermöglicht EMR-Clustern die effiziente und sichere Verwendung von Amazon S3 als Objektspeicher für Hadoop. Sie können Ihre Daten in Amazon S3 speichern und mehrere Amazon EMR-Cluster zum Verarbeiten derselben Datenmenge verwenden. Jeder Cluster kann für eine bestimmte Verarbeitungslast optimiert werden. Das ist oft effizienter als ein einzelner Cluster, der verschiedene Verarbeitungslasten mit unterschiedlichen Anforderungen bedient. So können Sie etwa einen Cluster haben, der für E/A optimiert ist, und einen anderen für CPU, wobei beide denselben Datensatz in Amazon S3 verarbeiten. Außerdem können Sie, wenn Sie Ihre Eingabe- und Ausgabedaten in Amazon S3 speichern, Cluster herunterfahren, wenn sie nicht weiter benötigt werden. 

EMRFS ist leistungsstark beim Lesen von und Schreiben auf Amazon S3, unterstützt serverseitige oder clientseitige S3-Verschlüsselung mithilfe von AWS Key Management Service (KMS) oder vom Kunden verwalteten Schlüsseln und bietet eine optionale konsistente Ansicht, die auf Listen- und Lesen-nach-Schreiben-Konsistenz für Objekte prüft, die in den Metadaten nachverfolgt werden. Außerdem können Amazon EMR-Cluster sowohl EMRFS als auch HDFS benutzen, sodass Sie sich nicht zwischen On-Cluster-Speicherung und Amazon S3 zu entscheiden brauchen.

Integration des AWS Glue-Datenkatalogs: Sie können den AWS Glue-Datenkatalog als verwaltetes Metadaten-Repository nutzen, um externe Tabellenmetadaten für Apache Spark und Apache Hive zu speichern. Der Datenkatalog bietet zudem eine automatische Schemaerkennung und zeichnet den Verlauf der Schemaversionen auf. Dies ermöglicht es Ihnen, Metadaten für Ihre externen Tabellen in Amazon S3 auf einfache Weise dauerhaft außerhalb Ihres Clusters zu speichern.

Mit Amazon EMR können Sie mehrere Datenspeicher nutzen, einschließlich Amazon S3, das Hadoop Distributed File System (HDFS) und Amazon DynamoDB.

DetailsPage_EMR-Diagram

Amazon S3: Amazon S3 ist der überaus zuverlässige, skalierbare, sichere, schnelle und kostengünstige Speicherservice von Amazon. Mit dem EMR File System (EMRFS) kann Amazon EMR Amazon S3 effizient und sicher als Objektspeicher für Hadoop nutzen. Amazon EMR hat Hadoop in mehreren Hinsichten verbessert, damit Sie problemlos große in Amazon S3 gespeicherte Datenmengen verarbeiten können. EMRFS kann auch eine konsistente Ansicht aktivieren, um Objekte in Amazon S3 auf Listen- und Lesen-nach-Schreiben-Konsistenz zu prüfen.  EMRFS unterstützt serverseitige oder clientseitige S3-Verschlüsselung, um verschlüsselte Amazon S3-Objekte zu verarbeiten. Sie können auch den AWS Key Management Service (KMS) oder einen benutzerdefinierten Schlüsselanbieter verwenden.

Wenn Sie einen Cluster starten, streamt Amazon EMR die Daten von Amazon S3 zu jeder Instance Ihres Clusters und beginnt sofort mit der Verarbeitung. Die Speicherung der Daten in Amazon S3 und deren Verarbeitung in Amazon EMR hat unter anderem den Vorteil, dass Sie mehrere Cluster zur Verarbeitung derselben Daten einsetzen können. Sie könnten beispielsweise über einen Hive-Entwicklungs-Cluster verfügen, der für Arbeitsspeicher optimiert ist, und einen Pig-Produktions-Cluster, der für CPU optimiert ist, wobei beide die gleiche Eingabedatenmenge verwenden.

Hadoop Distributed File System (HDFS): HDFS ist das Hadoop-Dateisystem. Mit der aktuellen Amazon EMR-Topologie werden Instances in drei logische Instance-Gruppen unterteilt: die Master-Gruppe, die den YARN Resource Manager- und den HDFS Name Node Service ausführt, die Kerngruppe, die den HDFS DataNode Daemon und den YARN Node Manager Service ausführt, und die Aufgabengruppe, die den YARN Node Manager Service ausführt. Amazon EMR installiert HDFS in dem mit den Instances in der Kerngruppe verknüpften Speicher.  

Jede EC2-Instance verfügt über eine feste Speichermenge, die als "Instance-Speicher" bezeichnet wird und mit der Instance verbunden ist. Sie können den Speicher einer Instance auch anpassen, indem Sie der Instance Amazon EBS-Volumes hinzufügen. Sie können mit Amazon EMR standardmäßige (SSD), bereitgestellte (SSD) und magnetische Volume-Typen hinzufügen. Die einem EMR-Cluster hinzugefügten EBS-Volumes behalten Daten nach dem Herunterfahren des Clusters nicht bei. EMR bereinigt die Volumes automatisch, sobald Sie den Cluster beenden.

Sie können auch die vollständige Verschlüsselung für HDFS mithilfe einer Amazon EMR-Sicherheitskonfiguration aktivieren oder HDFS-Verschlüsselungszonen mit dem Hadoop Key Management Server manuell erstellen. 

Amazon DynamoDB: Amazon DynamoDB ist ein schneller vollständig verwalteter NoSQL-Datenbank-Service. Amazon EMR ist direkt mit Amazon DynamoDB integriert, sodass Sie hier schnell und effizient in Amazon DynamoDB gespeicherte Daten verarbeiten und Daten zwischen Amazon DynamoDB, Amazon S3 und HDFS übertragen können.

Andere AWS-Datenspeicher: Amazon EMR-Kunden nutzen auch den Amazon Relational Database Service (einen Webservice, mit dem sich relationale Datenbanken in der Cloud problemlos einrichten, betreiben und skalieren lassen), Amazon Glacier (einen besonders kostengünstigen Speicherservice zum Archivieren und Sichern von Daten) und Amazon Redshift (einen schnellen, vollständig verwalteten Data Warehouse-Service im Petabyte-Bereich). AWS Data Pipeline ist ein Web-Service zur Unterstützung des zuverlässigen Verarbeitens und Verschiebens von Daten zwischen AWS-Datenverarbeitungs- und -Speicherservices (einschließlich Amazon EMR) sowie lokalen Datenquellen in angegebenen Intervallen.

Amazon EMR unterstützt leistungsstarke und bewährte Hadoop-Tools wie Hive, Pig, HBase und Impala. Außerdem kann es mittels Bootstrap-Aktionen neben Hadoop MapReduce auch andere verteilte Computing-Frameworks, etwa Spark oder Presto ausführen. Sie können auch Hue und Zeppelin als GUI für die Interaktion mit Anwendungen in Ihrem Cluster verwenden.

Bei Hive handelt es sich um ein Open-Source-Data-Warehouse und Analyse-Paket von Datensätzen, das auf Hadoop ausgeführt wird. Hive wird mit Hive QL betrieben, einer SQL-basierten Sprache, mit der die Benutzer Daten strukturieren, zusammenfassen und abfragen können. Hive QL geht über Standard-SQL hinaus: Es wird ein erstklassiger Support für "Map"- und "Reduce"-Funktionen sowie komplexe erweiterbare, benutzerdefinierte Datentypen wie Json und Thrift angeboten. Damit wird die Verarbeitung komplexer und unstrukturierter Datenquellen ermöglicht, etwa von Textdokumenten und Protokolldateien. In Hive sind mittels in Java geschriebener benutzerdefinierter Funktionen anwenderspezifische Erweiterungen möglich. Amazon S3 hat zahlreiche Verbesserungen an Hive vorgenommen, etwa eine direkte Integration mit Amazon DynamoDB und Amazon S3 geschaffen. Beispiel: Sie können in Amazon EMR Tabellenpartitionen automatisch aus Amazon S3 laden, Sie können in Amazon S3 Daten ohne den Umweg über temporäre Dateien in Tabellen schreiben, Sie können in Amazon S3 auf Ressourcen wie Scripts für benutzerdefinierte map/reduce-Operationen und zusätzliche Bibliotheken zugreifen. Weitere Informationen zu Hive und Amazon EMR.

Bei Pig handelt es sich um ein Open-Source-Paket zur Analyse von Datensätzen, das auf Hadoop ausgeführt wird. Pig wird mit Pig Latin betrieben, einer SQL-artigen Sprache, mit der die Benutzer Daten strukturieren, zusammenfassen und abfragen können. Neben SQL-ähnlichen Abläufen bietet Pig Latin auch eine erstklassige Unterstützung für "Map"- und "Reduce"-Funktionen sowie komplexe erweiterbare, benutzerdefinierte Datentypen. Damit wird die Verarbeitung komplexer und unstrukturierter Datenquellen ermöglicht, etwa von Textdokumenten und Protokolldateien. In Pig sind mittels in Java geschriebener benutzerdefinierter Funktionen anwenderspezifische Erweiterungen möglich. Amazon EMR hat zahlreiche Verbesserungen an Pig vorgenommen. So wurden die Möglichkeiten geschaffen, mehrere Dateisysteme zu verwenden (normalerweise kann Pig nur auf ein entferntes Dateisystem zugreifen) und kundendefinierte JARs und Scripts zu laden (z. B. REGISTER s3:///my-bucket/piggybank.jar), sowie zusätzliche Funktionen für String- und DateTime-Verarbeitung hinzugefügt. Weitere Informationen zu Pig und Amazon EMR.

HBase ist eine nicht relationale, verteilte Open-Source-Datenbank nach dem Vorbild von Google BigTable. Sie wurde im Rahmen des Hadoop-Projekts der Apache Software Foundation entwickelt und wird auf Hadoop Distributed File System (HDFS) ausgeführt, um für Hadoop Kapazitäten wie bei BigTable bereitzustellen. HBase bietet eine fehlertolerante, effiziente Methode für die Speicherung großer Mengen von Daten mit geringer Dichte. Es setzt dazu spaltenbasierte Kompression und Speicherung ein. Außerdem stellt HBase eine schnelle Datensuche bereit, da es Daten im Arbeitsspeicher zwischenspeichert. HBase ist für serielle Schreiboperationen optimiert und besonders effizient für Batch-Inserts, Updates und Löschvorgänge. HBase arbeitet problemlos mit Hadoop, verwendet dasselbe Dateisystem und dient als Direktein- und -ausgabe für Hadoop-Aufträge. HBase lässt sich auch mit Apache Hive integrieren, ermöglicht SQL-artige Abfragen von HBase-Tabellen und Join-Vorgänge mit Hive-basierten Tabellen und unterstützt Java Database Connectivity (JDBC). Mit Amazon EMR können Sie Amazon S3 als Datastore für Apache HBase verwenden, sodass Sie die Kosten senken und die Betriebskomplexität reduzieren können. Wenn Sie HDFS als Datastore verwenden, können Sie HBase in Amazon S3 sichern und aus einer zuvor erstellten Sicherung wiederherstellen. Weitere Informationen zu HBase und Amazon EMR.

Phoenix ermöglicht SQL mit niedriger Latenz und ACID-Transaktionsfunktionen für in Apache HBase gespeicherte Daten. Sie können problemlos sekundäre Indizes für zusätzliche Leistung und verschiedene Sichten der gleichen zugrunde liegenden HBase-Tabelle erstellen. Weitere Informationen zu Phoenix finden Sie auf Amazon EMR.

Impala ist ein Open-Source-Tool im Hadoop-Umfeld für interaktives Ad-hoc-Abfragen mit SQL-Syntax. Anstelle von MapReduce wird eine massive Parallelverarbeitungs- (Massive Parallel Processing – MPP) Engine verwendet, die derjenigen in herkömmlichen relationalen Datenbankmanagementsystemen (RDBMS) ähnelt. Weitere Informationen zu Impala und Amazon EMR.

Hue ist eine Open Source-Schnittstelle für Hadoop, die das Ausführen und Entwickeln von Hive-Abfragen, die Dateiverwaltung in HDFS, das Ausführen und Entwickeln von P-Scripts und die Tabellenverwaltung vereinfacht. Hue auf Amazon EMR bietet auch eine Integration mit Amazon S3, Sie können also direkt für Amazon S3 abfragen und Dateien problemlos zwischen HDFS und Amazon S3 übertragen. Weitere Informationen zu Hue und Amazon EMR.

Spark ist eine Engine im Hadoop-Ökosystem für rasche Verarbeitung großer Datenmengen. Es verwendet zur Definition von Datentransformationen fehlertolerante In-Memory-RDDs (Resilient Distributed Datasets – ausfallsichere verteilte Datenmengen) und DAGs (Directed, Acyclic Graphs – gerichtete, azyklische Graphen). Spark umfasst auch Spark SQL, Spark Streaming, MLlib und GraphX.Weitere Informationen zu Spark auf Amazon EMR

Presto ist eine verteilte Open-Source-SQL-Abfrage-Engine, optimiert für Ad-hoc-Datenanalysen mit geringer Latenz. Es unterstützt den ANSI-SQL-Standard, einschließlich komplexer Abfragen, Aggregationen, Verknüpfungen und Fensterfunktionen. Presto kann Daten aus mehreren Datenquellen verarbeiten, etwa Hadoop Distributed File System (HDFS) und Amazon S3. Weitere Informationen zu Presto auf Amazon EMR

Zeppelin ist eine Open-Source-GUI, die interaktive Notizbücher für die Zusammenarbeit bei der Datenuntersuchung mithilfe von Spark erstellt. Sie können Scala, Python, SQL (mit Spark SQL) oder HiveQL verwenden, um Daten zu bearbeiten und Ergebnisse schnell zu visualisieren. Zeppelin-Notizbücher können von mehreren Benutzern gemeinsam genutzt werden und Visualisierungen können in externen Dashboards veröffentlicht werden. Weitere Informationen zu Zeppelin auf Amazon EMR.

Oozie ist ein Workflow-Zeitplaner für Hadoop, in dem Sie Directed Acyclic Graphs (DAGs) von Aktionen erstellen können. Sie können Ihre Hadoop-Workflows auch einfach durch Aktionen oder zu einer bestimmten Uhrzeit auslösen. Weitere Informationen zu Oozie auf Amazon EMR

Tez ist ein Ausführungs-Framework für Hadoop YARN, das durch optimierte Abfragepläne und eine erweiterte Ressourcenverwaltung eine höhere Leistung bietet. Sie können Tez mit Apache Hive und Apache Pig anstatt Hadoop MapReduce verwenden und Ausführungspläne mit der Tez-UI visualisieren. Weitere Informationen zu Tez finden Sie auf Amazon EMR.

Flink ist eine Streaming-Datenfluss-Engine, die mittels Datenquellen mit hohem Durchsatz die Echtzeitverarbeitung von Streams ermöglicht. Sie unterstützt Zeitsemantik für Ausfallereignisse, Semantik für genau einmal auftretende Ereignisse, Rückdrucksteuerung und APIs, die für das Erstellen von Streaming- und Batch-Anwendungen optimiert wurden. Weitere Informationen zu Flink on EMR.

Sonstiges: Amazon EMR unterstützt u. a. auch eine Reihe weiterer beliebter Anwendungen und Tools, etwa R, Apache MXNet (tiefes Lernen), Mahout (maschinelles Lernen), Ganglia (Überwachung), Accumulo (sichere NoSQL-Datenbank), Sqoop (Connector für relationale Datenbanken) und HCatalog (Tabellen- und Speicherverwaltung). Das Amazon EMR-Team unterhält ein Open Source-Repository von Bootstrap-Aktionen, das zur Installation zusätzlicher Software und zum Konfigurieren Ihres Clusters verwendet werden kann oder Ihnen Beispiele für das Schreiben Ihrer eigenen Bootstrap-Aktionen an die Hand gibt.

Ihren Cluster anpassen: Auf Basis der Anforderungen Ihrer Anwendung legen Sie fest, welche EC2-Instance-Typen in Ihrem Cluster bereitgestellt werden (Standard, High Memory, High CPU, High I/O usw.). Sie haben bei jeder Instance Root-Zugriff und können Ihren Cluster vollständig an Ihre Anforderungen anpassen. Weitere Informationen zu unterstützten Amazon EC2-Instance-Typen.

Ihre Anwendungen debuggen: Wenn Sie in einem Cluster Debugging aktivieren, archiviert Amazon EMR die Protokolldateien auf Amazon S3 und indiziert diese Dateien. Sie können dann die grafische Oberfläche in der Konsole verwenden, um die Protokolle zu durchsuchen und den Auftragsverlauf auf intuitive Weise anzuzeigen. Weitere Informationen zum Debuggen von Amazon EMR-Aufträgen.

Ihren Cluster überwachen: Sie können mit Amazon CloudWatch 23 benutzerdefinierte Amazon EMR-Metriken überwachen, etwa die durchschnittliche Anzahl der Map- und Reduce-Aufgaben. Sie können auch Alarme für diese Metriken einstellen. Weitere Informationen zur Überwachung von Amazon EMR-Clustern.

Reaktion auf Ereignisse: Sie können Amazon EMR-Ereignistypen in Amazon CloudWatch Events verwenden, um auf Statusänderungen in Ihren Amazon EMR-Clustern zu reagieren. Mithilfe einfacher Regeln, die Sie schnell einrichten können, können Sie Ereignisse anpassen und diese zu Amazon SNS-Themen, AWS Lambda-Funktionen, Amazon SQS-Warteschlangen und mehr weiterleiten. Weitere Informationen zu Ereignissen in Amazon EMR-Clustern.

Sich wiederholende Workflows planen: Sie können AWS Data Pipeline zum Planen sich wiederholender Workflows mit Amazon EMR einsetzen. AWS Data Pipeline ist ein Web-Service zur Unterstützung des zuverlässigen Verarbeitens und Verschiebens von Daten zwischen AWS-Datenverarbeitungs- und -Speicherservices sowie lokalen Datenquellen in angegebenen Intervallen. Weitere Informationen zu Amazon EMR und Data Pipeline.

Cascading: Cascading ist eine Open-Source-Java-Bibliothek mit Abfrage-API, Abfrageplaner und Aufgabenplaner zum Erstellen und Ausführen von Hadoop MapReduce-Anwendungen. Mit Cascading entwickelte Anwendungen werden zu Standard-Hadoop-kompatiblen JAR-Dateien kompiliert und verpackt, ähnlich wie bei anderen, originalen Hadoop-Anwendungen. Weitere Informationen zu Cascading und Amazon EMR.

Tiefes Lernen: Verwenden Sie beliebte Deep-Learning-Frameworks wie Apache MXNet zum Definieren, Schulen und Bereitstellen tiefgründiger neuraler Netze. Sie können diese Frameworks in Amazon EMR-Clustern mit GPU-Instances verwenden. Weitere Informationen zu MXNet finden Sie auf Amazon EMR.

Den Netzwerkzugriff auf Ihren Cluster steuern: Sie können Ihren Cluster in Amazon Virtual Private Cloud (VPC), einem logisch isolierten Abschnitt der AWS-Cloud, in Betrieb nehmen. Sie haben die vollständige Kontrolle über Ihre virtuelle Netzwerkumgebung, u. a. bei der Auswahl Ihres eigenen IP-Adressbereichs, dem Erstellen von Subnetzen und der Konfiguration von Routing-Tabellen und Netzwerk-Gateways. Weitere Informationen zu Amazon EMR und Amazon VPC.

Benutzer, Berechtigungen und Verschlüsselung verwalten: Sie können mithilfe von AWS Identity and Access Management-Tools (IAM) den Zugriff und die Berechtigungen regeln, etwa mit IAM Users and Roles. So können Sie bestimmten Benutzern Lese-, aber keinen Schreibzugriff auf Ihre Cluster gewähren. Darüber hinaus können Sie Amazon EMR-Sicherheitskonfigurationen verwenden, um verschiedene Verschlüsselungsoptionen für Daten im Ruhezustand und während der Übertragung festzulegen, darunter auch Unterstützung für die Amazon S3-Verschlüsselung und die Kerberos-AuthentifizierungWeitere Informationen zur Steuerung des Zugriffs auf Ihren und Amazon EMR-Verschlüsselungsoptionen.

Zusätzliche Software installieren: Installieren Sie mithilfe von Bootstrap-Aktionen oder einem benutzerdefinierten, unter Amazon Linux ausgeführten Amazon Machine Image (AMI) zusätzliche Software in Ihrem Cluster. Bootstrap-Aktionen sind Scripts, die auf Cluster-Knoten ausgeführt werden, wenn Amazon EMR den Cluster startet. Sie laufen, bevor Hadoop startet und der Knoten mit der Datenverarbeitung beginnt. Sie können Software auch vorab auf eine benutzerdefinierte Amazon Linux AMI laden und dort verwenden. Erfahren Sie mehr über Amazon EMR Bootstrap-Aktionen und benutzerdefinierte Amazon Linux AMIs.

Daten effizient kopieren: Mithilfe von S3DistCp, einer Amazon EMR-Erweiterung des Open-Source-Tools Distcp, die MapReduce zum effizienten Verschieben großer Datenmengen nutzt, können Sie schnell große Datenmengen von Amazon S3 in HDFS, von HDFS in Amazon S3 und zwischen Amazon S3-Buckets verschieben. Weitere Informationen zu S3DistCp.

Hadoop Streaming: Hadoop Streaming ist ein Hilfsprogramm, das zum Funktionsumfang von Hadoop gehört und Ihnen ermöglicht, in einer anderen Sprache als Java ausführbare MapReduce-Dateien zu erstellen. Streaming wird als JAR-Datei implementiert. Weitere Informationen zu Hadoop Streaming mit Amazon EMR.

Benutzerdefiniertes JAR: Schreiben Sie ein Java-Programm, kompilieren Sie es mit der Hadoop-Version, die Sie verwenden möchten, und laden Sie es in Amazon S3 hoch. Dann können Sie über die Hadoop JobClient-Schnittstelle dem Cluster Hadoop-Aufträge übermitteln. Weitere Informationen zum Verarbeiten eines benutzerdefinierten JAR mit Amazon EMR

Amazon EMR kann mit zahlreichen Software-Tools von Drittanbietern eingesetzt werden. Dazu gehören:

Datenübertragung

Überwachung

Leistungsoptimierung

Grafische IDE

Hadoop-Distributionen

BI/Visualisierung

Business Intelligence

Datenuntersuchung

BI/Visualisierung

Grafische IDE

BI/Visualisierung