icon1

Einrichten eines AWS-Kontos und Anmeldung

Bei der Konsole anmelden.

Videos

Eine technische Einführung zu Amazon EMC (50:44)
Amazon EMR und bewährte Methoden – detaillierte Einblicke (49:12)

Bleiben Sie mit AWS-Webinaren auf dem Laufenden.

Amazon EMR nutzen

  1. Eine Datenverarbeitungsanwendung entwickeln. Sie können Java, Hive (eine SQL-artige Sprache), Pig (eine Datenverarbeitungssprache), Cascading, Ruby, Perl, Python, R, PHP, C++ oder Node.js verwenden. Amazon EMR bietet Ihnen für einen schnellen Einstieg Codebeispiele und Tutorials.
  2. Hochladen der Anwendung und Daten auf Amazon S3. Wenn Sie eine große Datenmenge hochladen müssen, ist es überlegenswert, AWS Import/Export Snowball oder AWS Direct Connect zu verwenden (zum Hochladen mittels physischer Speichermedien bzw. zum Herstellen einer dedizierten Netzwerkverbindung zwischen Ihrem Rechenzentrum und AWS. Wenn Sie möchten, können Sie Ihre Daten auch direkt in einen laufenden Cluster schreiben.
  3. Cluster konfigurieren und starten. Legen Sie über die AWS Management Console, die Befehlszeilen-Schnittstelle von AWS, SDKs oder APIs die Anzahl der Amazon EC2-Instances für Ihren Cluster, die Instance-Typen (Standard, hoher Speicherbedarf, hoher CPU-Bedarf, hoher E/A-Bedarf usw.), die Anwendungen, die installiert werden sollen (Hive, Pig, HBase usw.), und den Standort Ihrer Anwendung und Daten fest. Sie können mit Bootstrap-Aktionen zusätzliche Software installieren oder die Standardeinstellungen ändern.
  4. Überwachen des Clusters (optional). Sie können den Zustand und den Fortschritt des Clusters mit der Management Console, der Befehlszeilen-Schnittstelle, SDKs oder APIs überwachen. Zur Überwachung/für Alarmsysteme kann EMR mit Amazon CloudWatch kombiniert werden. Es unterstützt auch gängige Überwachungstools wie Ganglia. Sie können jederzeit zum/aus dem Cluster Kapazitäten hinzufügen/entfernen, je nachdem, wie viele Daten zu verarbeiten sind. Zur Problembehebung steht die einfache Debugging-GUI der Konsole zur Verfügung.
  5. Ausgabe abrufen. Die Ausgabe kann von Amazon S3 oder von HDFS am Cluster abgerufen werden. Daten mit Tools wie Tableau und MicroStrategy visualisieren. Amazon EMR beendet den Cluster automatisch, wenn die Verarbeitung fertiggestellt ist. Alternativ können Sie den Cluster laufen lassen und ihm weitere Arbeit geben.

Sind Sie bereit, Ihren ersten Cluster zu starten?

Klicken Sie hier, um einen Cluster über die Amazon EMR-Verwaltungskonsole in Betrieb zu nehmen. Navigieren Sie auf der Seite "Create Cluster" zu "Advanced Cluster Configuration" und klicken Sie rechts oben auf die graue Schaltfläche "Configure Sample Application", wenn Sie eine Beispielanwendung mit Beispieldaten ausführen möchten.

Tutorials

Spark

Erfahren Sie, wie Apache Kafka auf EC2 eingerichtet wird, Spark-Streaming auf EMR zum Verarbeiten von Daten, die in Apache Kafka-Themen eingehen, verwendet wird und Streaming-Daten mit Spark SQL auf EMR abgefragt werden.

Erfahren Sie, wie Intent Media Spark und Amazon EMR für Modellierungsworkflows verwendet hat.

HBase

Erfahren Sie, wie Sie eine JDBC-Verbindung zu Phoenix herstellen, für eine bestehende HBase-Tabelle eine Ansicht erstellen und einen sekundären Index anlegen, um die Leseperformance zu verbessern.

Erfahren Sie, wie Sie einen EMR-Cluster mit HBase starten und aus einem Snapshot in Amazon S3 eine Tabelle wiederherstellen.

Erfahren Sie, wie Sie eine Verbindung zu einem auf Amazon Elastic MapReduce ausgeführten Hive-Job herstellen, um eine sichere und erweiterbare Plattform für die Berichterstellung und Analyse zu erhalten.

Presto

Erfahren Sie, wie Sie einen Presto-Cluster einrichten und mit Airpal in S3 gespeicherte Daten verarbeiten.

Hive

Erfahren Sie, wie Sie einen EMR-Cluster mit HBase starten und aus einem Snapshot in Amazon S3 eine Tabelle wiederherstellen.

Erfahren Sie, wie Sie eine Verbindung zu einem auf Amazon Elastic MapReduce ausgeführten Hive-Job herstellen, um eine sichere und erweiterbare Plattform für die Berichterstellung und Analyse zu erhalten.

In diesem Tutorial wird eine Referenzarchitektur für eine konsistente, skalierbare und zuverlässige Streamverarbeitungspipeline beschrieben, die auf Apache Flink basiert und Amazon EMR, Amazon Kinesis und den Amazon Elasticsearch Service nutzt.

Mit unseren Tutorials lernen Sie unsere Produkte in Ihrem eigenen Tempo kennen.

Schulungen und Hilfe

Zeitlich begrenzte Betreuung

Benötigen Sie Unterstützung beim Erstellen eines Machbarkeitsnachweises oder bei der Feinabstimmung Ihrer EMR-Anwendungen? AWS verfügt über ein weltweites Supportteam speziell für EMR. Wenn Sie mehr über zeitlich begrenzte (2–6 Wochen) kostenpflichtige Supportbetreuungen erfahren möchten, kontaktieren Sie uns bitte.

AWS Big Data-Schulung

Der Kurs "Big Data-Lösungen in AWS" wurde entwickelt, um Ihnen an praktischen Beispielen die Verwendung von Amazon Web Services für Big Data-Arbeitslasten nahezubringen. AWS zeigt Ihnen, wie Sie Amazon EMR-Aufträge ausführen, um Daten unter Verwendung der großen Vielfalt an Hadoop-Tools wie Pig und Hive zu verarbeiten. AWS vermittelt Ihnen zudem, wie Sie mit Amazon DynamoDB und Amazon Redshift Big Data-Umgebungen in der Cloud erstellen, erläutert die Vorteile von Amazon Kinesis und erklärt, wie Sie bewährte Methoden zum Entwerfen von Big Data-Umgebungen für Analyse, Sicherheit und Kosteneffizienz einsetzen. Klicken Sie hier, um weitere Informationen zur Big Data-Schulung zu erhalten.

Zusätzliche Schulung

"Scale Unlimited" bietet angepasste Vor-Ort-Schulungen für Unternehmen an, die schnell lernen müssen, wie sie EMR und andere Technologien für Big Data (große Datenmengen) verwenden. Weitere Informationen finden Sie hier.

Entdecken Sie weitere Amazon EMR-Ressourcen

Besuchen Sie die Ressourcen-Seite
Bereit zum Entwickeln?
Erste Schritte mit Amazon EMR
Haben Sie Fragen?
Kontakt