Video: A Technical Introduction to Amazon EMR (Technische Einführung in Amazon EMR) (AWS re:Invent, Oktober 2015, Gesamtlänge: 50 Minuten)

Amazon EMR bietet ein verwaltetes Framework, mit dem der Betrieb einer Datenverarbeitungsumgebung wie Apache Hadoop, Apache Spark und Presto auf AWS einfach, kostengünstig und sicher abgewickelt werden kann. In dieser Präsentation werden die wichtigsten Designgrundsätze für den Betrieb dieser Umgebungen in der Cloud und die Funktionen vorgestellt, die Amazon EMR bietet. Wir erörtern darin die Vorteile der Entkopplung von Datenverarbeitung und Speicher sowie die Strategien, um die Vorteile der Skalierbarkeit und parallelen Verarbeitung in der Cloud zu nutzen und dabei Kosten zu senken. Außerdem berichtet der Senior Software Engineer von AOL, wie das Unternehmen diese Strategien eingesetzt hat, um Hadoop-Workloads in die AWS-Cloud zu migrieren, und welche Erfahrungen es damit gemacht hat.

 

Video: Amazon EMR, Deep Dive and Best Practices (Amazon EMR, detaillierte Einsichten und bewährte Methoden) (AWS re:Invent, Oktober 2015, Gesamtlänge: 49 Minuten)

In dieser Präsentation stellen wir Ihnen die Entwicklungsmuster von Amazon EMR vor, beispielsweise die Verwendung von Amazon S3 anstelle von HDFS, die Vorteile von langfristigen und kurzlebigen Clustern und andere bewährte Methoden für die Amazon EMR-Architektur. Wir sprechen über die dynamische Skalierung der Cluster nach oben und nach unten und führen Sie in das Fine-Tuning Ihrer Cluster ein. Wir zeigen Ihnen bewährte Methoden, wie Sie die Kostenvorteile Ihres Amazon EMR-Clusters sichern. Und schließlich gehen wir auch noch auf neue Softwareversionen ein, damit Sie über die neuesten Funktionen informiert werden.

  1. Entwickeln Sie die Anwendung für Ihre Datenverarbeitung. Sie können Java, Hive (eine SQL-artige Sprache), Pig (eine Datenverarbeitungssprache), Cascading, Ruby, Perl, Python, R, PHP, C++ oder Node.js verwenden. Amazon EMR bietet Ihnen für einen schnellen Einstieg Codebeispiele und Tutorials.
  2. Hochladen von Anwendung und Daten auf Amazon S3. Wenn Sie eine große Datenmenge hochladen müssen, ist es überlegenswert, AWS Import/Export Snowball oder AWS Direct Connect zu verwenden (zum Hochladen mittels physischer Speichermedien bzw. zum Herstellen einer dedizierten Netzwerkverbindung zwischen Ihrem Rechenzentrum und AWS. Wenn Sie möchten, können Sie Ihre Daten auch direkt in einen laufenden Cluster schreiben.
  3. Cluster konfigurieren und starten. Legen Sie über die AWS Management Console, die Befehlszeilen-Schnittstelle von AWS, SDKs oder APIs die Anzahl der Amazon EC2-Instances für Ihren Cluster, die Instance-Typen (Standard, hoher Speicherbedarf, hoher CPU-Bedarf, hoher E/A-Bedarf usw.), die Anwendungen, die installiert werden sollen (Hive, Pig, HBase usw.), und den Standort Ihrer Anwendung und Daten fest. Sie können mit Bootstrap-Aktionen zusätzliche Software installieren oder die Standardeinstellungen ändern.
  4. Überwachen des Clusters (Optional). Sie können den Zustand und den Fortschritt des Clusters mit der Management Console, der Befehlszeilen-Schnittstelle, SDKs oder APIs überwachen. Zur Überwachung/für Alarmsysteme kann EMR mit Amazon CloudWatch kombiniert werden. Es unterstützt auch beliebte Überwachungs-Tools wie Ganglia. Sie können jederzeit zum/aus dem Cluster Kapazitäten hinzufügen/entfernen, je nachdem, wie viele Daten zu verarbeiten sind. Zur Problembehebung steht die einfache Debugging-GUI der Konsole zur Verfügung.
  5. Ausgabe abrufen. Die Ausgabe kann von Amazon S3 oder von HDFS am Cluster abgerufen werden. Daten mit Tools wie Tableau und MicroStrategy visualisieren. Amazon EMR beendet den Cluster automatisch, wenn die Verarbeitung fertiggestellt ist. Alternativ können Sie den Cluster laufen lassen und ihm weitere Arbeit geben.

Sind Sie bereit, Ihren ersten Cluster zu starten?

Klicken Sie hier, um einen Cluster über die Amazon EMR-Verwaltungskonsole in Betrieb zu nehmen. Navigieren Sie auf der Seite "Create Cluster" zu "Advanced Cluster Configuration" und klicken Sie rechts oben auf die graue Schaltfläche "Configure Sample Application", wenn Sie eine Beispielanwendung mit Beispieldaten ausführen möchten.

Klicken Sie hier, um zu einem schriftlichen Lernprogram mit schrittweisen Anleitungen zu gelangen. Das Tutorial bietet eine exemplarische Vorgehensweise zum Erstellen eines Clusters, mit dessen Hilfe gezählt wird, wie häufig Wörter in einer Textdatei vorkommen.

Erste Schritte mit Amazon EMR

Kostenloses Konto erstellen

Hilfe erforderlich? Wenden Sie sich an uns.

Benötigen Sie Unterstützung beim Erstellen eines Machbarkeitsnachweises oder bei der Feinabstimmung Ihrer EMR-Anwendungen? AWS verfügt über ein weltweites Supportteam speziell für EMR.  Wenn Sie mehr über zeitlich begrenzte (2 – 6 Wochen) kostenpflichtige Supportbetreuungen erfahren möchten, kontaktieren Sie uns bitte.

Der Kurs "Big Data-Lösungen in AWS" wurde entwickelt, um Ihnen an praktischen Beispielen die Verwendung von Amazon Web Services für Big Data-Verarbeitungslasten nahezubringen. AWS zeigt Ihnen, wie Sie Amazon EMR-Aufträge ausführen, um Daten unter Verwendung der großen Vielfalt an Hadoop-Tools wie Pig und Hive zu verarbeiten. AWS vermittelt Ihnen zudem, wie Sie mit Amazon DynamoDB und Amazon Redshift Big Data-Umgebungen in der Cloud erstellen, erläutert die Vorteile von Amazon Kinesis und erklärt, wie Sie bewährte Methoden zum Entwerfen von Big Data-Umgebungen für Analyse, Sicherheit und Kosteneffizienz einsetzen.  Klicken Sie hier, um weitere Informationen zur Big Data-Schulung zu erhalten.

EMR-Bootcamp: Wenn Sie planen mehr als 1 TB Daten pro Tag zu verarbeiten, sind Sie möglicherweise für ein EMR-Bootcamp qualifiziert, d. h. ein auf EMR spezialisierter AWS-Lösungsarchitekt führt bei Ihnen vor Ort einen Machbarkeits- und Wissenstransfer-Workshop durch.  Um weitere Informationen zu erhalten, klicken Sie hier, oder kontaktieren Sie uns.

"Scale Unlimited" bietet angepasste Vor-Ort-Schulungen für Unternehmen an, die schnell lernen müssen, wie sie EMR und andere Technologien für Big Data (große Datenmengen) verwenden.  Klicken Sie hier, um weitere Informationen zu erhalten.