Was ist Hadoop?

Apache Hadoop ist ein Open-Source-Framework, das verwendet wird, um große Datensätze mit Datenmengen im Bereich von Gigabytes bis zu Petabytes zu speichern und zu verarbeiten. Anstatt mit einem einzigen Computer die Daten zu speichern und zu verarbeiten, können Sie mit Hadoop mehrere Computer zu Clustern vereinen, um parallel umfangreiche Datensätze schneller zu analysieren.

Was sind die vier Hauptmodule von Hadoop?

Hadoop besteht aus vier Hauptmodulen:

  • Hadoop Distributed File System (HDFS) – Ein verteiltes Dateisystem, das auf Standard- oder Low-End-Hardware läuft. HDFS bietet einen besseren Datendurchsatz als herkömmliche Dateisysteme sowie eine hohe Fehlertoleranz und native Unterstützung großer Datensätze.
  • Yet Another Resource Negotiator (YARN) – Verwaltet und überwacht Clusterknoten und die Ressourcennutzung. Es plant Aufträge und Aufgaben.
  • MapReduce – Ein Framework, das Programmen bei der parallelen Berechnung von Daten hilft. Die Map-Aufgabe nimmt Eingabedaten und konvertiert sie in einen Datensatz, der in Schlüsselwertpaaren berechnet werden kann. Die Ausgabe der Map-Aufgabe wird von Reduce-Aufgaben verbraucht, um die Ausgabe zu aggregieren und das gewünschte Ergebnis zu liefern.
  • Hadoop Common – Stellt allgemeine Java-Bibliotheken bereit, die für alle Module verwendet werden können.

Wie funktioniert Hadoop?

Hadoop vereinfacht die Nutzung der gesamten Speicher- und Verarbeitungskapazität von Clusterservern und die Ausführung verteilter Prozesse für riesige Datenmengen. Hadoop stellt die Bausteine bereit, auf denen andere Services und Anwendungen aufgebaut werden können.

Anwendungen, die Daten in verschiedenen Formaten sammeln, können Daten im Hadoop-Cluster platzieren, indem sie eine API-Operation verwenden, um eine Verbindung zum NameNode herzustellen. Der NameNode verfolgt die Dateiverzeichnisstruktur und die Platzierung der „Chunks“ für jede Datei, die über DataNodes repliziert wird. Um einen Auftrag zum Abfragen der Daten auszuführen, stellen Sie einen MapReduce-Auftrag bereit, der aus vielen Map- und Reduce-Aufgaben besteht, die für die Daten in HDFS ausgeführt werden, die über die DataNodes verteilt sind. Map-Aufgaben werden auf jedem Knoten anhand der bereitgestellten Eingabedateien ausgeführt, und Reducer werden ausgeführt, um die endgültige Ausgabe zu aggregieren und zu organisieren.

Wie hat sich das Hadoop-Ökosystem entwickelt?

Das Hadoop-Ökosystem ist im Laufe der Jahre aufgrund seiner Erweiterbarkeit erheblich gewachsen. Heute umfasst das Hadoop-Ökosystem viele Tools und Anwendungen, mit denen Big Data gesammelt, gespeichert, verarbeitet, analysiert und verwaltet werden können. Einige der beliebtesten Anwendungen sind:

  • Spark – Ein verteiltes Open-Source-Verarbeitungssystem, das häufig für Big-Data-Workloads verwendet wird. Apache Spark nutzt In-Memory-Cache-Speicherung und eine optimierte Ausführung für hohe Leistung und unterstützt allgemeine Batch-Verarbeitung, Streaming-Analysen, Machine Learning, Graphdatenbanken und Ad-hoc-Abfragen.
  • Presto – Eine verteilte Open-Source-SQL-Abfrage-Engine, optimiert für Ad-hoc-Datenanalysen mit geringer Latenz. Sie unterstützt den ANSI-SQL-Standard, einschließlich komplexer Abfragen, Aggregationen, Verknüpfungen und Fensterfunktionen. Presto kann Daten aus mehreren Datenquellen verarbeiten, etwa Hadoop Distributed File System (HDFS) und Amazon S3.
  • Hive – Ermöglicht Benutzern die Nutzung von Hadoop MapReduce über eine SQL-Schnittstelle und ermöglicht so neben verteiltem und fehlertolerantem Data Warehousing auch Analysen in großem Maßstab.
  • HBase – Eine nicht relationale, versionierte Open-Source-Datenbank, die auf Amazon S3 (mit EMRFS) oder dem Hadoop Distributed File System (HDFS) läuft. HBase ist ein hochgradig skalierbarer, verteilter Big-Data-Speicher, der für den zufälligen, strikt konsistenten Echtzeitzugriff auf Tabellen mit Milliarden von Zeilen und Millionen von Spalten konzipiert wurde.
  • Zeppelin – Ein interaktives Notebook, das eine interaktive Datenexploration ermöglicht.

Wie kann AWS Ihre Hadoop-Anforderungen unterstützen?

Amazon EMR ist ein verwalteter Service, mit dem Sie große Datensätze mit den neuesten Versionen der Big Data-Verarbeitungsframeworks wie Apache Hadoop, Spark, HBase und Presto auf vollständig anpassbaren Clustern verarbeiten und analysieren können.

  • Einfache Nutzung: Sie können einen Amazon-EMR-Cluster in wenigen Minuten starten. Sie brauchen sich nicht um die Bereitstellung von Knoten, die Einrichtung von Clustern, die Konfiguration von Hadoop oder die Optimierung von Clustern zu kümmern.
  • Niedrige Kosten: Die Preisgestaltung von Amazon EMR ist einfach und berechenbar: Sie zahlen einen Stundentarif für jede genutzte Instance-Stunde, und Sie können Spot Instances nutzen, um größere Einsparungen zu erzielen.
  • Elastisch: Mit Amazon EMR können Sie eine, Hunderte oder sogar Tausende von Rechen-Instances bereitstellen, um Daten jeder Größenordnung zu verarbeiten.
  • Transient: Sie können EMRFS verwenden, um Cluster auf der Grundlage von HDFS-Daten, die dauerhaft in Amazon S3 gespeichert sind, On-demand auszuführen. Wenn die Aufträge abgeschlossen sind, können Sie einen Cluster herunterfahren und die Daten in Amazon S3 speichern lassen. Sie zahlen nur für die Rechenzeit, die der Cluster ausführt.
  • Sicher: Amazon EMR verwendet alle gängigen Sicherheitsmerkmale von AWS-Services:
    • Identity und Access Management (IAM)-Rollen und Richtlinien für die Verwaltung von Berechtigungen.
    • Verschlüsselung während der Übertragung und im Ruhezustand hilft Ihnen, Ihre Daten zu schützen und Compliance-Standards wie HIPAA zu erfüllen.
    • Sicherheitsgruppen zur Steuerung des eingehenden und ausgehenden Netzwerkverkehrs zu Ihren Clusterknoten.
    • AWS CloudTrail: Prüfen Sie alle Amazon-EMR-PI-Aufrufe, die in Ihrem Konto getätigt werden, um Sicherheitsanalysen, Nachverfolgung von Ressourcenänderungen und Compliance-Prüfungen bereitzustellen.

Beginnen Sie mit Hadoop in AWS, indem Sie noch heute ein Konto erstellen.

Nächste Schritte in AWS

Zusätzliche produktbezogene Ressourcen ansehen
Kostenlose Angebote für Analytics-Services in der Cloud anzeigen 
Ein kostenloses Konto erstellen

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Registrieren 
Mit der Entwicklung in der Konsole starten

Starten Sie mit der Entwicklung in der AWS-Managementkonsole.

Anmelden