mapr-280

Mithilfe von Amazon Elastic MapReduce (Amazon EMR) lässt sich Hadoop in der AWS Cloud auf einfache Weise bereitstellen und verwalten. Hadoop ist in vielen Distributionen erhältlich, und Amazon EMR gibt Ihnen die Möglichkeit, die Amazon Distribution oder die MapR-Distribution für Hadoop zu verwenden.

MapR setzt die Vorzüge von Hadoop mit einer erprobten Plattform auf Unternehmensniveau um, die eine Vielzahl von unternehmenswichtigen und echtzeitfähigen Einsatzfeldern unterstützt. MapR verwirklicht bisher nicht gekannte Zuverlässigkeit, Einfachheit der Bedienung und rekordverdächtige Geschwindigkeit für Hadoop-, NoSQL-, Datenbank- und Streaminganwendungen auf einer einheitlichen Big Data-Plattform. MapR wird von Finanzdienstleistern, im Einzelhandel, in der Medienbranche, im Gesundheitswesen, in Fertigung, Telekommunikation und Regierungsbehörden sowie von führenden Fortune 100- und Web 2.0-Unternehmen eingesetzt. Zu den Investoren zählen Lightspeed Venture Partners, Mayfield Fund, NEA und Redpoint Ventures. Stellen Sie mit MapR Verbindungen zu Facebook, LinkedIn und Twitter her.

  • Sofortige Wiederherstellung (Instant Recovery): MapR M7 bietet hohe Datenbankverfügbarkeit. Das System stellt sich nach Knotenausfällen innerhalb von Sekunden automatisch wieder her und ermöglicht der Anwendung so die Fortführung des Betriebs.
  • Kein Verwaltungsaufwand für HBase (Zero HBase Administration): MapR M7 ermöglicht den Benutzern den Einsatz von Tabellen ohne weitere separate Dienste, wie etwa RegionServers. Darüber hinaus verhindert M7 Verdichtungen und bietet nahtlose Bereichsaufteilungen bereit, sodass der Administrator diese Vorgänge nicht manuell ausführen muss.
  • Fortlaufend geringe Latenz: MapR M7 bietet durchgängig geringe Latenz durch Vermeidung von Garbage Collection oder Verdichtungen, die sich negativ auf die Leistung auswirken. Durch geringe Datenträger-E/A mit zugleich verringertem Einfluss der Datenträger auf die Systemleistung werden Datenbankvorgänge schnell und voraussehbar.
  • Umfassender Datenschutz mit Snapshots: M7 bietet umfassenden Datenschutz für HBase. Snapshots ermöglichen die zeitpunktgenaue Wiederherstellung von Tabellen zum Schutz vor Benutzer- oder Anwendungsfehlern. M7 erweitert Snapshots auf den gesamten Datenbestand – sowohl Dateien als auch Tabellen. HBase-Tabellen können direkt aus Snapshots gelesen und direkt wiederhergestellt werden, ohne die Ausfallzeit, die für die HBase-Wiederherstellung in anderen Distributionen erforderlich ist.
  • Fortsetzung des Geschäftsablaufs durch Spiegelung: Spiegelung ermöglicht den Benutzern die automatische Replikation von differenziellen Daten zwischen Clustern in Echtzeit. Dies kann in Lösungen für die Notfallwiederherstellung von Datenbanken eingesetzt oder zum Bereitstellen von schreibgeschütztem Datenzugriff von mehreren Standorten aus genutzt werden. Da M7 keinen Neuaufbau von Bereichsservern (RegionServers) erfordert, können Datenbanken auf der gespiegelten Website sofort bereitgestellt werden, wenn die aktive Website ausfällt.
  • NFS: MapR bietet wahlfreien Lese-/Schreibzugriff und eine standardmäßige NFS-Schnittstelle, sodass Benutzer den Cluster einbinden und standardmäßige dateibasierte Anwendungen mit Hadoop nutzen können, einschließlich Linux-Dienstprogrammen, Dateibrowsern und nicht auf Java basierenden Anwendungen. Wenn MapR in Amazon EMR verwendet wird, ist die Einbindung der NFS-Schnittstelle unter /mapr vorbereitet.
  • ODBC: MapR bietet einen ODBC-Treiber für Hive, der der standardmäßigen ODBC 3.52-Spezifikation entspricht und Benutzern so die Nutzung beliebiger BI-Tools oder SQL-Abfragegeneratoren in Verbindung mit Hadoop ermöglicht. MicroStrategy, Tableau, Excel, Toad und viele andere kommerzielle und Open Source-Tools werden unterstützt.
  • Bereitstellung: In Amazon EMR mit MapR sind Bereitstellung, Installation und Konfiguration des Clusters vollständig automatisiert und können über die AWS Management Console, CLI oder API gestartet werden.
  • MapR Control System (MCS): MapR bietet eine End-to-End-Überwachung und -Verwaltung für Hadoop, einschließlich Hardware, Speicher, MapReduce und anderer Komponenten in der Distribution.
  • CLI und REST API: Alle Fähigkeiten von MCS sind auch über das CLI und REST API zugänglich. Dies ermöglicht Benutzern das programmgesteuerte Abrufen von Clusterinformationen und Ausführen von Vorgängen. Ferner ist die Integration mit benutzerdefinierten oder von Drittanbietern erworbenen Überwachungs-/Verwaltungssystemen möglich.
  • Hohe Verfügbarkeit des Dateisystems: MapR bietet eine no-NameNode-Architektur, die mehrere gleichzeitige Ausfälle mit automatischen Failover und Failback bewältigen kann. Die Metadaten sind verteilt und werden, genau wie die Daten, repliziert. Durch NameNode besteht für die Anzahl der zu speichernden Dateien praktisch kein Limit, ebensowenig eine Abhängigkeit von einem externen NAS.
  • Hohe Verfügbarkeit in MapReduce: MapR stellt JobTracker HA mit automatischem Faliover und Failback bereit. Bei einem Fehler im aktiven JobTracker wird er automatisch auf einem anderen Knoten gestartet, und die Ausführung aller Aufträge und Aufgaben wird ohne Unterbrechung fortgesetzt.
  • Datenschutz: MapR stellt Snapshots für die zeitpunktgerechte Wiederherstellung bereit und ermöglicht Benutzern so die Wiederherstellung nach Benutzer- und Anwendungsfehlern. MapR setzt bei Schreibzugriffen eine Umleitungstechnik (Redirect-on-Write) ein, sodass nur geänderte Blöcke in Snapshots erfasst werden und ein negativer Einfluss auf die Leistung ausbleibt. Beachten Sie, dass die Snapshots garantiert konsistent sind, sodass alle Anwendungen unterstützt werden.
  • Notfallwiederherstellung: MapR bietet Spiegelung zwischen Clustern und ermöglicht so die Notfallwiederherstellung über die Grenzen von Verfügbarkeitszonen hinweg sowie Hybridbereitstellungen, die sowohl lokale also auch EMR-Cluster umfassen. Bei Hybridbereitstellungen werden alle auf MapR basierenden Hadoop-Distributionen unterstützt, einschließlich der EMC Greenplum MR- und der Cisco UCS-Anwendung. Beachten Sie, dass nur die geänderten Blöcke übertragen und alle Daten automatisch komprimiert werden.
  • Komprimierung: MapR komprimiert alle noch nicht komprimierten Daten automatisch und transparent. Dadurch werden Datenträger- und Netzwerk-E/A reduziert und die Leistung gesteigert. Es ist nicht erforderlich, Dateien manuell zu komprimieren oder Anwendungen zu verändern, um die Komprimierung zu berücksichtigen. Auch wahlfreie Lese-/Schreibzugriffe erfolgen sehr effizient, da nur die erforderlichen Blöcke dekomprimiert und die Möglichkeit zum Teilen von Dateien besteht.
  • Leistung: MapR weist eine hoch entwickelte Architektur auf, die höhere Effizienz und Parallelität bietet und zugleich Datenträger- und Netzwerk-E/A reduziert. MapR hält Leistungsrekorde.

Die M7 Edition ist eine vollständige Distribution für Apache Hadoop, die einfache Nutzung, Zuverlässigkeit und Leistungsvorteile für NoSQL- und Hadoop-Anwendungen mit sich bringt. M7 hebt die Kompromisse auf, denen sich Organisationen gegenüber sehen, wenn sie nach Möglichkeiten zum Bereitstellen einer NoSQL-Lösung suchen. M7 bietet Skalierbarkeit, starke Konsistenz, Zuverlässigkeit und fortlaufend geringe Latenz in Verbindung mit einer Architektur, die keine Verdichtungen oder Konsistenzprüfungen im Hintergrund erforderlich macht.

Die M5 Edition ist ebenso eine vollständige Distribution für Apache Hadoop, die Funktionen für Großunternehmen für alle Dateioperationen in Hadoop bereitstellt. Zu den Funktionen gehören Spiegelung, Snapshots, NFS HA, Datenplatzierungssteuerung und viele weitere, die in den anspruchsvollsten, unternehmenswichtigen Umgebungen begrüßt werden.

Die M3 Edition ist die kostenlose Version unserer vollständigen Distribution für Hadoop. Die M3 Edition bietet eine Plattform mit vollständiger Fähigkeit zum wahlfreien Lese-/Schreibzugriff, die Schnittstellen nach Branchenstandard (z. B. NFS, ODBC) unterstützt und Vorzüge in Verwaltung, Komprimierung und Leistung bietet.

MapR-Funktion M7 Edition M5 Edition M3 Edition
Vollständige Distribution für Apache Hadoop
Direkter NFS-Zugriff
Unbegrenzte Skalierbarkeit
Leistung auf Rekordniveau
MapR-Steuerungssystem (MapR Control System, MCS)
Volumebasierte Datenverwaltung  
Hohe Verfügbarkeit mit no-NameNode  
Hohe Verfügbarkeit des Auftragstrackers  
Snapshots für Dateien  
Spiegelung für Dateien  
Rollende Upgrades  
Sofortige Wiederherstellung für HBase-Anwendungen    
Kein Verwaltungsaufwand für HBase
   
Fortlaufend niedrige Latenz für HBase    
Snapshots für HBase    
Spiegelung für HBase    

Im EMR Developer Guide finden Sie detaillierte Anweisungen zum Starten von MapR in EMR über die AWS Management Console, Befehlszeilen-Schnittstelle oder API. So nehmen Sie einen MapR-Cluster über die AWS Management Console in Betrieb:

  1. Greifen Sie in der AWS Management Console auf den EMR-Service zu.
  2. Klicken Sie auf Create New Job Flow, um den Assistenten zum Erstellen eines neuen Auftragsablaufs zu starten. Dieser Assistent startet den MapR-Cluster.
  3. Wählen Sie im Bereich Define Job Flow in der Dropdown-Liste Hadoop Version MapR M7, M5 oder M3 aus.
  4. Befolgen Sie die restlichen Schritte im Assistenten zum Starten Ihres Auftragsablaufs.

AWS Premium Support-Kunden können bei allen Problemen mit MapR in EMR Amazon kontaktieren.

M5- und M7-Benutzer können den Rund-um-die-Uhr-Support von MapR über eine E-Mail an support@mapr.com direkt kontaktieren. Alle MapR-Benutzer dürfen Fragen gerne in den MapR-Foren stellen, die fortwährend von MapR verfolgt werden.