Amazon EMR semplifica il provisioning e la gestione di Hadoop nel cloud AWS. Hadoop è disponibile in più distribuzioni e Amazon EMR ti offre la possibilità di scegliere tra la distribuzione Amazon e la distribuzione MapR per Hadoop.

MapR soddisfa gli elevati standard di Hadoop grazie a una piattaforma di livello aziendale collaudata che supporta un'ampia gamma di usi in ambienti di produzione mission-critical e in tempo reale. MapR offre livelli ineguagliati di affidabilità, semplicità di utilizzo e velocità per le applicazioni di streaming, di database, Hadoop e NoSQL in una piattaforma unificata per Big Data. MapR viene usato in organizzazioni dei settori di servizi finanziari, vendita al dettaglio, media, salute, produzione, telecomunicazioni e pubblica amministrazione, nonché dalle società Fortune 100 e Web 2.0 leader del mercato. Tra i principali investitori sono inclusi Lightspeed Venture Partners, Mayfield Fund, NEA e Redpoint Ventures. Connettiti a MapR su Facebook, LinkedIn e Twitter.

Nozioni di base su Amazon EMR

Crea un account gratuito

Se la tua azienda ha requisiti di elaborazione molto elevati, potrebbe aver diritto a uno sconto.

Per saperne di più, contattaci.

mapr-280
  • Ripristino istantaneo: MapR M7 offre database a elevata disponibilità. Il sistema esegue il ripristino automatico di qualsiasi nodo in errore in pochi secondi, garantendo un'esecuzione ininterrotta dell'applicazione senza alcun impatto.
  • Nessuna attività di amministrazione di HBase: MapR M7 permette agli utenti di utilizzare tabelle senza eseguire alcun servizio separato, ad esempio RegionServers. L'edizione M7 elimina inoltre la compattazione e offre suddivisioni uniformi delle regioni, in modo che gli amministratori non debbano eseguire queste operazioni manualmente.
  • Bassa latenza continua: MapR M7 offre una bassa latenza costante evitando attività di Garbage Collection o di compattazione che influiscono sulle prestazioni. L'I/O su disco ridotto, associato a footprint dei dischi inferiore, rende le operazioni dei database su disco rapide e prevedibili.
  • Protezione completa dei dati con snapshot: l'edizione M7 offre protezione completa dei dati per HBase. Gli snapshot consentono il ripristino point-in-time delle tabelle per la protezione da errori degli utenti e delle applicazioni. L'edizione M7 espande gli snapshot in modo da includere tutti i dati, di file e di tabelle. Le tabelle HBase possono essere lette direttamente dagli snapshot e direttamente ripristinate senza i tempi di inattività necessari per il ripristino di HBase in altre distribuzioni.
  • Continuità aziendale con mirroring: il mirroring permette agli utenti di eseguire la replica automatica di dati differenziali in tempo reale tra cluster diversi. Questa caratteristica può essere usata per creare soluzioni di disaster recovery per i database o essere sfruttata per fornire accesso in sola lettura ai dati da più ubicazioni. Poiché l'edizione M7 non richiede RegionServers per la ricostruzione, i database possono essere resi disponibili immediatamente nel sito di mirroring se il sito attivo subisce un'interruzione.
  • NFS: MapR fornisce accesso in lettura/scrittura casuale e un'interfaccia NFS standard per consentire agli utenti di montare il cluster e sfruttare applicazioni standard basate su file con Hadoop, tra cui utilità Linux, visualizzatori di file e applicazioni non Java. Quando MapR viene usato in Amazon EMR, l'interfaccia NFS è pre-montata in /mapr.
  • ODBC: MapR offre un driver ODBC per Hive conforme alla specifica ODBC 3.52 standard, che consente agli utenti di utilizzare qualsiasi strumento di business intelligence o generatore di query SQL con Hadoop. Sono supportati MicroStrategy, Tableau, Excel e Toad e molti altri strumenti commerciali e open source.
  • Distribuzione: Amazon EMR con MapR automatizza completamente il provisioning, l'installazione e la configurazione del cluster, che può essere avviato tramite la Console di gestione AWS, l'interfaccia a riga di comando o l'API.
  • MapR Control System (MCS): MapR offre monitoraggio e gestione end-to-end per Hadoop, tra cui hardware, storage, MapReduce e altri componenti nella distribuzione.
  • Interfaccia a riga di comando e API REST: tutte le funzionalità di MCS vengono esposte anche tramite l'interfaccia a riga di comando e l'API REST. In questo modo gli utenti possono ottenere informazioni sui cluster ed eseguire operazioni in modo programmatico. È anche garantita l'integrazione con sistemi di monitoraggio/gestione di terze parti e personalizzati.
  • Elevata disponibilità del file system: MapR offre un'architettura senza NameNode con tolleranza di più errori simultaneamente tramite failover e fallback automatici. I metadata vengono distribuiti e replicati, esattamente come i dati. Un'architettura senza NameNode elimina qualsiasi limite pratico al numero di file che è possibile archiviare e qualsiasi dipendenza da unità NAS esterne.
  • Elevata disponibilità di MapReduce: MapR offre JobTracker a elevata disponibilità, con failover e fallback automatici. Se il servizio JobTracker attivo genera un errore, viene avviato automaticamente in un nodo diverso e tutti i processi e le attività proseguono senza interruzioni.
  • Protezione dei dati: MapR fornisce snapshot per il ripristino point-in-time, che consente agli utenti di eseguire il ripristino da errori degli utenti e delle applicazioni. MapR usa la tecnologia Redirect-on-Write, tramite la quale vengono creati gli snapshot dei soli blocchi modificati, evitando qualsiasi impatto sulle prestazioni. Poiché la coerenza degli snapshot è garantita, sono supportate tutte le applicazioni.
  • Disaster recovery: MapR offre il mirroring tra cluster, consentendo il disaster recovery tra zone di disponibilità, nonché distribuzioni ibride che comprendono cluster locali ed EMR. Per le distribuzioni ibride, sono supportate tutte le distribuzioni Hadoop basate su MapR, inclusi EMC Greenplum MR e il dispositivo Cisco UCS. Vengono trasferiti i soli blocchi modificati e tutti i dati vengono automaticamente compressi.
  • Compressione: MapR comprime in modo automatico e trasparente tutti i dati che non sono già compressi. In questo modo l'I/O di rete e su disco risulta ridotto, mentre le prestazioni migliorano. Non è necessario comprimere manualmente i file o modificare le applicazioni per gestire la compressione. Le letture/scritture casuali sono anch'esse efficienti, perché vengono decompressi i soli blocchi necessari, con la possibilità di dividere i file.
  • Prestazioni: MapR è caratterizzato da un'architettura avanzata in grado di fornire efficienza e parallelismo di livello superiore, riducendo al contempo l'I/O di rete e su disco. MapR offre prestazioni ineguagliate.


L'edizione M7 è una distribuzione completa per Apache Hadoop che offre vantaggi in termini di semplicità di utilizzo, affidabilità e prestazioni per applicazioni NoSQL e Hadoop. L'edizione M7 ha eliminato gli svantaggi che le organizzazioni devono affrontare quando desiderano distribuire una soluzione NoSQL. L'edizione M7 offre dimensionamento, coerenza elevata, affidabilità e bassa latenza continua grazie a un'architettura che non richiede compattazione o verifiche di coerenza in background.

Anche l'edizione M5 è una distribuzione completa per Apache Hadoop, che offre funzionalità di livello aziendale per tutte le operazioni di file in Hadoop. Le funzionalità includono mirroring, snapshot, NFS a elevata disponibilità, controllo del posizionamento dei dati e molto altro ancora, offrendo una soluzione ideale per gli ambienti mission-critical più complessi.

L'edizione M3 è la versione gratuita della distribuzione completa per Hadoop. L'edizione M3 fornisce una piattaforma con funzionalità di lettura/scrittura completamente casuali che supporta le interfacce standard di settore, ad esempio NFS o ODBC, e offre vantaggi in termini di gestione, compressione e prestazioni.

Funzionalità MapR Edizione M7 Edizione M5 Edizione M3
Distribuzione completa per Apache Hadoop
NFS ad accesso diretto
Dimensionamento illimitato
Prestazioni ineguagliate
MapR Control System (MCS)
Gestione dei dati basata su volumi  
Elevata disponibilità senza NameNode  
JobTracker a elevata disponibilità  
Snapshot per i file  
Mirroring per i file  
Aggiornamenti in sequenza  
Ripristino istantaneo per applicazioni HBase    
Nessuna attività di amministrazione di HBase
   
Bassa latenza continua per HBase    
Snapshot per HBase    
Mirroring per HBase    

Il documento EMR Developer Guide contiene istruzioni dettagliate su come avviare MapR in EMR usando la Console di gestione AWS, l'interfaccia a riga di comando o l'API. Per avviare un cluster MapR con la Console di gestione AWS:

  1. Accedere al servizio EMR nella Console di gestione AWS.
  2. Fare clic su Create New Job Flow per avviare la procedura guidata Create a new Job Flow. La procedura guidata avvia il cluster MapR.
  3. Selezionare MapR M7, M5 o M3 nell'elenco a discesa Hadoop Version nel riquadro Define Job Flow della procedura guidata.
  4. Seguire i passaggi rimanenti della procedura guidata per avviare il job flow.

I clienti di AWS Premium Support possono contattare Amazon per qualsiasi problema relativo a MapR in EMR.

Gli utenti delle edizioni M5 ed M7 possono anche contattare MapR direttamente, 24 ore su 24, 7 giorni su 7, scrivendo all'indirizzo e-mail support@mapr.com. Tutti gli utenti di MapR sono invitati a porre domande nei forum su MapR, che vengono continuamente monitorati da MapR.


Amazon Elastic MapReduce e Amazon EMR sono marchi commerciali di Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.