Passa al contenuto principale

Amazon EMR

Amazon EMR

Esegui e scala Apache Spark, Hive, Presto e altri carichi di lavoro di big data con facilità

Perché scegliere Amazon EMR?

Amazon EMR è un servizio di elaborazione di big data che accelera i carichi di lavoro di analisi con flessibilità e scalabilità senza pari. EMR offre runtime ottimizzati per le prestazioni per Apache Spark, Trino, Apache Flink e Apache Hive, riducendo drasticamente costi e tempi di elaborazione. Il servizio si integra perfettamente con AWS, semplificando i flussi di lavoro dei data lake e le architetture su scala aziendale. Con scalabilità automatica integrata, monitoraggio intelligente e infrastruttura gestita, EMR ti consente di concentrarti sull'estrazione di informazioni, non sulla gestione dei cluster, fornendo analisi su scala petabyte in modo efficiente senza il sovraccarico operativo delle soluzioni tradizionali.

Missing alt text value

Opzioni di implementazione flessibili

Perché utilizzare EMR serverless?

Amazon EMR serverless consente ad analisti e ingegneri di dati di eseguire facilmente framework di analisi dei big data open source come Apache Spark, senza dover configurare, gestire e scalare cluster o server.  EMR serverless è il modo più veloce per iniziare a utilizzare tutte le funzionalità e i vantaggi di Amazon EMR, senza la necessità di esperti per pianificare e gestire i cluster.  

EMR Serverless

Perché utilizzare Amazon EMR su Amazon EC2?

Amazon EMR su Amazon EC2 fornisce il controllo sulla configurazione dei cluster e supporta cluster a lunga durata, rendendolo perfetto per attività di elaborazione continua dei dati che richiedono configurazioni hardware specifiche. Puoi installare applicazioni personalizzate insieme a framework popolari come Apache Spark e Trino, offrendo al contempo un'ampia gamma di tipi di istanze EC2 da ottimizzare sia in termini di costi che di prestazioni. L'integrazione con altri servizi AWS e la possibilità di utilizzare le istanze spot la rendono una soluzione conveniente per le organizzazioni che richiedono un controllo granulare sulle loro operazioni con i big data.

Perché utilizzare Amazon EMR su Amazon EKS?

Amazon EMR su Amazon Elastic Kubernetes Service (EKS) consente di inviare processi Apache Spark on demand su EKS, senza dover eseguire il provisioning dei cluster EMR. Con EMR su EKS, puoi eseguire i tuoi carichi di lavoro analitici sullo stesso cluster Amazon EKS delle altre applicazioni basate su Kubernetes per migliorare l'utilizzo delle risorse e semplificare la gestione dell'infrastruttura.  

Amazon EMR su Amazon EKS

Elabora i tuoi dati con Amazon EMR nella nuova generazione di Amazon SageMaker

Amazon EMR è disponibile nella nuova generazione di Amazon SageMaker e consente di eseguire facilmente Apache Spark, Trino e altri framework di analisi open source in un ambiente di sviluppo unificato di dati e IA.

Ulteriori informazioni.

Missing alt text value

Vantaggi

Amazon EMR combina Apache Spark con prestazioni ottimizzate per un'elaborazione più rapida ed economica con la flessibilità di scegliere i tipi di istanza, comprese le istanze spot, e un dimensionamento automatico completamente gestito che dimensiona dinamicamente il cluster, eliminando il provisioning eccessivo e riducendo la spesa complessiva.

Amazon EMR offre prestazioni fino a 3,9 volte migliori rispetto ad Apache Spark open source pur mantenendo la compatibilità delle API. Consente ai clienti di implementare framework open source di loro scelta: Apache Spark, Trino, Apache Flink o Apache Hive. EMR supporta i formati open table più diffusi come Iceberg, Hudi e Delta per accelerare il time-to-insight.

EMR offre una vasta scelta di implementazioni, tra cui EMR serverless per un'elaborazione completamente gestita e senza infrastrutture, EMR su EC2 per il controllo granulare dei cluster ed EMR su EKS per i carichi di lavoro dei big data nativi di Kubernetes. Che si tratti di gestire cluster a breve termine per lavori on demand o cluster a lunga durata per attività persistenti, EMR si adatta alle tue esigenze operative ottimizzando i costi attraverso un'allocazione flessibile delle risorse e una scalabilità efficiente.

Amazon EMR nella prossima generazione di Amazon SageMaker ti consente di eseguire framework open source come Apache Spark, Trino e Apache Flink, permettendoti di scalare i carichi di lavoro di analisi senza sforzo, il tutto senza dover effettuare il provisioning o gestire l'infrastruttura. Con le funzionalità di EMR in Amazon SageMaker, puoi unificare l'elaborazione dei dati e lo sviluppo di modelli, abilitando flussi di lavoro end-to-end, dalla trasformazione dei dati grezzi all'implementazione dell'IA, in un unico ambiente collaborativo.

Casi d'uso

Esegui elaborazioni di dati su grande scala e analisi ipotetiche utilizzando algoritmi statistici e modelli predittivi per scoprire sequenze nascoste, correlazioni, tendenze di mercato e preferenze dei clienti.
Estrai dati da una varietà di origini, elaborali su scala e rendili disponibili per le applicazioni e per gli utenti.
Analizza gli eventi da origini dati di streaming in tempo reale per creare pipeline di dati di streaming di lunga durata, ad elevata disponibilità e con tolleranza agli errori.
Usa framework ML open source come Apache Spark MLlib, TensorFlow, e Apache MXNet per analizzare i dati. Connettiti ad Amazon SageMaker Studio per addestramento dei modelli su grande scala, analisi e creazione di report.