Amazon EMR serverless elimina il provisioning dell'archiviazione locale per i carichi di lavoro Apache Spark
Amazon EMR serverless ora offre un'archiviazione serverless che elimina il provisioning dell'archiviazione locale per i carichi di lavoro Apache Spark, riducendo i costi di elaborazione dei dati fino al 20% e prevenendo gli errori dei processi dovuti ai vincoli di capacità del disco. Non è più necessario configurare il tipo e la dimensione del disco locale per ogni applicazione. EMR serverless gestisce automaticamente le operazioni intermedie sui dati, ad esempio lo shuffle, senza costi di archiviazione locale. Vengono addebitate solo le effettive risorse di calcolo e memoria utilizzate nei processi.
EMR serverless trasferisce le operazioni intermedie sui dati su un'archiviazione serverless completamente gestita e con scalabilità automatica che crittografa i dati in transito e a riposo con isolamento a livello di processo. L'archiviazione serverless separa l'archiviazione dal calcolo, consentendo a Spark di liberare immediatamente i worker quando sono inattivi anziché mantenerli attivi per preservare i dati temporanei. Elimina gli errori dei processi dovuti a una capacità del disco insufficiente e riduce i costi evitando addebiti per worker inattivi. L'archiviazione serverless risulta particolarmente utile per i processi che utilizzano l'allocazione dinamica delle risorse, come i motori di raccomandazione che elaborano milioni di interazioni dei clienti, in cui le fasi iniziali processano grandi set di dati con elevato parallelismo per poi ridursi progressivamente durante l'aggregazione dei dati.
Questa funzionalità è disponibile al pubblico per EMR 7.12 e versioni successive. Per la disponibilità in dettaglio, consulta la sezione con le regioni AWS supportate. Per iniziare, consulta la documentazione sull'archiviazione serverless per EMR serverless.