Amazon EMR sin servidor elimina el aprovisionamiento de almacenamiento local para las cargas de trabajo de Apache Spark
Amazon EMR sin servidor ahora ofrece almacenamiento sin servidor que elimina el aprovisionamiento de almacenamiento local para las cargas de trabajo de Apache Spark, lo que reduce los costos de procesamiento de datos hasta en un 20 % y evita que se produzcan errores en los trabajos debido a las restricciones de capacidad del disco. Ya no es necesario configurar el tipo y el tamaño del disco local para cada aplicación. EMR sin servidor gestiona automáticamente las operaciones de datos intermedias, como la distribución aleatoria, sin cargos de almacenamiento local. Solo paga por los recursos de computación y memoria que consume su trabajo.
EMR sin servidor transfiere las operaciones de datos intermedias a un almacenamiento sin servidor totalmente administrado y con escalado automático que cifra los datos en tránsito y en reposo con aislamiento a nivel de trabajo. El almacenamiento sin servidor desacopla el almacenamiento de la computación, lo que permite a Spark liberar a los trabajadores inmediatamente cuando están inactivos, en lugar de mantenerlos activos para preservar los datos temporales. Elimina las fallas de trabajo debidas a una capacidad de disco insuficiente y reduce los costos al evitar los cargos por trabajadores inactivos. Esto es particularmente valioso para los trabajos que utilizan la asignación dinámica de recursos, como los motores de recomendación que procesan millones de interacciones con los clientes, donde las etapas iniciales procesan grandes conjuntos de datos con un alto paralelismo y luego se reducen a medida que se agregan los datos.
Esta característica ya está disponible para las versiones 7.12 y posteriores de Amazon EMR. Consulte las regiones de AWS compatibles para ver la disponibilidad. Para comenzar, consulte la documentación sobre almacenamiento sin servidor para EMR sin servidor.