Saltar al contenido principal

Amazon EMR

Amazon EMR

Ejecute y escale con facilidad Apache Spark, Trino y otras cargas de trabajo de macrodatos

¿Por qué utilizar Amazon EMR?

Amazon EMR es un servicio de procesamiento de macrodatos que acelera las cargas de trabajo de análisis con una flexibilidad y una escala incomparables. EMR presenta tiempos de ejecución optimizados en cuanto a rendimiento para Apache Spark, Trino, Apache Flink y Apache Hive, lo que reduce de manera drástica los costos y los tiempos de procesamiento. El servicio se integra perfectamente con AWS, lo que simplifica los flujos de trabajo de los lagos de datos y las arquitecturas a escala empresarial. Gracias a la integración del escalado automático, la supervisión inteligente y la infraestructura administrada, EMR le permite centrarse en extraer información (en lugar de en administrar clústeres) y ofrecer análisis a escala de petabytes de manera eficiente sin la sobrecarga operativa de las soluciones tradicionales.

Missing alt text value

Opciones de implementación flexibles

¿Por qué utilizar EMR sin servidor?

Amazon EMR sin servidor facilita a los ingenieros y los analistas de datos la ejecución de marcos de análisis de macrodatos de código abierto, como Apache Spark, sin la necesidad de configurar, administrar o escalar clústeres ni servidores.  EMR sin servidor es la forma más rápida de empezar a utilizar todas las características y ventajas de Amazon EMR sin necesidad de expertos que planifiquen y administren los clústeres.  

EMR sin servidor

¿Por qué utilizar Amazon EMR en Amazon EC2?

Amazon EMR en Amazon EC2 proporciona control sobre la configuración de los clústeres y admite clústeres de ejecución prolongada, lo que lo hace perfecto para las tareas de procesamiento continuo de datos que requieren configuraciones de hardware específicas. Puede instalar aplicaciones personalizadas junto con marcos populares como Apache Spark y Trino, a la vez que ofrece una amplia gama de tipos de instancias de EC2 para optimizar el costo y el rendimiento. La integración con otros servicios de AWS y la capacidad de usar instancias de spot la convierten en una solución rentable para aquellas organizaciones que requieren un control exhaustivo de sus operaciones de macrodatos.

¿Por qué utilizar Amazon EMR en Amazon EKS?

Amazon EMR en Amazon Elastic Kubernetes Service (EKS) le permite enviar trabajos de Apache Spark bajo demanda en EKS sin necesidad de aprovisionar clústeres de EMR. Con EMR en EKS, puede ejecutar sus cargas de trabajo analíticas en el mismo clúster de Amazon EKS que sus otras aplicaciones basadas en Kubernetes, lo que supone mejorar la utilización de los recursos y simplificar la administración de la infraestructura.  

Amazon EMR en Amazon EKS

Procese sus datos con Amazon EMR en la próxima generación de Amazon SageMaker

Amazon EMR está disponible en la próxima generación de Amazon SageMaker, lo que le permite ejecutar sin esfuerzo Apache Spark, Trino y otros marcos de análisis de código abierto en un entorno unificado de desarrollo de datos e IA.

Más información.

Missing alt text value

Beneficios

Amazon EMR combina Apache Spark, con rendimiento optimizado para un procesamiento más rápido y rentable, con la flexibilidad de elegir tipos de instancias, incluidas las instancias de spot, y un escalado automático completamente administrado que ajusta el tamaño del clúster de forma dinámica, lo que elimina el sobreaprovisionamiento y reduce el gasto general.

Amazon EMR ofrece un rendimiento hasta 3,9 veces superior en comparación con Apache Spark de código abierto, a la vez que mantiene la compatibilidad con las API. El servicio permite a los clientes implementar los marcos de código abierto de su elección: Apache Spark, Trino, Apache Flink o Apache Hive. EMR es compatible con formatos de tablas abiertos populares, como Iceberg, Hudi y Delta, para acelerar el tiempo de obtención de información.

EMR ofrece varias opciones de implementación, como EMR sin servidor para un procesamiento totalmente administrado y sin infraestructura, EMR en EC2 para un control detallado de los clústeres y EMR en EKS para cargas de trabajo de macrodatos nativas de Kubernetes. Ya sea que ejecute clústeres a corto plazo para trabajos bajo demanda o clústeres de larga duración para tareas persistentes, EMR se adapta a sus necesidades operativas a la vez que optimiza los costos mediante una asignación flexible de recursos y un escalado eficiente.

Amazon EMR, en la próxima generación de Amazon SageMaker, le permite ejecutar marcos de código abierto como Apache Spark, Trino y Apache Flink, de modo que puede escalar las cargas de trabajo de análisis con facilidad, sin tener que aprovisionar ni administrar la infraestructura. Gracias a las capacidades de EMR en Amazon SageMaker, puede unificar el procesamiento de datos y el desarrollo de modelos, lo que permite ejecutar flujos de trabajo de extremo a extremo, desde la transformación de datos sin procesar hasta la implementación de IA, en un único entorno de colaboración.

Casos de uso

Ejecute procesamientos de datos a gran escala y análisis hipotéticos mediante algoritmos estadísticos y modelos predictivos para descubrir patrones ocultos, correlaciones, tendencias del mercado y preferencias de los clientes.
Extraiga datos de una variedad de orígenes, procéselos a escala y póngalos a disposición de las aplicaciones y los usuarios.
Analice los eventos de orígenes de datos de transmisión en tiempo real para crear canalizaciones de datos de transmisión de larga duración, altamente disponibles y tolerantes a errores.
Analice los datos con marcos de ML de código abierto como Apache Spark MLlib, TensorFlow y Apache MXNet. Conéctese a Amazon SageMaker Studio para entrenamiento del modelo a gran escala, análisis y creación de informes.