Amazon EMR
Ejecute y escale con facilidad Apache Spark, Trino y otras cargas de trabajo de macrodatos
¿Por qué utilizar Amazon EMR?
Amazon EMR es un servicio de procesamiento de macrodatos que acelera las cargas de trabajo de análisis con una flexibilidad y una escala incomparables. EMR presenta tiempos de ejecución optimizados en cuanto a rendimiento para Apache Spark, Trino, Apache Flink y Apache Hive, lo que reduce de manera drástica los costos y los tiempos de procesamiento. El servicio se integra perfectamente con AWS, lo que simplifica los flujos de trabajo de los lagos de datos y las arquitecturas a escala empresarial. Gracias a la integración del escalado automático, la supervisión inteligente y la infraestructura administrada, EMR le permite centrarse en extraer información (en lugar de en administrar clústeres) y ofrecer análisis a escala de petabytes de manera eficiente sin la sobrecarga operativa de las soluciones tradicionales.

Opciones de implementación flexibles
¿Por qué utilizar EMR sin servidor?
Amazon EMR sin servidor facilita a los ingenieros y los analistas de datos la ejecución de marcos de análisis de macrodatos de código abierto, como Apache Spark, sin la necesidad de configurar, administrar o escalar clústeres ni servidores. EMR sin servidor es la forma más rápida de empezar a utilizar todas las características y ventajas de Amazon EMR sin necesidad de expertos que planifiquen y administren los clústeres.
¿Por qué utilizar Amazon EMR en Amazon EC2?
Amazon EMR en Amazon EC2 proporciona control sobre la configuración de los clústeres y admite clústeres de ejecución prolongada, lo que lo hace perfecto para las tareas de procesamiento continuo de datos que requieren configuraciones de hardware específicas. Puede instalar aplicaciones personalizadas junto con marcos populares como Apache Spark y Trino, a la vez que ofrece una amplia gama de tipos de instancias de EC2 para optimizar el costo y el rendimiento. La integración con otros servicios de AWS y la capacidad de usar instancias de spot la convierten en una solución rentable para aquellas organizaciones que requieren un control exhaustivo de sus operaciones de macrodatos.
¿Por qué utilizar Amazon EMR en Amazon EKS?
Amazon EMR en Amazon Elastic Kubernetes Service (EKS) le permite enviar trabajos de Apache Spark bajo demanda en EKS sin necesidad de aprovisionar clústeres de EMR. Con EMR en EKS, puede ejecutar sus cargas de trabajo analíticas en el mismo clúster de Amazon EKS que sus otras aplicaciones basadas en Kubernetes, lo que supone mejorar la utilización de los recursos y simplificar la administración de la infraestructura.
Procese sus datos con Amazon EMR en la próxima generación de Amazon SageMaker
Amazon EMR está disponible en la próxima generación de Amazon SageMaker, lo que le permite ejecutar sin esfuerzo Apache Spark, Trino y otros marcos de análisis de código abierto en un entorno unificado de desarrollo de datos e IA.

Beneficios
Procesamiento rentable de macrodatos
Amazon EMR combina Apache Spark, con rendimiento optimizado para un procesamiento más rápido y rentable, con la flexibilidad de elegir tipos de instancias, incluidas las instancias de spot, y un escalado automático completamente administrado que ajusta el tamaño del clúster de forma dinámica, lo que elimina el sobreaprovisionamiento y reduce el gasto general.
Acelere el tiempo de obtención de información y optimice el rendimiento
Amazon EMR ofrece un rendimiento hasta 3,9 veces superior en comparación con Apache Spark de código abierto, a la vez que mantiene la compatibilidad con las API. El servicio permite a los clientes implementar los marcos de código abierto de su elección: Apache Spark, Trino, Apache Flink o Apache Hive. EMR es compatible con formatos de tablas abiertos populares, como Iceberg, Hudi y Delta, para acelerar el tiempo de obtención de información.
Flexibilidad de implementación sin igual
EMR ofrece varias opciones de implementación, como EMR sin servidor para un procesamiento totalmente administrado y sin infraestructura, EMR en EC2 para un control detallado de los clústeres y EMR en EKS para cargas de trabajo de macrodatos nativas de Kubernetes. Ya sea que ejecute clústeres a corto plazo para trabajos bajo demanda o clústeres de larga duración para tareas persistentes, EMR se adapta a sus necesidades operativas a la vez que optimiza los costos mediante una asignación flexible de recursos y un escalado eficiente.
Optimice el procesamiento de datos en Amazon SageMaker
Amazon EMR, en la próxima generación de Amazon SageMaker, le permite ejecutar marcos de código abierto como Apache Spark, Trino y Apache Flink, de modo que puede escalar las cargas de trabajo de análisis con facilidad, sin tener que aprovisionar ni administrar la infraestructura. Gracias a las capacidades de EMR en Amazon SageMaker, puede unificar el procesamiento de datos y el desarrollo de modelos, lo que permite ejecutar flujos de trabajo de extremo a extremo, desde la transformación de datos sin procesar hasta la implementación de IA, en un único entorno de colaboración.