Amazon EMR
Amazon EMR es la plataforma de big data en la nube líder del sector destinada al procesamiento de grandes volúmenes de datos mediante el uso de herramientas de código abierto, como Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi y Presto. Amazon EMR facilita la instalación, el funcionamiento y el escalado de los entornos de big data al automatizar las tareas que toman mucho tiempo, como el aprovisionamiento de la capacidad y el ajuste de los clústeres. Con EMR, puede ejecutar análisis a escala de petabytes a menos de la mitad del costo de las soluciones tradicionales en las instalaciones y con una velocidad 3 veces superior que Apache Spark estándar. Puede ejecutar cargas de trabajo en las instancias de Amazon EC2, en los clústeres de Amazon Elastic Kubernetes Service (EKS) o en las instalaciones con EMR en AWS Outposts.
Beneficios
Facilidad de uso
Los analistas, los ingenieros de datos y los científicos de datos pueden usar EMR Notebooks para colaborar y analizar, procesar y visualizar datos de manera interactiva. Solo debe especificar la versión de las aplicaciones de EMR y el tipo de informática que desea usar. EMR se encarga del aprovisionamiento, la configuración y el ajuste de los clústeres para que pueda concentrarse en ejecutar análisis.
Bajo costo
Los precios de EMR son simples y predecibles: paga una tarifa por instancia por segundo de uso, con un cargo mínimo de un minuto. Puede lanzar un clúster de EMR de 10 nodos por tan solo 0,15 USD por hora. Puede ahorrar entre un 50 y un 80 % en el costo de las instancias si selecciona instancias de spot de Amazon EC2 para las cargas de trabajo transitorias e instancias reservadas para las cargas de trabajo de larga duración. También puede utilizar Savings Plans.
Elasticidad
A diferencia de la infraestructura rígida de los clústeres en las instalaciones, EMR desacopla la informática y el almacenamiento, lo que le brinda la posibilidad de escalar cada uno de forma independiente y de aprovechar el almacenamiento en niveles de Amazon S3. Con EMR, puede aprovisionar una, cientos o miles de instancias de informática o contenedores para procesar datos a cualquier escala. Aumente o reduzca la cantidad de instancias automáticamente con Auto Scaling (que administra los tamaños de los clústeres en función del uso) y solo pague por lo que utilice.
Fiabilidad
Dedique menos tiempo a ajustar y monitorizar el clúster. EMR está ajustado para la nube y monitorea el clúster constantemente, vuelve a probar las tareas con errores y sustituye de forma automática las instancias que tienen un rendimiento deficiente. Los clústeres tienen una disponibilidad alta y ejecutan una conmutación por error automática en el caso de que se produzcan errores en un nodo. EMR proporciona las últimas versiones estables de software de código abierto, por lo que no es necesario que usted administre las actualizaciones ni las correcciones de errores, lo que implica menos problemas y esfuerzo para mantener el entorno.
Seguridad
EMR establece automáticamente los ajustes del firewall de EC2 para controlar el acceso de red a las instancias y lanza clústeres en Amazon Virtual Private Cloud (VPC). El cifrado del lado del servidor o el cifrado del lado del cliente se pueden utilizar con AWS Key Management Service o sus propias claves administradas por el cliente. EMR facilita la habilitación de otras opciones de cifrado, como el cifrado en tránsito y en reposo, y la autenticación sólida con Kerberos. Puede usar AWS Lake Formation o Apache Ranger para aplicar controles de acceso a los datos específicos para bases de datos, tablas y columnas.
Flexibilidad
Posee el control total de los clústeres de EMR y de los trabajos individuales de EMR. Puede lanzar clústeres de EMR con las AMI personalizadas de Amazon Linux y configurar con facilidad los clústeres usando scripts para instalar paquetes adicionales de software de terceros. EMR le permite volver a configurar aplicaciones en clústeres en ejecución sobre la marcha sin la necesidad de volver a lanzar los clústeres. Además, puede personalizar el entorno de ejecución para los trabajos individuales especificando las bibliotecas y las dependencias del tiempo de ejecución en un contenedor de Docker y enviarlos con su trabajo.
Opciones de implementación
Amazon EMR en Amazon EC2
Puede implementar EMR en Amazon EC2 y aprovechar las instancias bajo demanda, reservadas y de spot. EMR se encarga del aprovisionamiento, de la administración y del escalado de las instancias EC2. AWS ofrece más opciones de instancias que cualquier otro proveedor de servicios en la nube, lo que le permite elegir la instancia que le brinda el mejor rendimiento o costo para su carga de trabajo.
Amazon EMR en Amazon EKS
Puede ejecutar trabajos de big data bajo demanda en Amazon Elastic Kubernetes Service (EKS), sin la necesidad de aprovisionar clústeres de EMR, para mejorar la utilización de los recursos y simplificar la administración de la infraestructura. Amazon EKS le brinda la flexibilidad necesaria para iniciar, ejecutar y escalar aplicaciones de Kubernetes en la nube de AWS o en las instalaciones. Con Amazon EMR en EKS, puede compartir los recursos de informática y de memoria en todas sus aplicaciones y usar un único conjunto de herramientas de Kubernetes para monitorear y administrar la infraestructura de manera centralizada.
Amazon EMR en AWS Outposts
Amazon EMR está disponible en AWS Outposts, lo que le permite configurar, implementar, administrar y escalar EMR en sus entornos en las instalaciones, de la misma manera que lo haría en la nube. AWS Outposts brinda servicios, infraestructura y modelos operativos de AWS a prácticamente cualquier centro de datos, espacio de coubicación o instalación local.
Casos de uso
Aprendizaje automático
Use las herramientas de aprendizaje automático integradas de EMR, como Apache Spark MLlib, TensorFlow y Apache MXNet para los algoritmos de aprendizaje automático escalables, y use las AMI personalizadas y las acciones de arranque para agregar sus bibliotecas y herramientas preferidas con facilidad y crear su propio conjunto de herramientas de análisis predictivo.
Extracción, transformación y carga (ETL)
EMR se puede utilizar para realizar de forma rápida y rentable cargas de trabajo de transformación de datos (ETL), como ordenar, agregar y unir conjuntos de datos de gran tamaño.
Análisis de secuencias de clics
Analice los datos de secuencias de clics de Amazon S3 con Apache Spark y Apache Hive para segmentar a los usuarios, comprender sus preferencias y presentar anuncios más efectivos.
Streaming en tiempo real
Analice los eventos de Apache Kafka, Amazon Kinesis u otras fuentes de datos de streaming en tiempo real con Apache Spark Streaming y Apache Flink para crear canalizaciones de datos de streaming de larga duración, altamente disponibles y tolerantes a errores en EMR. Conserve los conjuntos de datos transformados en S3 o HDFS y la información en Amazon Elasticsearch Service.
Análisis interactivo
EMR Notebooks ofrece un entorno analítico de administración basado en Jupyter de código abierto que permite que los científicos de datos, los analistas y los desarrolladores preparen y visualicen los datos, colaboren con sus colegas, creen aplicaciones y realicen análisis interactivos.
Genómica
EMR se puede utilizar para procesar grandes volúmenes de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos alojados de forma gratuita en AWS.
Investigaciones de analistas
Novedades
Introducción a AWS

Obtenga acceso instantáneo a la capa gratuita de AWS.
Migre big data desde las instalaciones a AWS
Obtenga más información sobre big data y análisis en AWS