Amazon EMR

Ejecución y escalado sencillos de Apache Spark, Hive, Presto y otros marcos de big data

Amazon EMR es la plataforma de big data en la nube líder del sector destinada al procesamiento de grandes volúmenes de datos mediante el uso de herramientas de código abierto, como Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi y Presto. Amazon EMR facilita la instalación, el funcionamiento y el escalado de los entornos de big data al automatizar las tareas que toman mucho tiempo, como el aprovisionamiento de la capacidad y el ajuste de los clústeres. Con EMR, puede ejecutar análisis a escala de petabytes a menos de la mitad del costo de las soluciones tradicionales en las instalaciones y con una velocidad 3 veces superior que Apache Spark estándar. Puede ejecutar cargas de trabajo en las instancias de Amazon EC2, en los clústeres de Amazon Elastic Kubernetes Service (EKS) o en las instalaciones con EMR en AWS Outposts.

Descubra cómo Apache Hudi simplifica las canalizaciones para la captura de datos de cambio (CDC) y las normas de privacidad

An introduction to Amazon EMR (3:00)

Beneficios

Facilidad de uso

Puede utilizar EMR Studio, un entorno de desarrollo integrado (IDE) para fácilmente desarrollar, visualizar y corregir aplicaciones de ingeniería y de ciencias de datos escritas en R, Python, Scala y PySpark. EMR Studio utiliza AWS Single Sign-On y le permite acceder directamente con sus credenciales corporativas. Ofrece blocs de notas Jupyter totalmente gestionados y colaboración con colegas mediante repositorios de código como GitHub y BitBucket.

Bajo costo

Los precios de EMR son simples y predecibles: paga una tarifa por instancia por segundo de uso, con un cargo mínimo de un minuto. Puede lanzar un clúster de EMR de 10 nodos por tan solo 0,15 USD por hora. Puede ahorrar entre un 50 y un 80 % en el costo de las instancias si selecciona instancias de spot de Amazon EC2 para las cargas de trabajo transitorias e instancias reservadas para las cargas de trabajo de larga duración. También puede utilizar Savings Plans.

Elasticidad

A diferencia de la infraestructura rígida de los clústeres en las instalaciones, EMR desacopla la informática y el almacenamiento, lo que le brinda la posibilidad de escalar cada uno de forma independiente y de aprovechar el almacenamiento en niveles de Amazon S3. Con EMR, puede aprovisionar una, cientos o miles de instancias de informática o contenedores para procesar datos a cualquier escala. Aumente o reduzca la cantidad de instancias automáticamente con Auto Scaling (que administra los tamaños de los clústeres en función del uso) y solo pague por lo que utilice.

Fiabilidad

Dedique menos tiempo a ajustar y monitorizar el clúster. EMR está ajustado para la nube y monitorea el clúster constantemente, vuelve a probar las tareas con errores y sustituye de forma automática las instancias que tienen un rendimiento deficiente. Los clústeres tienen una disponibilidad alta y ejecutan una conmutación por error automática en el caso de que se produzcan errores en un nodo. EMR proporciona las últimas versiones estables de software de código abierto, por lo que no es necesario que usted administre las actualizaciones ni las correcciones de errores, lo que implica menos problemas y esfuerzo para mantener el entorno.

Seguridad

EMR establece automáticamente los ajustes del firewall de EC2 para controlar el acceso de red a las instancias y lanza clústeres en Amazon Virtual Private Cloud (VPC). El cifrado del lado del servidor o el cifrado del lado del cliente se pueden utilizar con AWS Key Management Service o sus propias claves administradas por el cliente. EMR facilita la habilitación de otras opciones de cifrado, como el cifrado en tránsito y en reposo, y la autenticación sólida con Kerberos. Puede usar AWS Lake Formation o Apache Ranger para aplicar controles de acceso a los datos específicos para bases de datos, tablas y columnas.

Flexibilidad

Posee el control total de los clústeres de EMR y de los trabajos individuales de EMR. Puede lanzar clústeres de EMR con las AMI personalizadas de Amazon Linux y configurar con facilidad los clústeres usando scripts para instalar paquetes adicionales de software de terceros. EMR le permite volver a configurar aplicaciones en clústeres en ejecución sobre la marcha sin la necesidad de volver a lanzar los clústeres. Además, puede personalizar el entorno de ejecución para los trabajos individuales especificando las bibliotecas y las dependencias del tiempo de ejecución en un contenedor de Docker y enviarlos con su trabajo.

Opciones de implementación

Amazon EMR en Amazon EC2

Puede implementar EMR en Amazon EC2 y aprovechar las instancias bajo demanda, reservadas y de spot. EMR se encarga del aprovisionamiento, de la administración y del escalado de las instancias EC2. AWS ofrece más opciones de instancias que cualquier otro proveedor de servicios en la nube, lo que le permite elegir la instancia que le brinda el mejor rendimiento o costo para su carga de trabajo.

Más información »

Amazon EMR en Amazon EKS

Puede utilizar EMR para ejecutar trabajos de Apache Spark bajo demanda en Amazon Elastic Kubernetes Service (EKS), sin la necesidad de aprovisionar clústeres de EMR, a fin de mejorar la utilización de los recursos y simplificar la administración de la infraestructura. Amazon EKS le brinda la flexibilidad necesaria para iniciar, ejecutar y escalar aplicaciones de Kubernetes en la nube de AWS o en las instalaciones. Con Amazon EMR en EKS, puede compartir los recursos de informática y de memoria en todas sus aplicaciones y usar un único conjunto de herramientas de Kubernetes para monitorear y administrar la infraestructura de manera centralizada.

Más información »

Amazon EMR en AWS Outposts

Amazon EMR está disponible en AWS Outposts, lo que le permite configurar, implementar, administrar y escalar EMR en sus entornos en las instalaciones, de la misma manera que lo haría en la nube. AWS Outposts brinda servicios, infraestructura y modelos operativos de AWS a prácticamente cualquier centro de datos, espacio de coubicación o instalación local.

Más información »

Casos de uso

Aprendizaje automático

Use las herramientas de aprendizaje automático integradas de EMR, como Apache Spark MLlib, TensorFlow y Apache MXNet para los algoritmos de aprendizaje automático escalables, y use las AMI personalizadas y las acciones de arranque para agregar sus bibliotecas y herramientas preferidas con facilidad y crear su propio conjunto de herramientas de análisis predictivo.

Extracción, transformación y carga (ETL)

EMR se puede utilizar para realizar de forma rápida y rentable cargas de trabajo de transformación de datos (ETL), como ordenar, agregar y unir conjuntos de datos de gran tamaño.

Conozca cómo Redfin utiliza los clústeres transitorios de EMR para ETL »

Análisis de secuencias de clics

Analice los datos de secuencias de clics de Amazon S3 con Apache Spark y Apache Hive para segmentar a los usuarios, comprender sus preferencias y presentar anuncios más efectivos.

Streaming en tiempo real

Analice los eventos de Apache Kafka, Amazon Kinesis u otras fuentes de datos de streaming en tiempo real con Apache Spark Streaming y Apache Flink para crear canalizaciones de datos de streaming de larga duración, altamente disponibles y tolerantes a errores en EMR. Conserve los conjuntos de datos transformados en S3 o HDFS y la información en Amazon Elasticsearch Service.

Conozca cómo Hearst utiliza Spark Streaming »

Análisis interactivo

EMR Notebooks ofrece un entorno analítico de administración basado en Jupyter de código abierto que permite que los científicos de datos, los analistas y los desarrolladores preparen y visualicen los datos, colaboren con sus colegas, creen aplicaciones y realicen análisis interactivos.

Genómica

EMR se puede utilizar para procesar grandes volúmenes de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos alojados de forma gratuita en AWS.

Obtenga información sobre Apache Spark y la medicina de precisión »

Casos prácticos

Investigaciones de analistas

Más...

Novedades

fecha
  • fecha
1

Introducción a AWS

Lea la guía de migración de EMR
Lea la guía de migración

Aprenda a migrar big data desde las instalaciones a AWS.

Más información 
Inscríbase para obtener una cuenta gratuita de AWS
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo a la capa gratuita de AWS. 

Regístrese 
Comience a crear con EMR en la consola
Comience a crear en la consola

Comience a crear con Amazon EMR en la consola de AWS.

Iniciar sesión 

Migre big data desde las instalaciones a AWS

Recursos para ayudarlo a planificar su migración

Obtenga más información sobre big data y análisis en AWS

Lea el blog de big data de AWS