Amazon EMR

Ejecución y escalado sencillos de Apache Spark, Hive, Presto y otros marcos de big data

Amazon EMR es la plataforma para big data en la nube líder en la industria destinada al procesamiento de grandes volúmenes de datos mediante el uso de herramientas de código abierto como Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi y Presto. Con EMR puede ejecutar análisis a escala de petabytes a menos de la mitad del costo de las soluciones locales tradicionales y con una velocidad 3 veces superior que el Apache Spark estándar. Para trabajos de corta duración, puede iniciar y finalizar clústeres y pagar por segundo en función de las instancias utilizadas. Para cargas de trabajo de larga duración, puede crear clústeres de alta disponibilidad que se escalan automáticamente para satisfacer la demanda. Si tiene implementaciones locales de herramientas de código abierto, tales como Apache Spark y Apache Hive, también puede ejecutar clústeres de EMR en AWS Outposts.

Averigüe cómo puede reducir los costos y simplificar las operaciones mediante la migración de cargas de trabajo locales a EMR

Descubra cómo Apache Hudi simplifica las canalizaciones para la captura de datos modificados (CDC) y las normas de privacidad

An introduction to Amazon EMR (3:00)

Beneficios

Facilidad de uso

Los analistas, los ingenieros de datos y los científicos de datos pueden usar EMR Notebooks, lo que permite a las personas y los equipos colaborar fácilmente y analizar, procesar y visualizar datos de manera interactiva. Tan solo debe especificar la versión de las aplicaciones de EMR y el tipo de cómputo que desea usar. EMR se encarga del aprovisionamiento, la configuración y el ajuste de los clústeres para que pueda concentrarse en ejecutar análisis.

Bajo costo

Los precios de EMR son simples y predecibles: paga una tarifa por instancia por segundo de uso, con un cargo mínimo de un minuto. Puede lanzar un clúster de EMR de 10 nodos por tan solo 0,15 USD por hora. También puede ahorrar entre un 50 y 80 % en el costo de las instancias si selecciona instancias de spot de Amazon EC2 para cargas de trabajo transitorias e instancias reservadas para cargas de trabajo de larga duración. También puede utilizar Savings Plans.

Elasticidad

A diferencia de la infraestructura rígida de los clústeres locales, EMR desacopla el cómputo y el almacenamiento, lo que le brinda la capacidad para ajustar la escala de cada uno de forma independiente y aprovechar el almacenamiento en niveles de Amazon S3. Gracias a EMR, puede aprovisionar una instancia de cómputo o cientos o miles de ellas para procesar datos a cualquier escala. Aumente o reduzca la cantidad de instancias automáticamente con Auto Scaling (que administra los tamaños de los clústeres en función del uso), y solo pagará por lo que utilice.

Fiabilidad

Dedique menos tiempo a ajustar y monitorizar el clúster. EMR está ajustado para la nube y monitoriza el clúster constantemente, reintenta las tareas fallidas y sustituye de forma automática las instancias que tienen un rendimiento deficiente. Como poseen varios nodos principales, los clústeres tienen una disponibilidad alta y ejecutan una conmutación por error automática cuando ocurren fallas en un nodo. EMR proporciona las últimas versiones estables del software de código abierto. No es necesario que usted administre actualizaciones y correcciones de errores, lo que implica menos problemas y esfuerzo para mantener el entorno.

Seguridad

EMR establece automáticamente los ajustes del firewall de EC2 para controlar el acceso de red a las instancias y lanza clústeres en una Amazon Virtual Private Cloud (VPC). El cifrado del lado del servidor o el cifrado del lado del cliente se puede utilizar con AWS Key Management Service o las claves administradas por el cliente. EMR facilita la habilitación de otras opciones de cifrado, como el cifrado en tránsito y en reposo, y la autenticación sólida con Kerberos. Puede usar AWS Lake Formation o Apache Ranger para aplicar controles de acceso a los datos específicos para bases de datos, tablas y columnas.

Flexibilidad

Usted tiene pleno control sobre su clúster con acceso raíz a cada instancia. Puede iniciar clústeres de EMR con las AMI de Amazon Linux personalizadas e instalar fácilmente aplicaciones adicionales con acciones de arranque. EMR le permite reconfigurar aplicaciones en clústeres en ejecución sobre la marcha, sin la necesidad de reiniciar los clústeres. Además, con Hadoop 3.0, puede empaquetar las dependencias de la biblioteca en contenedores Docker y enviarlas con sus trabajos para simplificar las dependencias del entorno.

Casos de uso

Aprendizaje automático

Use las herramientas de aprendizaje automático integradas de EMR, como Apache Spark MLlib, TensorFlow y Apache MXNet para los algoritmos de aprendizaje automático escalables, y use las AMI personalizadas y las acciones de arranque para agregar sus bibliotecas y herramientas preferidas con facilidad y crear su propio conjunto de herramientas de análisis predictivo.

Extracción, transformación y carga (ETL)

EMR se puede utilizar para realizar de forma rápida y rentable cargas de trabajo de transformación de datos (ETL), como por ejemplo ordenar, agregar e incluir, en conjuntos de datos de gran tamaño.

Conozca cómo Redfin utiliza los clústeres transitorios de EMR para ETL »

Análisis de secuencias de clics

Analice los datos de secuencias de clics de Amazon S3 con Apache Spark y Apache Hive para segmentar a los usuarios, comprender sus preferencias y presentar anuncios más efectivos.

Streaming en tiempo real

Analice los eventos de Apache Kafka, Amazon Kinesis u otras fuentes de datos de streaming en tiempo real con Apache Spark Streaming y Apache Flink para crear canalizaciones de datos de streaming de larga duración, altamente disponibles y tolerantes a errores en EMR. Conserve los conjuntos de datos transformados en S3 o HDFS y la información en Amazon Elasticsearch Service.

Conozca cómo Hearst utiliza Spark Streaming »

Análisis interactivo

EMR Notebooks ofrece un entorno analítico de administración basado en Jupyter de código abierto que permite que los científicos de datos, los analistas y los desarrolladores preparen y visualicen los datos, colaboren con sus colegas, creen aplicaciones y realicen análisis interactivos.

Genómica

EMR se puede utilizar para procesar grandes volúmenes de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos alojados de forma gratuita en AWS.

Obtenga información sobre Apache Spark y la medicina de precisión »

Casos prácticos

Investigaciones de analistas

Más...

Novedades

fecha
  • fecha
1

Introducción a AWS

Lea la guía de migración de EMR
Lea la guía de migración

Aprenda a migrar big data desde las instalaciones a AWS.

Más información 
Inscríbase para obtener una cuenta gratuita de AWS
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo a la capa gratuita de AWS. 

Regístrese 
Comience a crear con EMR en la consola
Comience a crear en la consola

Comience a crear con Amazon EMR en la consola de AWS.

Iniciar sesión 

Migre big data desde las instalaciones a AWS

Recursos para ayudarlo a planificar su migración

Obtenga más información sobre big data y análisis en AWS

Lea el blog de big data de AWS