Amazon EMR

Ejecución y escalado sencillos de Apache Spark, Hadoop, HBase, Presto, Hive y otros marcos de big data

Amazon EMR es la plataforma de big data nativa en la nube líder del sector que permite que los equipos procesen grandes cantidades de datos de forma rápida y rentable a escala. EMR utiliza herramientas de código abierto, como Apache Spark, Apache Hive, Apache HBase, Apache Flink, y Presto, que se combinan con la escalabilidad dinámica de Amazon EC2 y el almacenamiento escalable de Amazon S3. De esta forma, EMR brinda a los equipos analíticos los motores y la elasticidad para ejecutar el análisis a escala de Petabyte por una fracción del costo de los clústeres locales tradicionales. Los desarrolladores y los analistas pueden usar EMR Notebooks basados en Jupyter para el desarrollo iterativo, la colaboración y el acceso a los datos almacenados en los productos de datos de AWS, como Amazon S3, Amazon DynamoDB y Amazon RedShift, a fin de obtener información e instrumentalizar los análisis con mayor rapidez.

Los clientes de varios sectores usan EMR para gestionar de forma segura y confiable grandes conjuntos de casos de uso de big data, incluidos el aprendizaje automático, las transformaciones de datos (ETL), la simulación financiera y científica, la bioinformática, el análisis de registro y el aprendizaje profundo. EMR brinda a los equipos la flexibilidad de ejecutar casos de uso en clústeres de corta duración y de uso único que se escalan automáticamente para satisfacer la demanda, o en clústeres de alta disponibilidad y duración prolongada con el modo de implementación nuevo con varios nodos principales. 

An introduction to Amazon EMR (3:00)

Beneficios

Facilidad de uso

EMR lanza clústeres en minutos. Usted no debe preocuparse por el aprovisionamiento de nodos, la configuración de la infraestructura y de Hadoop ni el ajuste del clúster. EMR se encarga de estas tareas para que usted pueda centrarse en los análisis. Los analistas, los ingenieros de datos y los científicos de datos pueden lanzar un Jupyter Notebook sin servidor en cuestión de segundos utilizando EMR Notebooks. Esto permite que las personas y los equipos trabajen en conjunto y exploren, procesen y visualicen los datos de forma interactiva en un formato de bloc de notas fácil de usar.

Bajo costo

Los precios de EMR son simples y predecibles: paga una tarifa por instancia por cada segundo de uso, con un cargo mínimo de un minuto. Puede lanzar un clúster de EMR de 10 nodos con aplicaciones como Apache Spark o Apache Hive por tan solo 0,15 USD por hora. Dado que EMR ofrece una compatibilidad nativa con las instancias reservadas y de spot de Amazon EC2, puede ahorrar entre el 50 % y el 80 % del costo de las instancias subyacentes.

Elasticidad

Gracias a EMR, puede aprovisionar una instancia de informática o cientos o miles de ellas para procesar datos a cualquier escala. Aumente o reduzca con facilidad la cantidad de instancias de forma manual o automática con Auto Scaling (que administra los tamaños de los clústeres en función del uso), y solo pagará por lo que utilice. A diferencia de la infraestructura rígida de los clústeres locales, EMR separa las instancias de informática y de almacenamiento persistente, de forma que se puedan escalar de forma independiente.

Fiabilidad

Dedique menos tiempo a ajustar y monitorizar el clúster. EMR está ajustado para la nube y monitoriza el clúster constantemente, reintenta las tareas fallidas y sustituye de forma automática las instancias que tengan un rendimiento deficiente. EMR proporciona las últimas versiones estables de software de código abierto. No es necesario que usted administre actualizaciones y correcciones de errores, lo que conlleva menos problemas y esfuerzo para mantener el entorno. Ya que cuenta con múltiples nodos principales, los clústeres presentan una alta disponibilidad y ejecutan una conmutación por error automática en caso de fallas en un nodo.

Seguridad

EMR establece automáticamente los ajustes del firewall de EC2 para controlar el acceso de red a las instancias y lanza clústeres en una Amazon Virtual Private Cloud (VPC), una red aislada de forma lógica que usted defina. Si se trata de objetos almacenados en S3, se puede implementar el cifrado en el lado del servidor o el cifrado en el lado del cliente con EMRFS (un almacén de objetos para Hadoop en S3), utilizando AWS Key Management Service o las claves administradas por el cliente. EMR facilita la habilitación de otras opciones de cifrado, como el cifrado en tránsito y en reposo, y la autenticación sólida con Kerberos.

Flexibilidad

Usted tiene un control total sobre el clúster. Tiene acceso raíz a todas las instancias, puede instalar aplicaciones adicionales con facilidad y personalizar cada clúster con acciones de arranque. Además, puede lanzar clústeres de EMR con las AMI personalizadas de Amazon Linux y volver a configurar los clústeres en ejecución sobre la marcha sin necesidad de reiniciarlos.

Casos de uso

Machine Learning

Use las herramientas de aprendizaje automático integradas de EMR, como Apache Spark MLlib, TensorFlow y Apache MXNet para los algoritmos de aprendizaje automático escalables, y use las AMI personalizadas y las acciones de arranque para agregar sus bibliotecas y herramientas preferidas con facilidad y crear su propio conjunto de herramientas de análisis predictivo.

Conozca cómo Intent Media utiliza Spark MLib »

Extracción, transformación y carga (ETL)

EMR se puede utilizar para realizar de forma rápida y rentable cargas de trabajo de transformación de datos (ETL), como por ejemplo ordenar, agregar e incluir, en conjuntos de datos de gran tamaño.

Conozca cómo Redfin utiliza los clústeres transitorios de EMR para ETL »

Análisis de secuencias de clics

Analice los datos de secuencias de clics de Amazon S3 con Apache Spark y Apache Hive para segmentar a los usuarios, comprender sus preferencias y presentar anuncios más efectivos.

Conozca cómo Razorfish utiliza EMR para el análisis de secuencias de clics »

Streaming en tiempo real

Analice los eventos de Apache Kafka, Amazon Kinesis u otras fuentes de datos de streaming en tiempo real con Apache Spark Streaming y EMR para crear canalizaciones de datos de streaming de larga duración, altamente disponibles y tolerantes a errores. Conserve los conjuntos de datos transformados en Amazon S3 o HDFS, y la información en Amazon Elasticsearch.

Conozca cómo Hearst utiliza Spark Streaming »

Análisis interactivo

EMR Notebooks ofrece un entorno analítico de administración basado en Jupyter de código abierto que permite que los científicos de datos, los analistas y los desarrolladores preparen y visualicen los datos, colaboren con sus colegas, creen aplicaciones y realicen análisis interactivos.

Genómica

EMR se puede utilizar para procesar grandes volúmenes de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos alojados de forma gratuita en AWS.

Obtenga información sobre Apache Spark y la medicina de precisión »

Casos prácticos

Investigaciones de analistas

1

Introducción a AWS

Step 1 - Sign up for an AWS account

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneamente a la capa gratuita de AWS.
icon2

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.
icon3

Comience a crear con AWS

Comience a crear soluciones con las guías paso a paso que lo ayudarán a lanzar un proyecto de AWS.

Migre big data desde las instalaciones hacia AWS

Lea la guía de migración de Amazon EMR Solicite un taller Amazon EMR Migration en sus instalaciones

Obtenga más información acerca de Big Data en AWS

Visite el blog de big data