Amazon Elastic MapReduce (Amazon EMR) es un servicio web que facilita el procesamiento rápido y rentable de grandes cantidades de datos.

Amazon EMR simplifica el procesamiento de big data y proporciona un marco de trabajo de Hadoop administrado que facilita la distribución y el procesamiento de grandes cantidades de datos entre instancias de Amazon EC2 dinámicamente escalables de manera sencilla, rápida y rentable. También puede ejecutar en Amazon EMR otros marcos de trabajo distribuidos populares, como Apache Spark y Presto, e interactuar con los datos de otros almacenes de datos de AWS, como Amazon S3 y Amazon DynamoDB.

Amazon EMR administra con seguridad y fiabilidad sus casos de uso de big data, incluido el análisis de logs, la indexación web, el almacenamiento de datos, el aprendizaje automático, el análisis financiero, la simulación científica y la bioinformática.

Introducción a Amazon EMR (3:06)

thumb-S6Ja55n-o0M-3

Haga clic para agrandar

Velocidad de lanzamiento de Amazon EMR

Velocidad de lanzamiento de Amazon EMR

Con los lanzamientos versionados en Amazon EMR, puede seleccionar y usar fácilmente los últimos proyectos de código abierto en su clúster de EMR, incluidas las aplicaciones presentes en los ecosistemas Apache Hadoop y Spark.  Amazon EMR instala y configura el software, con lo que invertimos menos tiempo en tareas administrativas y podemos centrarnos en aumentar el valor de los datos.


Facilidad de uso

Puede lanzar un clúster de Amazon EMR en cuestión de minutos. No hay que preocuparse por el aprovisionamiento de nodos, la configuración del clúster, la configuración de Hadoop ni el ajuste del clúster. Amazon EMR se encarga de estas tareas para que usted pueda centrarse en los análisis.

Bajo costo

Los precios de Amazon EMR son sencillos y predecibles: se paga una tarifa por hora por cada hora que utilice una instancia. Puede lanzar un clúster de Hadoop de 10 nodos por tan solo 0,15 USD la hora. Como Amazon EMR ofrece soporte nativo para las instancias de subasta y reservadas de Amazon EC2, puede ahorrar entre el 50% y el 80% del costo de las instancias subyacentes.

Elasticidad

Gracias a Amazon EMR, puede aprovisionar una instancia informática o cientos o miles de ellas para procesar datos en cualquier escala. Puede aumentar o reducir con facilidad el número de instancias y solo tendrá que pagar por lo que utilice.

De confianza

Puede dedicar menos tiempo a ajustar y monitorizar el clúster. Amazon EMR ha mejorado Hadoop para la nube. También monitoriza el clúster – reintenta las tareas fallidas y sustituye automáticamente las instancias que tengan un desempeño deficiente.

Seguro

Amazon EMR configura automáticamente el firewall de Amazon EC2 que controla el acceso de red a las instancias y el usuario puede lanzar clústeres en Amazon Virtual Private Cloud (VPC), que se trata de una red aislada lógicamente que define el usuario.  Si se trata de objetos almacenados en Amazon S3, puede utilizar el cifrado en el lado del servidor o el cifrado en el lado del cliente de Amazon S3 con ayuda de EMRFS, con AWS Key Management Service o con claves administradas por el cliente.

Seguro

El usuario tiene el pleno control del clúster. Además, tendrá acceso raíz a todas las instancias, para que pueda instalar aplicaciones adicionales con facilidad y personalizar cada clúster. Amazon EMR también admite varias distribuciones y aplicaciones de Hadoop.

Amazon EMR se puede utilizar para analizar datos clickstream para segmentar los usuarios y conocer sus preferencias. Los anunciantes también pueden analizar clickstreams y logs de impresión de publicidad para ofrecer anuncios más efectivos.

Obtenga información sobre cómo Razorfish utiliza EMR para el análisis clickstream »

Amazon EMR se puede utilizar para procesar grandes cantidades de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos hospedados de forma gratuita en AWS.

Obtenga información sobre el proyecto 1000 Genomes y AWS »

Amazon EMR se puede utilizar para procesar logs generados por aplicaciones web y móviles. Amazon EMR ayuda a los clientes a transformar petabytes de datos desestructurados o semiestructurados en perspectivas útiles sobre las aplicaciones o los usuarios.

Obtenga información sobre cómo Yelp utiliza EMR para manejar características clave de sitios web »

¿Está preparado para lanzar su primer clúster? Haga clic aquí para ver el tutorial de introducción. Con el tutorial, creará un clúster que contará la frecuencia de palabras de un archivo de texto de muestra. Dentro de unos minutos, el clúster estará activo y en ejecución.