Amazon EMR

Ejecución y escalado sencillos de Apache Spark, Hadoop, HBase, Presto, Hive y otros marcos de big data

Amazon EMR proporciona un marco Hadoop administrado que permite procesar enormes volúmenes de datos de manera sencilla, ágil y rentable en instancias de Amazon EC2 cuya escala puede ajustarse de manera dinámica. También puede ejecutar en Amazon EMR otros marcos de trabajo distribuidos populares, como Apache Spark, HBase, Presto y Flink, e interactuar con los datos de otros almacenes de datos de AWS, como Amazon S3 y Amazon DynamoDB.

Amazon EMR administra de manera segura y fiable un amplio conjunto de casos de uso de big data, incluido el análisis de registros, la indexación web, las transformaciones de datos (ETL), el aprendizaje automático, el análisis financiero, la simulación científica y la bioinformática.

Intro to Amazon EMR (3:06)

Beneficios

Facilidad de uso

Puede lanzar un clúster de Amazon EMR en cuestión de minutos. No hay que preocuparse por el aprovisionamiento de nodos, la configuración del clúster, la configuración de Hadoop ni el ajuste del clúster. Amazon EMR se encarga de estas tareas para que usted pueda centrarse en los análisis.

Bajo costo

Los precios de Amazon EMR son simples y predecibles: paga una tarifa por segundo por cada segundo utilizado, con un cobro mínimo de un minuto. Puede lanzar un clúster de Hadoop de 10 nodos por tan solo 0,15 USD la hora. Como Amazon EMR ofrece compatibilidad nativa con las instancias de spot y reservadas de Amazon EC2, puede ahorrar entre el 50 % y el 80 % del costo de las instancias subyacentes.

Elasticidad

Gracias a Amazon EMR, puede aprovisionar una instancia informática o cientos o miles de ellas para procesar datos en cualquier escala. Puede aumentar o reducir con facilidad el número de instancias de forma manual o con Auto Scaling y solo tendrá que pagar por lo que utilice.

Fiabilidad

Puede dedicar menos tiempo a ajustar y monitorizar el clúster. Amazon EMR ajustó Hadoop para la nube. También monitoriza el clúster, ya que reintenta las tareas fallidas y sustituye automáticamente las instancias que tengan un rendimiento deficiente.

Seguridad

Amazon EMR configura automáticamente el firewall de Amazon EC2 que controla el acceso de red a las instancias y el usuario puede lanzar clústeres en Amazon Virtual Private Cloud (VPC), una red aislada lógicamente que el usuario define. Si se trata de objetos almacenados en Amazon S3, puede utilizar el cifrado en el lado del servidor o el cifrado en el lado del cliente de Amazon S3 con ayuda de EMRFS, con AWS Key Management Service o con claves administradas por el cliente. También es posible habilitar fácilmente otras opciones de cifrado y autenticación con Kerberos.

Flexibilidad

El usuario tiene control pleno del clúster. Tendrá acceso raíz a todas las instancias, para que pueda instalar aplicaciones adicionales con facilidad y personalizar cada clúster con acciones de arranque. También puede implementar clústeres de Amazon EMR con AMI de Amazon Linux personalizadas.

Casos de uso

Análisis de secuencias de clics

Amazon EMR se puede usar para analizar datos de secuencias de clics para segmentar usuarios, comprender las preferencias de los usuarios y entregar anuncios más efectivos.

Obtenga información acerca de cómo Razorfish utiliza EMR para el análisis de secuencias de clics »

Análisis en tiempo real

Reciba y procese datos en tiempo real de Amazon Kinesis, Apache Kafka u otras transmisiones de datos con Spark Streaming en Amazon EMR. Realice el análisis de streaming de forma tolerante a errores y grabe los resultados en Amazon S3 o HDFS.

Obtenga información acerca de cómo Hearst utiliza Spark Streaming »

Análisis de registros

Amazon EMR se puede utilizar para procesar registros generados por aplicaciones web y móviles. Amazon EMR ayuda a los clientes a transformar petabytes de datos desestructurados o semiestructurados en información útil sobre las aplicaciones o los usuarios.

Extracción, transformación y carga (ETL)

Amazon EMR se puede utilizar para realizar de forma rápida y rentable cargas de trabajo de transformación de datos (ETL), como por ejemplo ordenación, agregación e inclusión, en conjuntos de datos de gran tamaño.

Obtenga información acerca de cómo Redfin utiliza clústeres de EMR transitorios para ETL »

Análisis predictivos

Apache Spark en Amazon EMR incluye MLlib para ofrecer algoritmos de aprendizaje automático escalables. También puede usar sus propias bibliotecas. Al almacenar conjuntos de datos en memoria, Spark ofrece un gran rendimiento para cargas de trabajo de aprendizaje automático comunes.

Obtenga información acerca de cómo Intent Media utiliza Spark MLib »

Genómica

Amazon EMR se puede utilizar para procesar grandes volúmenes de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos alojados de forma gratuita en AWS.

Obtenga información sobre Apache Spark y la medicina de precisión »

Casos prácticos

Introducción a AWS

icon1

Regístrese para obtener una cuenta de AWS

Obtenga acceso automáticamente a la capa gratuita de AWS.
icon2

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.
icon3

Comience a crear con AWS

Comience a crear soluciones con las guías paso a paso, que lo ayudarán a lanzar un proyecto en AWS.

Más información sobre Amazon EMR

Visite la página de características
¿Listo para crear?
Introducción a Amazon EMR
¿Tiene más preguntas?
Contacte con nosotros