Introducción a Amazon EMR

Amazon EMR

Cómo usar EMR

1. Desarrolle su aplicación de procesamiento de datos

Puede utilizar Java, Hive (un idioma parecido a SQL), Pig (un lenguaje de procesamiento de datos), Cascading, Ruby, Perl, Python, R, PHP, C++ o Node.js. Amazon EMR proporciona tutoriales y ejemplos de código para ponerlo en marcha rápidamente.

2. Cargue su aplicación y sus datos en Amazon S3

Si dispone de una gran cantidad de datos para la carga, es posible que quiera utilizar AWS Import/Export Snowball(para cargar datos con dispositivos de almacenamiento físico) o AWS Direct Connect (para establecer una conexión de red dedicada del centro de datos a AWS). Si lo prefiere, también puede escribir sus datos directamente en un clúster en ejecución.

3. Configure y lance el clúster

Con la Consola de administración de AWS, la CLI de AWS, los SDK o las API, especifique la cantidad de instancias de Amazon EC2 que desea aprovisionar en el clúster, los tipos de instancia que desea utilizar (estándar, con gran capacidad de memoria, de CPU, de E/S, etc.), las aplicaciones que desea instalar (Apache Spark, Apache Hive, Apache HBase, Presto, etc.) y la ubicación de las aplicaciones y los datos. Puede utilizar las acciones de arranque para instalar software adicional o cambiar la configuración predeterminada.

4. Monitorice el clúster

Puede monitorizar el estado y el progreso del clúster con la consola de administración, la interfaz de línea de comandos, los SDK o las API. EMR se integra en Amazon CloudWatch para monitorizar o generar alarmas y admite las herramientas conocidas de monitorización, como Ganglia. Puede agregar capacidad al clúster o quitarla en cualquier momento para administrar más o menos datos. Para solucionar problemas, utilice la interfaz gráfica de usuario de depuración sencilla que se incluye en la consola.

5. Recupere el resultado

Recupere el resultado de Amazon S3 o HDFS en el clúster. Visualice los datos con herramientas como Amazon QuickSight, Tableau y MicroStrategy. Amazon EMR terminará el clúster automáticamente cuando se complete el procesamiento. Si lo prefiere, puede mantener la ejecución del clúster y agregarle más trabajo.

¿Está preparado para lanzar su primer clúster?

Haga clic aquí para lanzar un clúster mediante la consola de administración de Amazon EMR. En la página Create Cluster (Crear clúster), vaya a la configuración avanzada del clúster y haga clic en el botón gris “Configure Sample Application” (Configurar aplicación de muestra) situado en el extremo superior derecho si desea ejecutar una aplicación de muestra con datos de muestra.

Más información

Manténgase al día con los seminarios web de AWS

Videos

Video

A Technical Introduction to Amazon EMR (50:44)

Vea el vídeo

Video

Amazon EMR Deep Dive & Best Practices (49:12)

Vea el vídeo

Más información

Aprenda a su propio ritmo con otros tutoriales

Tutoriales

Procesamiento de streaming en tiempo real mediante Apache Spark Streaming y Apache Kafka en AWS

Aprenda a configurar Apache Kafka en EC2, a usar Spark Streaming en EMR para procesar datos de entrada en temas de Apache Kafka y realizar consultas en datos de streaming con Spark SQL en EMR.

Lea el blog

Aprendizaje automático a gran escala con Spark en Amazon EMR

Aprenda cómo Intent Media utilizó Spark y Amazon EMR para sus flujos de trabajo de modelado.

Lea el blog

SQL de baja latencia e índices secundarios con Phoenix y HBase

Aprenda a conectar con Phoenix mediante JDBC, a crear una vista sobre una tabla HBase existente y a crear un índice secundario para mejorar el desempeño de lectura.

Lea el blog

Uso de HBase con Hive para NoSQL y cargas de trabajo de análisis

Aprenda a lanzar un clúster de EMR con HBase y a restaurar una tabla a partir de una instantánea en Amazon S3.

Lea el blog

Lanzar un clúster de Amazon EMR con Presto y Airpal

Aprenda a configurar un clúster de Presto y a usar Airpal para procesar los datos almacenados en S3.

Lea el blog

Uso de HBase con Hive para NoSQL y cargas de trabajo de análisis

Aprenda a lanzar un clúster de EMR con HBase y a restaurar una tabla a partir de una instantánea en Amazon S3.

Lea el blog

Procesar y analizar big data mediante Hive en Amazon EMR y MicroStrategy Suite

Aprenda a conectar con un flujo de trabajo Hive en ejecución en Amazon Elastic MapReduce para crear una plataforma segura y ampliable para la elaboración de informes y análisis.

Leer el artículo

Construya una canalización de procesamiento de streaming en tiempo real con Apache Flink en AWS

Este tutorial describe una arquitectura de referencia para una canalización de procesamiento de streaming en tiempo real coherente, escalable y fiable, basada en Apache Flink mediante Amazon EMR, Amazon Kinesis y Amazon Elasticsearch Service.

Lea el blog

Formación técnica y ayuda

¿Necesita ayuda para crear una prueba de concepto o ajustar sus aplicaciones de EMR? AWS cuenta con un equipo de soporte global especializado en EMR. Póngase en contacto con nosotros si le interesa obtener más información sobre los compromisos de soporte de pago a corto plazo (de 2 a 6 semanas).

El curso Big Data en AWS se ha diseñado para formarlo con experiencia práctica sobre el uso de Amazon Web Services para las cargas de trabajo de big data. AWS le mostrará cómo ejecutar trabajos de Amazon EMR para procesar datos con las amplias herramientas de Hadoop, como Pig y Hive. Además, AWS le enseñará a crear entornos de macrodatos en la nube trabajando con Amazon DynamoDB y Amazon Redshift, a comprender las ventajas de Amazon Kinesis y a aprovechar las prácticas recomendadas para diseñar entornos de macrodatos para análisis, seguridad y rentabilidad. Para obtener más información sobre el curso de big data, haga clic aquí.

Scale Unlimited ofrece formación técnica in situ y personalizada para empresas que necesiten aprender a utilizar rápidamente EMR y otras tecnologías de big data. Para obtener más información, haga clic aquí.

Recursos adicionales

No se pierda las novedades de AWS

Próximos pasos

Introducción

Tutorial de introducción

Más información

Recursos

Descubra más recursos de Amazon EMR

Visite la página de recursos

Nivel gratuito

Regístrese para obtener una cuenta gratuita

Regístrese

Consola

¿Listo para crear?

Comience con Amazon EMR

Introducción a Amazon EMR

Cómo usar EMR

1. Desarrolle su aplicación de procesamiento de datos

2. Cargue su aplicación y sus datos en Amazon S3

3. Configure y lance el clúster

4. Monitorice el clúster

5. Recupere el resultado

¿Está preparado para lanzar su primer clúster?

Más información

Videos

A Technical Introduction to Amazon EMR (50:44)

Amazon EMR Deep Dive & Best Practices (49:12)

Más información

Tutoriales

Procesamiento de streaming en tiempo real mediante Apache Spark Streaming y Apache Kafka en AWS

Aprendizaje automático a gran escala con Spark en Amazon EMR

SQL de baja latencia e índices secundarios con Phoenix y HBase

Uso de HBase con Hive para NoSQL y cargas de trabajo de análisis

Lanzar un clúster de Amazon EMR con Presto y Airpal

Uso de HBase con Hive para NoSQL y cargas de trabajo de análisis

Procesar y analizar big data mediante Hive en Amazon EMR y MicroStrategy Suite

Construya una canalización de procesamiento de streaming en tiempo real con Apache Flink en AWS

Formación técnica y ayuda

Compromisos a corto plazo

Formación técnica de AWS sobre big data

Formarse adicional

Recursos adicionales

Blog de Big Data

Blog de machine learning

Documentación

Preguntas frecuentes

Artículos y tutoriales

Centro de ahorro de la nube de AWS

Calculadora de precios de AWS

AWS Trusted Advisor

Planes de AWS Support

Próximos pasos

Tutorial de introducción

Descubra más recursos de Amazon EMR

Regístrese para obtener una cuenta gratuita

¿Listo para crear?

Aprender

Recursos

Desarrolladores

Ayuda