Videos

A Technical Introduction to Amazon EMR (50:44)
Amazon EMR Deep Dive & Best Practices (49:12)

Manténgase actualizado con los seminarios web de AWS.

Cómo utilizar Amazon EMR

  1. Desarrolle su aplicación de procesamiento de datos. Puede utilizar Java, Hive (un idioma parecido a SQL), Pig (un lenguaje de procesamiento de datos), Cascading, Ruby, Perl, Python, R, PHP, C++ o Node.js. Amazon EMR ofrece códigos de muestra y tutoriales para que comience a utilizarlo rápidamente.
  2. Cargue su aplicación y sus datos en Amazon S3. Si dispone de una gran cantidad de datos para la carga, puede que quiera utilizar AWS Import/Export Snowball (para cargar datos con dispositivos de almacenamiento físico) o AWS Direct Connect (para establecer una conexión de red dedicada del centro de datos a AWS). Si lo prefiere, también puede escribir sus datos directamente en un clúster en ejecución.
  3. Configure y lance el clúster. Mediante la consola de administración de AWS, la CLI de AWS, los SDK o las API, especifique el número de instancias de Amazon EC2 que desea aprovisionar en su clúster, los tipos de instancias que desea utilizar (estándar, alta memoria, CPU alta, E/S alta, etc.), las aplicaciones que desea instalar (Hive, Pig, HBase, etc.) y la ubicación de las aplicaciones y los datos. Puede utilizar acciones de arranque para instalar software adicional o cambiar la configuración predeterminada.
  4. Monitoree el clúster (opcional). Puede monitorear el estado y el progreso del clúster con la consola de administración de AWS, la interfaz de línea de comandos (CLI), los SDK o las API. EMR se integra en Amazon CloudWatch para monitorear/generar alarmas y admite conocidas herramientas de monitoreo, como Ganglia. Puede agregar/eliminar capacidad al/del clúster en cualquier momento para gestionar más o menos datos. Para solucionar problemas, puede utilizar la sencilla interfaz gráfica de usuario de depuración que se incluye en la consola.
  5. Recupere el resultado. Recupere en el clúster el resultado ofrecido por Amazon S3 o HDFS. Visualice los datos con herramientas como Tableau y MicroStrategy. Amazon EMR finalizará automáticamente el clúster cuando se complete el procesamiento. Si lo prefiere, puede mantener la ejecución del clúster y agregarle más trabajo.

¿Está preparado para lanzar su primer clúster?

Haga clic aquí para lanzar un clúster mediante la consola de administración de Amazon EMR. En la página Create Cluster (Crear clúster), vaya a la configuración avanzada del clúster y haga clic en el botón gris “Configure Sample Application” (Configurar aplicación de muestra) situado en el extremo superior derecho si desea ejecutar una aplicación de muestra con datos de muestra.

Tutoriales

Spark

Aprenda a configurar Apache Kafka en EC2, a usar Spark Streaming en EMR para procesar datos de entrada en temas de Apache Kafka y realizar consultas en datos de streaming con Spark SQL en EMR.

Aprenda cómo Intent Media utilizó Spark y Amazon EMR para sus flujos de trabajo de modelado.

HBase

Aprenda a conectar con Phoenix mediante JDBC, a crear una vista sobre una tabla HBase existente y a crear un índice secundario para mejorar el desempeño de lectura

Aprenda a lanzar un clúster de EMR con HBase y a restaurar una tabla a partir de una instantánea en Amazon S3

Aprenda a conectar con un flujo de trabajo Hive en ejecución en Amazon Elastic MapReduce para crear una plataforma segura y ampliable para la elaboración de informes y análisis.

Presto

Aprenda a configurar un clúster de Presto y a usar Airpal para procesar los datos almacenados en S3.

Hive

Aprenda a lanzar un clúster de EMR con HBase y a restaurar una tabla a partir de una instantánea en Amazon S3

Aprenda a conectar con un flujo de trabajo Hive en ejecución en Amazon Elastic MapReduce para crear una plataforma segura y ampliable para la elaboración de informes y análisis.

Este tutorial describe una arquitectura de referencia para una canalización de procesamiento de streaming en tiempo real coherente, escalable y fiable, basada en Apache Flink mediante Amazon EMR, Amazon Kinesis y Amazon Elasticsearch Service.

Aprenda a su propio ritmo con otros tutoriales.

Formación técnica y ayuda

Compromisos a corto plazo

¿Necesita ayuda para crear una prueba de concepto o ajustar sus aplicaciones de EMR? AWS cuenta con un equipo de soporte global especializado en EMR. Póngase en contacto con nosotros si le interesa obtener más información sobre los compromisos de soporte de pago a corto plazo (de 2 a 6 semanas).

Formación técnica sobre big data en AWS

El curso Big Data en AWS se ha diseñado para formarle con experiencia práctica sobre el uso de Amazon Web Services para las cargas de trabajo de big data. AWS le mostrará cómo ejecutar trabajos de Amazon EMR para procesar datos mediante el amplio ecosistema de herramientas de Hadoop, como Pig y Hive. Además, AWS le enseñará a crear entornos de big data en la nube trabajando con Amazon DynamoDB y Amazon Redshift, a comprender las ventajas de Amazon Kinesis y a aprovechar las prácticas recomendadas para diseñar entornos de big data para análisis, seguridad y rentabilidad. Para obtener más información sobre el curso de big data, haga clic aquí.

Formación técnica adicional

Scale Unlimited ofrece formación técnica in situ y personalizada para empresas que necesiten aprender a utilizar rápidamente EMR y otras tecnologías de big data. Para obtener más información, haga clic aquí.

Descubra más recursos de Amazon EMR

Visite la página de recursos
¿Listo para crear?
Introducción a Amazon EMR
¿Tiene más preguntas?
Contacte con nosotros