Vídeo: una introducción técnica a Amazon EMR (AWS re:Invent, octubre de 2015, total: 50 minutos)

Amazon EMR proporciona un marco administrado que hace fácil, rentable y segura la ejecución de marcos de procesamiento de datos como Apache Hadoop, Apache Spark y Presto en AWS. En esta presentación aprenderá los principios clave de diseño de la ejecución de estos marcos en la nube y el conjunto de características que Amazon EMR ofrece. Se tratan los beneficios de desacoplar computación y almacenamiento, así como estrategias para aprovechar la escala y el paralelismo que ofrece la nube con un costo menor. Además, al ingeniero de software sénior de AOL explica cómo utilizaron dichas estrategias para migrar sus cargas de trabajo de Hadoop a la nube de AWS y las lecciones que aprendieron en el proceso.

 

Vídeo: Amazon EMR, profundización y prácticas recomendadas (AWS re:Invent, octubre de 2015, total: 49 minutos)

En esta presentación mostramos patrones de diseño de Amazon EMR, como el uso de Amazon S3 en lugar de HDFS, el aprovechamiento de clústeres a corto y a largo plazo, y otras prácticas recomendadas de arquitectura de Amazon EMR. Se habla de cómo agrandar o reducir un clúster de forma dinámica y de métodos para ajustar y afinar los clústeres. También se ofrecen prácticas recomendadas para que los clústeres de Amazon EMR sean rentables. Por último, profundizamos en algunos de nuestros lanzamientos recientes para que esté al día de las características más recientes.

  1. Desarrolle su aplicación de procesamiento de datos. Puede utilizar Java, Hive (un idioma parecido a SQL), Pig (un lenguaje de procesamiento de datos), Cascading, Ruby, Perl, Python, R, PHP, C++ o Node.js. Amazon EMR ofrece códigos de muestra y tutoriales para que comience a utilizarlo rápidamente.
  2. Cargue su aplicación y sus datos en Amazon S3. Si dispone de una gran cantidad de datos para la carga, puede que quiera utilizar AWS Import/Export Snowball (para cargar datos con dispositivos de almacenamiento físico) o AWS Direct Connect (para establecer una conexión de red dedicada del centro de datos a AWS). Si lo prefiere, también puede escribir sus datos directamente en un clúster en ejecución.
  3. Configure y lance el clúster. Con la consola de administración de AWS, la CLI de AWS, los SDK o las API, especifique el número de instancias de Amazon EC2 que desea aprovisionar en su clúster, los tipos de instancias que desea utilizar (estándar, alta memoria, CPU alta, E/S alta, etc.), las aplicaciones que desea instalar (Hive, Pig, HBase, etc.) y la ubicación de las aplicaciones y los datos. Puede utilizar aplicaciones de arranque para instalar software adicional o cambiar la configuración predeterminada.
  4. Monitorización del clúster (opcional). Puede monitorizar el estado y el progreso del clúster con la consola de administración de AWS, la interfaz de línea de comandos, SDK o API. EMR se integra con Amazon CloudWatch para monitorizar/generar alarmas y soporta herramientas de monitorización conocidas, como Ganglia. Puede agregar/eliminar capacidad del clúster en cualquier momento para gestionar más o menos datos. Para solucionar problemas, puede utilizar la interfaz gráfica de usuario de depuración de la consola.
  5. Recupere el resultado. Recupere el resultado de Amazon S3 o HDFS en el clúster. Visualice los datos con herramientas como Tableau y MicroStrategy. Amazon EMR finalizará automáticamente el clúster cuando se complete el procesamiento. De forma alternativa, puede mantener la ejecución del clúster e incluir más trabajo.

¿Está preparado para lanzar su primer clúster?

Haga clic aquí para lanzar un clúster con la consola de administración de Amazon EMR. En la página Creación de clúster, vaya a la configuración del clúster avanzada y haga clic en el botón gris “Configurar aplicación de muestra” situado en el extremo superior derecho si desea ejecutar una aplicación de muestra con datos de muestra.

Haga clic aquí para consultar un tutorial paso a paso por escrito. El tutorial le mostrará cómo crear un clúster que calcule la frecuencia de palabras en un archivo de texto.

Introducción a Amazon EMR

Cree una cuenta gratuita

¿Necesita ayuda? ¡Pregúntenos!

¿Necesita facilitar la compilación de una prueba de concepto o el ajuste de las aplicaciones de EMR? AWS cuenta con un equipo de soporte global especializado en EMR.  Contáctese con nosotros si le interesa obtener más información sobre los compromisos de soporte de pago a corto plazo (de 2 a 6 semanas).

El curso big data en AWS se ha diseñado para formarle con experiencia práctica sobre el uso de Amazon Web Services para las cargas de trabajo de big data. AWS le mostrará cómo ejecutar trabajos de Amazon EMR para procesar datos mediante el amplio ecosistema de las herramientas de Hadoop como Pig y Hive. Además, AWS le enseñará a crear entornos de big data en la nube trabajando con Amazon DynamoDB y Amazon Redshift, conocer las ventajas de Amazon Kinesis y aprovechar las prácticas recomendadas para diseñar entornos de big data para análisis, seguridad y rentabilidad.  Para obtener más información sobre el curso de big data, haga clic aquí.

Si desea procesar más de 1 TB al día, podrá participar en EMR Bootcamp, un taller in situ de transferencia de conocimientos y pruebas de concepto a cargo de un arquitecto de soluciones de AWS especializado en EMR. Para obtener más información, haga clic aquí o contacte con nosotros.

Scale Unlimited ofrece capacitación in situ personalizada para las empresas que necesitan aprender a utilizar rápidamente EMR y otras tecnologías de big data. Para obtener más información, haga clic aquí.