- Análisis
- Amazon EMR
- Introducción
Introducción a Amazon EMR
Cómo usar EMR
1. Desarrolle su aplicación de procesamiento de datos
Puede utilizar Java, Hive (un idioma parecido a SQL), Pig (un lenguaje de procesamiento de datos), Cascading, Ruby, Perl, Python, R, PHP, C++ o Node.js. Amazon EMR proporciona tutoriales y ejemplos de código para ponerlo en marcha rápidamente.
2. Cargue su aplicación y sus datos en Amazon S3
Si dispone de una gran cantidad de datos para la carga, es posible que quiera utilizar AWS Import/Export Snowball(para cargar datos con dispositivos de almacenamiento físico) o AWS Direct Connect (para establecer una conexión de red dedicada del centro de datos a AWS). Si lo prefiere, también puede escribir sus datos directamente en un clúster en ejecución.
3. Configure y lance el clúster
Con la Consola de administración de AWS, la CLI de AWS, los SDK o las API, especifique la cantidad de instancias de Amazon EC2 que desea aprovisionar en el clúster, los tipos de instancia que desea utilizar (estándar, con gran capacidad de memoria, de CPU, de E/S, etc.), las aplicaciones que desea instalar (Apache Spark, Apache Hive, Apache HBase, Presto, etc.) y la ubicación de las aplicaciones y los datos. Puede utilizar las acciones de arranque para instalar software adicional o cambiar la configuración predeterminada.
4. Monitorice el clúster
Puede monitorizar el estado y el progreso del clúster con la consola de administración, la interfaz de línea de comandos, los SDK o las API. EMR se integra en Amazon CloudWatch para monitorizar o generar alarmas y admite las herramientas conocidas de monitorización, como Ganglia. Puede agregar capacidad al clúster o quitarla en cualquier momento para administrar más o menos datos. Para solucionar problemas, utilice la interfaz gráfica de usuario de depuración sencilla que se incluye en la consola.
5. Recupere el resultado
Recupere el resultado de Amazon S3 o HDFS en el clúster. Visualice los datos con herramientas como Amazon QuickSight, Tableau y MicroStrategy. Amazon EMR terminará el clúster automáticamente cuando se complete el procesamiento. Si lo prefiere, puede mantener la ejecución del clúster y agregarle más trabajo.
¿Está preparado para lanzar su primer clúster?
Más información
Más información
Tutoriales
Formación técnica y ayuda
-
¿Necesita ayuda para crear una prueba de concepto o ajustar sus aplicaciones de EMR? AWS cuenta con un equipo de soporte global especializado en EMR. Póngase en contacto con nosotros si le interesa obtener más información sobre los compromisos de soporte de pago a corto plazo (de 2 a 6 semanas).
El curso Big Data en AWS se ha diseñado para formarlo con experiencia práctica sobre el uso de Amazon Web Services para las cargas de trabajo de big data. AWS le mostrará cómo ejecutar trabajos de Amazon EMR para procesar datos con las amplias herramientas de Hadoop, como Pig y Hive. Además, AWS le enseñará a crear entornos de macrodatos en la nube trabajando con Amazon DynamoDB y Amazon Redshift, a comprender las ventajas de Amazon Kinesis y a aprovechar las prácticas recomendadas para diseñar entornos de macrodatos para análisis, seguridad y rentabilidad. Para obtener más información sobre el curso de big data, haga clic aquí.
Scale Unlimited ofrece formación técnica in situ y personalizada para empresas que necesiten aprender a utilizar rápidamente EMR y otras tecnologías de big data. Para obtener más información, haga clic aquí.