Introducción a Amazon EMR
Cómo usar EMR
1. Elija su modelo de implementación de EMR preferido.
Amazon EMR le permite procesar grandes cantidades de datos con herramientas de código abierto como Apache Spark, Hive, Flink, Trino y más. Simplemente elija su modelo de implementación de EMR preferido:
- EMR sin servidor: ponga en marcha aplicaciones sin administrar clústeres y escale y desescale verticalmente de forma automática función de su carga de trabajo
- EMR en EC2: para controlar la configuración del clúster, incluidos los tipos de instancia y las AMI personalizadas.
- EMR en EKS: consolide los análisis con sus otras aplicaciones basadas en Kubernetes en un clúster compartido de Amazon EKS.
2. Desarrolle su aplicación de procesamiento de datos
Amazon EMR admite una amplia variedad de marcos y lenguajes, lo que le permite crear de todo, desde canalizaciones de ETL estándar hasta preparación de datos de IA generativa a gran escala.
Lenguajes: utilice Python (PySpark) para ciencia de datos y machine learning, SQL (mediante Hive o Trino) para consultas analíticas o Java y Scala para aplicaciones Spark de alto rendimiento.
Marcos: cree y ponga en marcha aplicaciones con Apache Spark para el procesamiento de datos a gran escala, Apache Flink para la transmisión en tiempo real, Trino para SQL rápido en varios orígenes de datos y Apache Hudi o Iceberg para administrar lagos de datos transaccionales.
3. Prepare todo e inicie la ingesta de datos
Para empezar a procesarlos, Amazon EMR debe poder acceder a sus datos. Si bien Amazon S3 es la capa de almacenamiento estándar para las aplicaciones de EMR, tiene varios métodos de alta velocidad para transferir datos desde su entorno local u otros servicios de AWS.
- Cargas directas: para un procesamiento inmediato, cargue los objetos directamente a Amazon S3 mediante la consola de administración, la CLI o los SDK de AWS.
- Conectividad de alta velocidad: utilice AWS Direct Connect para evitar la Internet pública y establecer una conexión de red privada y dedicada desde su centro de datos a AWS. Esto proporciona un ancho de banda uniforme y una latencia reducida para transferencias a gran escala.
- Transmisión en tiempo real: utilice Amazon Data Firehose o Amazon Managed Streaming para Apache Kafka (MSK) para ingresar datos directamente en sus aplicaciones de EMR a medida que se generan, lo que permite realizar análisis casi en tiempo real.
- Integraciones sin ETL: analice los datos de Amazon Aurora o Amazon Redshift con características sin ETL, que permiten a EMR acceder a los datos operativos sin necesidad de construir canalizaciones manualmente.
- Acceso híbrido: si sus datos residen en un entorno HDFS local de Hadoop, puede usar el conector de S3 para leer los datos directamente en EMR o sincronizar conjuntos de datos específicos para el procesamiento basado en la nube.
4. Lance y supervise
Amazon EMR ofrece una experiencia de implementación optimizada, tanto si lleva a cabo un trabajo puntual como un proceso de producción continuo.
- Lanzamiento mediante EMR Studio: abra su cuaderno de EMR Studio y adjúntelo a una aplicación sin servidor o a un clúster de EC2 existente. Con un solo clic, puede poner en marcha su código de Spark o Hive en un entorno completamente administrado.
- Sin servidor: si usa EMR sin servidor, envíe su trabajo a través de la consola, la CLI o la API. EMR aprovisiona automáticamente la memoria y el cómputo exactos que se necesitan, escalando para gestionar los picos y desescalando hasta cero cuando finaliza.
- Lanzamiento mediante SageMaker Unified Studio: en SageMaker Unified Studio, puede abrir un cuaderno sin servidor y conectarlo al instante a una aplicación de EMR sin servidor o a un clúster de EMR en EC2.
5. Supervise y optimice la puesta en marcha
Con EMR, podrá visualizar sus canalizaciones de datos gracias a herramientas integradas que le permiten identificar los cuellos de botella y optimizar los costos automáticamente.
Supervise el progreso del trabajo y el estado del clúster a través de la consola de administración de EMR, la CLI de AWS o los SDK. EMR proporciona una integración nativa con Amazon CloudWatch para obtener métricas, registros y alertas automatizadas en tiempo real.
Acceda a la interfaz de usuario de Spark o Tez activa y persistente directamente desde la consola para depurar trabajos activos en tiempo real e incluso después de que finalice un trabajo sin servidor y revisar los planes de puesta en marcha y los grafos acíclicos dirigidos (DAG).
¿Todo listo para lanzar su primer clúster?
Más información
Formación técnica y ayuda
-
¿Necesita ayuda para crear una prueba de concepto o ajustar sus aplicaciones de EMR? AWS cuenta con un equipo de soporte global especializado en EMR. Contáctenos si le interesa obtener más información sobre los compromisos de soporte de pago a corto plazo (de 2 a 6 semanas).
El curso Big Data en AWS está diseñado como una experiencia práctica para enseñar sobre el uso de Amazon Web Services para las cargas de trabajo de big data. AWS le mostrará cómo poner en marcha trabajos de Amazon EMR para procesar datos mediante el amplio ecosistema de herramientas de Hadoop, como Pig y Hive. Además, AWS le enseñará a crear entornos de big data en la nube trabajando con Amazon DynamoDB y Amazon Redshift, a comprender las ventajas de Amazon Kinesis y a aprovechar las prácticas recomendadas para diseñar entornos de macrodatos para análisis, seguridad y rentabilidad. Para obtener más información sobre el curso de big data, haga clic aquí.
Scale Unlimited ofrece formación técnica in situ y personalizada para empresas que necesiten aprender a utilizar rápidamente EMR y otras tecnologías de big data. Para obtener más información, haga clic aquí.