Guía para ETL basada en SQL con Apache Spark en Amazon EKS

Esta guía ayuda a abordar la brecha entre los requisitos de consumo de datos y las actividades de procesamiento de datos de bajo nivel realizadas por las prácticas comunes de ETL. Para las organizaciones que utilizan sistemas de administración de datos basados en SQL, la adaptación a las prácticas modernas de ingeniería de datos puede ralentizar el progreso de la obtención de información valiosa a partir de sus datos. En esta guía se proporciona un diseño que tiene en cuenta la calidad para aumentar la productividad del proceso de datos a través del marco de datos de código abierto Arc para una estrategia de ETL centrada en el usuario. La guía acelera la interacción con las prácticas de ETL, lo que fomenta la simplicidad y eleva el nivel de abstracción para unificar las actividades de ETL tanto en lotes como en secuencias.

También ofrecemos opciones para un diseño óptimo con instancias de procesamiento eficientes (como los procesadores AWS Graviton) que le permiten optimizar el rendimiento y el costo de poner en marcha trabajos de ETL a escala en Amazon EKS.

Tenga en cuenta lo siguiente: [Descargo de responsabilidad]

Diagrama de la arquitectura

[Descripción del diagrama de arquitectura]

Descargue el diagrama de la arquitectura en PDF

Guidance Architecture Diagram for SQL-Based ETL with Apache Spark on Amazon EKS

Paso 5
Si lo desea, puede cambiar el código fuente de compilación de Docker cargado desde un repositorio de código al bucket de activos de ETL de S3. Activa una canalización de CI/CD de AWS CodeBuild y AWS CodePipeline para volver a crear y enviar automáticamente la imagen del contenedor del marco de ETL de Arc a un registro privado de Amazon Elastic Container Registry (Amazon ECR).

Paso 6
Programe trabajos de ETL mediante Argo Workflows para que se pongan en marcha en un clúster de Amazon EKS. Estos trabajos extraen automáticamente la imagen del contenedor de Arc de Amazon ECR, descargan los activos de ETL del bucket de artefactos de S3 y envían los registros de las aplicaciones a Amazon CloudWatch. Los puntos de conexión de VPC garantizan el acceso a todos los servicios de AWS.

Paso 7
Como usuario autenticado, puede desarrollar y probar cuadernos de forma interactiva como trabajos de ETL en el IDE de JupyterHub, que recupera automáticamente las credenciales de inicio de sesión de AWS Secrets Manager para validar las solicitudes de inicio de sesión de los usuarios.

Paso 1
Interactúe con las herramientas de desarrollo y orquestación de ETL a través de los puntos de conexión de Amazon CloudFront con orígenes de equilibrador de carga de aplicación, que proporcionan conexiones seguras entre los clientes y los puntos de conexión de las herramientas de ETL.

Paso 2
Desarrolle, pruebe y programe trabajos de ETL que procesen datos por lotes y secuencias. El tráfico de datos entre los procesos de ETL y los almacenes de datos fluye a través de los puntos de conexión de Amazon Virtual Private Cloud (Amazon VPC) con tecnología de AWS PrivateLink sin salir de la red de AWS.

Paso 3
El entorno de desarrollo integrado (IDE) de JupyterHub, Argo Workflows y Apache Spark Operator se ponen en marcha como contenedores en un clúster de Amazon Elastic Kubernetes Service (Amazon EKS). El IDE de JupyterHub puede integrarse con un repositorio de código fuente (como GitHub) para rastrear los cambios en los activos de ETL realizados por los usuarios. Los activos incluyen archivos de cuadernos de Jupyter y scripts SQL que se pondrán en marcha con el marco ETL de Arc.

Paso 4
Actualice los activos de ETL en el repositorio de código fuente y, a continuación, cárguelos en un bucket de Amazon Simple Storage Service (Amazon S3). El proceso de sincronización se puede implementar mediante una canalización automatizada de integración e implementación continuas (CI/CD) que se inicia mediante actualizaciones en el repositorio de código fuente o se realiza manualmente.

Pilares de Well-Architected

AWS Well-Architected Framework le permite comprender las ventajas y desventajas de las decisiones que tome durante la creación de sistemas en la nube. Los seis pilares de este marco permiten aprender las prácticas recomendadas arquitectónicas para diseñar y explotar sistemas confiables, seguros, eficientes, rentables y sostenibles. Con la Herramienta de AWS Well-Architected, que se encuentra disponible gratuitamente en la Consola de administración de AWS, puede revisar sus cargas de trabajo con respecto a estas prácticas recomendadas al responder a un conjunto de preguntas para cada pilar.

El diagrama de arquitectura mencionado es un ejemplo de una solución que se creó teniendo en cuenta las prácticas recomendadas de una buena arquitectura. Para tener completamente una buena arquitectura, debe seguir todas las prácticas recomendadas de buena arquitectura posibles.

Excelencia operativa

Dentro de los clústeres de Amazon EKS, las instancias de Amazon Elastic Compute Cloud (Amazon EC2) (CPU X86_64, Graviton ARM64) actúan como nodos de procesamiento y ponen en marcha cargas de trabajo de la guía. Los trabajos de Spark se ponen en marcha en instancias de spot de Amazon EC2 aprovisionadas de forma elástica en función de las demandas de la carga de trabajo.

CodeBuild y CodePipeline automatizan el proceso de GitOps, pues crean imágenes de contenedores a partir de actualizaciones de código en Git y las envían al registro privado de Amazon ECR. Argo Workflows programa los trabajos de ETL en Amazon EKS, extrae automáticamente la imagen de Docker de Arc de Amazon ECR, descarga los activos de ETL del bucket de artefactos de S3 y envía los registros de las aplicaciones a CloudWatch.

Esta implementación y puesta en marcha automatizadas de los trabajos de ETL de datos minimiza la sobrecarga operativa y mejora la productividad. Además, la canalización de CI/CD que utiliza CodeBuild y CodePipeline ayuda a garantizar la mejora y el desarrollo continuos, a la par que almacena de forma segura la imagen de Docker de Arc de la guía en Amazon ECR.

Lea el documento técnico sobre excelencia operativa
Seguridad

Los recursos del clúster de Amazon EKS se implementan en una VPC de Amazon, lo que proporciona un aislamiento lógico de la red de Internet pública. Amazon VPC admite características de seguridad como el punto de conexión de VPC (que mantiene el tráfico dentro de la red de AWS), los grupos de seguridad, las listas de control de acceso (ACL) a la red y los roles y políticas de AWS Identity and Access Management (IAM) para controlar el tráfico entrante y saliente y la autorización. El registro de imágenes de Amazon ECR ofrece características de seguridad de contenedores, como el análisis de vulnerabilidades. Amazon ECR y Amazon EKS siguen los estándares de registro y API de Kubernetes de la Open Container Initiative (OCI) e incorporan protocolos de seguridad estrictos.

IAM proporciona control de acceso a los datos de las aplicaciones de Amazon S3, mientras que AWS Key Management Service (AWS KMS) cifra los datos en reposo en Amazon S3. Los roles de IAM para cuentas de servicio (IRSA) en los clústeres de Amazon EKS permiten un control de acceso detallado para los pods, lo que impone un control de acceso basado en roles y limita el acceso no autorizado a los datos de Amazon S3. Secrets Manager almacena y administra las credenciales de forma segura. CloudFront proporciona puntos de entrada seguros con codificación SSL para las herramientas web de Jupyter y Argo Workflows.

Lea el documento técnico sobre seguridad
Fiabilidad

Amazon EKS permite topologías de alta disponibilidad mediante la implementación de los planos de control y computación de Kubernetes en varias zonas de disponibilidad (AZ). Esto permite garantizar la disponibilidad continua de las aplicaciones de datos, incluso si una zona de disponibilidad sufre una interrupción, lo que se traduce en una implementación fiable de instancias de EC2 multi-AZ en Amazon EKS.

En el caso del almacenamiento de datos, Amazon S3 proporciona una alta durabilidad y disponibilidad, pues replica automáticamente los objetos de datos en varias zonas de disponibilidad dentro de una región. Además, Amazon ECR aloja imágenes de Docker en una arquitectura escalable y de alta disponibilidad, que admite de forma fiable la implementación y los incrementos de aplicaciones basadas en contenedores.

Amazon S3, Amazon EKS y Amazon ECR son servicios completamente administrados diseñados para acuerdos de servicio (SLA) de alto nivel con costos operativos reducidos. Permiten la implementación de aplicaciones empresariales cruciales a fin de cumplir con los requisitos de alta disponibilidad.

Lea el documento técnico sobre fiabilidad
Eficiencia en el rendimiento

Los nodos de computación de Amazon EC2 del clúster de Amazon EKS pueden escalar y desescalar verticalmente de forma dinámica en función de la carga de trabajo de las aplicaciones. Las instancias de EC2 basadas en Graviton proporcionan una mayor eficiencia de rendimiento mediante procesadores basados en ARM personalizados, hardware optimizado y mejoras arquitectónicas.

Un patrón de almacenamiento de computación desacoplado (con datos de entrada y salida almacenados en Amazon S3) mejora la eficiencia del escalado de computación dinámica. Catálogo de datos optimiza la administración de metadatos y se integra sin problemas con Athena para simplificar la administración de los metadatos y mejorar el rendimiento de las consultas. Catálogo de datos automatiza el rastreo y el mantenimiento de los metadatos técnicos para procesar y consultar datos de manera eficiente. Athena ofrece consultas rápidas sobre los datos de Amazon S3 sin moverlos, lo que mejora aún más la eficiencia del flujo de trabajo de análisis.

Lea el documento técnico sobre eficacia del rendimiento
Optimización de costos

Amazon ECR es un servicio administrado para proteger y dar soporte a las aplicaciones de contenedores con una tarifa mensual fija para almacenar y entregar imágenes de contenedores. Amazon EKS cuenta con nodos de computación en clústeres que pueden escalar y reducir verticalmente en función de las cargas de trabajo de Spark, lo que ofrece tipos de instancias de spot y de Graviton rentables. Catálogo de datos proporciona un repositorio de metadatos completamente administrado y sin servidor, lo que elimina la necesidad de configurar y mantener una base de datos de metadatos de larga duración y reduce la sobrecarga y los costos operativos. CodeBuild y CodePipeline automatizan la creación y la implementación de la imagen de Docker del marco de ETL de Arc en un entorno sin servidor, lo que elimina la necesidad de aprovisionar y administrar los servidores de compilación, además de reducir los costos de mantenimiento de la infraestructura.

Lea el documento técnico sobre optimización de costos
Sostenibilidad

En esta guía se pone en marcha un clúster de Amazon EKS con tipos de procesamiento eficientes basados en los procesadores Graviton. Amazon ECR elimina la necesidad de administrar servidores físicos o hardware personalizados. Catálogo de datos y Athena son servicios sin servidor que reducen aún más el impacto energético y medioambiental.

La optimización de la capa de procesamiento de Amazon EKS para cargas de trabajo de Apache Spark a gran escala minimiza el impacto medioambiental de las cargas de trabajo de análisis. Cuenta con la flexibilidad de elegir procesadores basados en ARM en función de sus necesidades de rendimiento y sus prioridades de sostenibilidad.

Lea el documento técnico sobre sostenibilidad

Recursos de implementación

El código de muestra es un punto de partida. Está validado por el sector, es prescriptivo pero no definitivo, y le permite profundizar en su funcionamiento para que le sea más fácil empezar.

Abrir la guía de implementación

Abrir el código de muestra en GitHub

Contenido relacionado

[Tipo de contenido]

[Título]

En esta [entrada de blog/libro electrónico/orientación/código de muestra] se demuestra cómo [insertar una descripción breve].

Descargo de responsabilidad

El código de muestra; las bibliotecas de software; las herramientas de línea de comandos; las pruebas de concepto; las plantillas; o cualquier otra tecnología relacionada (incluida cualquiera de las anteriores que proporcione nuestro personal) se brinda como contenido de AWS bajo el Contrato de cliente de AWS, o el contrato escrito pertinente entre usted y AWS (lo que sea aplicable). No debe utilizar este contenido de AWS en sus cuentas de producción, ni en producción ni en otros datos críticos. Es responsable de probar, proteger y optimizar el contenido de AWS, como el código de muestra, según corresponda para el uso de grado de producción en función de sus prácticas y estándares de control de calidad específicos. La implementación de contenido de AWS puede incurrir en cargos de AWS por crear o utilizar recursos con cargo de AWS, como ejecutar instancias de Amazon EC2 o utilizar el almacenamiento de Amazon S3.

Las referencias a servicios u organizaciones de terceros en esta Guía no implican un respaldo, patrocinio o afiliación entre Amazon o AWS y el tercero. La orientación de AWS es un punto de partida técnico, y puede personalizar su integración con servicios de terceros al implementar la arquitectura.

¿Le resultó útil esta página?

Comentarios

Seleccione sus preferencias de cookies

Libere flujos de trabajo de datos eficientes y obtenga información más rápidamente con una solución escalable de extracción, transformación y carga (ETL) de nivel empresarial

Diagrama de la arquitectura

Pilares de Well-Architected

Recursos de implementación

Contenido relacionado

[Título]

Descargo de responsabilidad

¿Le resultó útil esta página?

Seleccione sus preferencias de cookies

Guía para ETL basada en SQL con Apache Spark en Amazon EKS

Libere flujos de trabajo de datos eficientes y obtenga información más rápidamente con una solución escalable de extracción, transformación y carga (ETL) de nivel empresarial

Diagrama de la arquitectura

Pilares de Well-Architected

Recursos de implementación

Contenido relacionado

[Título]

Descargo de responsabilidad

¿Le resultó útil esta página?

Finalización de la compatibilidad con Internet Explorer