¿Para qué sirve esta implementación de soluciones de AWS?

Esta solución proporciona compatibilidad para procesamiento de datos declarativos, capacidades de extracción, transformación y carga (ETL) sin código y automatización de la orquestación del flujo de trabajo para ayudar a los usuarios de su negocio (como analistas y científicos de datos) a acceder a los datos y crear información significativa sin necesidad de procesos de TI manuales.

Beneficios

Cree, pruebe y depure trabajos ETL en Jupyter

Utilice JupyterHub, un entorno de desarrollo integrado (IDE) basado en web para simplificar el desarrollo de su aplicación ETL.

Utilice un enfoque que da prioridad a SQL
.

Implemente lógica empresarial y comprobaciones de calidad de los datos en el desarrollo de canalizaciones de ETL con Spark SQL.

Orqueste trabajos sin código
.

Utilice flujos de trabajo de Argo para programar trabajos y administrar dependencias de trabajo complejas sin necesidad de código.

Implemente imágenes de Docker automáticamente
.

Configure una canalización de mejora y desarrollo continuos (CI/CD) de AWS para almacenar de manera segura la imagen de Docker de un marco de datos en Amazon Elastic Container Registry (Amazon ECR).

Información general sobre la implementación de soluciones de AWS

En el siguiente diagrama, se muestra la arquitectura que puede implementar automáticamente con la guía de implementación de la solución y la plantilla de AWS CloudFormation correspondiente.

ETL basado en SQL con Apache Spark en Amazon EKS | Diagrama de arquitectura
 Hacer clic para ampliar

Arquitectura de implementación de soluciones ETL basado en SQL con Apache Spark en Amazon EKS

La plantilla de AWS CloudFormation implementa un entorno seguro, tolerante a errores y con escalado automático para admitir las cargas de trabajo ETL que contengan los siguientes componentes:

  1. Una capa de administración de flujos de trabajo personalizable y flexible (consulte Orquestación en el grupo Amazon Elastic Kubernetes Service [Amazon EKS] del diagrama) incluye el complemento Argo Workflows. Este complemento brinda una herramienta basada en web para orquestar sus trabajos ETL sin necesidad de escribir código. De manera opcional, puede utilizar otras herramientas de flujo de trabajo como Volcano y Apache Airflow.
  2. Se configura un espacio de trabajo de procesamiento de datos seguro para unificar cargas de trabajo de datos en el mismo clúster de Amazon EKS. Esta especie de trabajo contiene una segunda herramienta basada en web, JupyterHub para creaciones de trabajo y pruebas interactivas. Puede desarrollar un bloc de notas de Jupyter mediante un enfoque declarativo para especificar tareas ETL o escribir de manera programada sus pasos ETL mediante PySpark. Este espacio de trabajo también brinda automatizaciones de trabajos de Spark que administra la herramienta Argo Workflows.
  3. La solución cuenta con un conjunto de funciones de seguridad implementado. Amazon Elastic Container Registry (Amazon ECR) mantiene y asegura una imagen de Docker de un marco de procesamiento de datos. La característica de roles de AWS Identity and Access Management (IAM) para cuentas de servicio (IRSA) en Amazon EKS brinda autorización mediante tokens con control de acceso detallado a otros servicios de AWS. Por ejemplo, la integración de Amazon EKS con Amazon Athena no utiliza contraseña para reducir el riesgo de exponer credenciales de AWS en una cadena de conexión. Jupyter obtiene credenciales de inicio de sesión de AWS Secrets Manager en Amazon EKS sobre la marcha. Amazon CloudWatch monitorea aplicaciones en Amazon EKS mediante la característica CloudWatch Container Insights activada.
  4. Las cargas de trabajo de análisis en el clúster de Amazon EKS envían resultados de datos a un lago de datos de Amazon Simple Storage Service (Amazon S3). En un catálogo de datos de AWS Glue se crea una entrada de esquema de datos (metadatos) a través de Amazon Athena.

ETL basado en SQL con Apache Spark en Amazon EKS

Versión 1.0.0
Lanzamiento: 07/2021
Autor: AWS

Tiempo estimado de implementación: 30 minutos

Costo estimado Código fuente  Plantilla de CloudFormation 
Use el siguiente botón para suscribirse para recibir actualizaciones sobre esta implementación de soluciones.
Nota: Para suscribirse a las actualizaciones de RSS, debe disponer de un complemento de RSS habilitado para el navegador que utilice.
¿Ha sido de ayuda esta implementación de soluciones?
Proporcione su opinión 
Ícono de creación
Implemente usted mismo una solución

Consulte nuestra biblioteca de Implementaciones de soluciones de AWS para obtener respuestas a problemas de arquitectura comunes.

Más información 
Buscar un socio de APN
Buscar un socio de APN

Encuentre socios consultores y tecnológicos certificados por AWS que lo ayudarán a comenzar.

Más información 
Ícono de exploración
Explore las ofertas de asesoramiento sobre soluciones

Explore nuestra cartera de ofertas de asesoramiento para obtener ayuda autorizada por AWS con la implementación de la solución.

Más información