Lago de datos en AWS

Muchos clientes de Amazon Web Services (AWS) requieren una solución de almacenamiento y análisis de datos que sea más ágil y flexible que los sistemas tradicionales de administración de datos. Un data lake es una modalidad nueva y cada vez más popular de almacenar y analizar datos porque permite a las empresas administrar múltiples tipos de datos de una amplia variedad de fuentes, y almacenar estos datos, estructurados y no estructurados, en un repositorio centralizado.

La nube de AWS proporciona muchos de los componentes esenciales necesarios para ayudar a los clientes a implementar un data lake seguro, flexible y rentable. Entre estos, se encuentra AWS Managed Services que permite incorporar, almacenar, buscar, procesar y analizar datos tanto estructurados como no estructurados. Con el objetivo de ayudar a los clientes durante el proceso de creación de un lago de datos, AWS ofrece Lago de datos en AWS, una implementación de referencia automatizada que implementa una arquitectura de lago de datos rentable y de alta disponibilidad en la nube de AWS junto con una consola de fácil uso para buscar y solicitar conjuntos de datos.

Información general

Lago de datos en AWS configura automáticamente los servicios fundamentales de AWS necesarios para etiquetar, buscar, compartir, transformar, analizar y administrar fácilmente subconjuntos específicos de datos en toda una empresa o con otros usuarios externos. La orientación implementa una consola a la cual los usuarios pueden acceder para buscar y encontrar conjuntos de datos disponibles para sus necesidades empresariales. También incluye una plantilla federada que permite lanzar una versión de la solución que está lista para integrarse con Microsoft Active Directory.

El siguiente diagrama presenta la arquitectura de lago de datos que puede crear mediante el código de ejemplo en GitHub.

Lago de datos en arquitectura de AWS

El código configura un conjunto de microservicios (funciones) de AWS Lambda, Amazon OpenSearch Service para una capacidad de búsqueda robusta, Amazon Cognito para la autenticación de usuarios, AWS Glue para la transformación de datos y Amazon Athena para el análisis.

El lago de datos en AWS aprovecha la seguridad, la durabilidad y la escalabilidad de Amazon S3 para administrar un catálogo constante de conjuntos de datos de la organización, y Amazon DynamoDB para administrar los metadatos correspondientes. Una vez catalogado un conjunto de datos, sus atributos y etiquetas descriptivas están disponibles para la búsqueda. Los usuarios pueden buscar y navegar por los conjuntos de datos disponibles en la consola y crear una lista de datos a los que necesitan acceder. La solución da seguimiento a los conjuntos de datos que selecciona un usuario y genera un archivo de manifiesto con enlaces de acceso seguro al contenido deseado cuando el usuario finaliza la sesión.

Data Lake on AWS

Versión 2.2
Última actualización: 04/2023
Autor: AWS 

¿Esta guía fue de ayuda?
Proporcione su opinión 

Características

Flexibilidad de acceso a los datos

Utilice URL de Amazon S3 prefirmadas o un rol de AWS Identity and Access Management (IAM) apropiado para obtener un acceso directo, aunque controlado, a conjuntos de datos en Amazon S3.

Capa de almacenamiento administrado

Asegure y administre el almacenamiento y la recuperación de datos en un bucket de Amazon S3 administrado, y utilice una clave de AWS Key Management Service (KMS) específica de la solución para cifrar los datos en reposo.

Inicio de sesión de federación

Opcionalmente, puede permitir que los usuarios inicien sesión a través de un proveedor de identidad SAML (IdP) como los Servicios de federación de Active Directory de Microsoft (AD FS).

Interfaz de línea de comandos

Utilice la CLI o API proporcionado para automatizar fácilmente las actividades del lago de datos o integrar esta guía en la automatización de los datos existentes para la entrada, salida y análisis de los conjuntos de datos.

Interfaz de usuario

El lago de datos en AWS proporciona una interfaz de usuario para una consola intuitiva, basada en la web, alojada en Amazon S3 y entregada por Amazon CloudFront. Acceda a la consola para administrar fácilmente los usuarios del lago de datos, las políticas del lago de datos, agregar o eliminar paquetes de datos, buscar paquetes de datos y crear manifiestos de conjuntos de datos para análisis adicionales.
Icono de creación
Implemente una solución de AWS por su cuenta

Revise nuestra biblioteca de soluciones de AWS para obtener respuestas a problemas de arquitectura comunes.

Más información 
Buscar un socio de APN
Buscar una solución de un socio de AWS

Encuentre socios de AWS que lo ayuden a comenzar.

Más información 
Icono de exploración
Explorar orientación

Encuentre diagramas de arquitectura prescriptivos, código de muestra y contenido técnico para casos de uso comunes.

Más información