¿Qué se logra con esta implementación de soluciones de AWS?

Muchos clientes de Amazon Web Services (AWS) requieren una solución de almacenamiento y análisis de datos que sea más ágil y flexible que los sistemas tradicionales de administración de datos. Un data lake es una modalidad nueva y cada vez más popular de almacenar y analizar datos porque permite a las empresas administrar múltiples tipos de datos de una amplia variedad de fuentes, y almacenar estos datos, estructurados y no estructurados, en un repositorio centralizado.

La nube de AWS proporciona muchos de los componentes esenciales necesarios para ayudar a los clientes a implementar un data lake seguro, flexible y rentable. Entre estos, se encuentran servicios administrados de AWS que permiten incorporar, almacenar, buscar, procesar y analizar datos tanto estructurados como no estructurados. Con el objetivo de asistir a los clientes durante el proceso de creación de un data lake, AWS ofrece la solución del data lake, una implementación de referencia automatizada que implementa una arquitectura de data lake rentable y de alta disponibilidad en la nube de AWS junto con una consola de fácil uso para buscar y solicitar conjuntos de datos.

La versión 2.2 de la solución utiliza el tiempo de ejecución más actualizado de Node.js. La versión 2.1 utiliza el tiempo de ejecución de Node.js 8.10, que termina su vida útil el 31 de diciembre de 2019. Para actualizar a la versión 2.2, debe implementar la solución como una nueva pila. Para obtener más información, consulte la guía de implementación.

Información general sobre la implementación de soluciones de AWS

AWS ofrece una solución de lago de datos que configura automáticamente los servicios fundamentales de AWS necesarios para etiquetar, buscar, compartir, transformar, analizar y administrar fácilmente subconjuntos específicos de datos en toda una empresa o con otros usuarios externos. La solución implementa una consola a la cual los usuarios pueden acceder para buscar y encontrar conjuntos de datos disponibles para sus necesidades empresariales. La solución también incluye una plantilla federada que permite lanzar una versión de la solución que está lista para integrarse con Microsoft Active Directory.

En el siguiente esquema se muestra la arquitectura que puede implementar en minutos usando la guía de implementación de la solución y la plantilla de AWS CloudFormation correspondiente.

Solución de Data Lake on AWS | Diagrama de arquitectura
 Haga clic para ampliar

arquitectura de la solución de Data Lake on AWS

La plantilla de AWS CloudFormation configura los servicios básicos de la solución AWS, que incluyen un conjunto de microservicios (funciones) de AWS Lambda, Amazon Elasticsearch para una capacidad de búsqueda eficaz, Amazon Cognito para la autenticación de usuarios, AWS Glue para la transformación de datos y Amazon Athena para el análisis.

La solución aprovecha la seguridad, la durabilidad y la escalabilidad de Amazon S3 para administrar un catálogo constante de conjuntos de datos de la organización, y Amazon DynamoDB para administrar los metadatos correspondientes. Una vez catalogado un conjunto de datos, sus atributos y etiquetas descriptivas están disponibles para la búsqueda. Los usuarios pueden buscar y navegar por los conjuntos de datos disponibles en la consola de soluciones, y crear una lista de datos a los que necesitan acceder.

La solución hace un seguimiento de los conjuntos de datos que selecciona un usuario y genera un archivo de manifiesto con enlaces de acceso seguro al contenido deseado cuando el usuario finaliza la sesión.

Data Lake on AWS

Versión 2.2
Última actualización: 12/2019
Autor: AWS  

Tiempo estimado de implementación: 30 minutos

Utilice el siguiente botón para suscribirse a las actualizaciones de la solución.

Nota: Para suscribirse a las actualizaciones de RSS, debe disponer de un complemento de RSS habilitado para el navegador que utilice. 

¿Lo ayudó esta implementación de soluciones?
Proporcione su opinión 

Características

Implementación de la referencia del Data lake

Aproveche esta solución de data lake de manera creativa, o como una implementación de referencia que puede personalizar para satisfacer las necesidades únicas de administración, búsqueda y procesamiento de datos.

Flexibilidad de acceso a los datos

Utilice URL de Amazon S3 prefirmadas o un rol de AWS Identity and Access Management (IAM) apropiado para obtener un acceso directo, aunque controlado, a conjuntos de datos almacenados en Amazon S3.

Inicio de sesión de la Federación

Opcionalmente, puede permitir que los usuarios inicien sesión a través de un proveedor de identidad SAML (IdP) como los Servicios de Federación de Directorio Activo de Microsoft (AD FS).

Capa de almacenamiento administrada

Asegure y administre el almacenamiento y la recuperación de datos en un bucket de Amazon S3 administrado, y utilice la solución específica de AWS Key Management Service (KMS) para encriptar los datos pendientes.

Interfaz de línea de comandos

Utilice el CLI o API proporcionado para automatizar fácilmente las actividades del data lake o integrar esta solución en la automatización de los datos existentes para la entrada, salida y análisis de los conjuntos de datos.

Interfaz de usuario

La solución crea automáticamente una consola intuitiva, basada en la web, alojada en Amazon S3 y entregada por Amazon CloudFront. Acceda a la consola para administrar fácilmente los usuarios del data lake, las políticas del data lake, agregar o eliminar paquetes de datos, buscar paquetes de datos y crear manifiestos de conjuntos de datos para análisis adicionales.
Ícono de creación
Implemente usted mismo una solución

Consulte nuestra biblioteca de Implementaciones de soluciones de AWS para obtener respuestas a problemas de arquitectura comunes.

Más información 
Buscar un socio de APN
Buscar un socio de APN

Encuentre socios consultores y tecnológicos certificados por AWS que lo ayudarán a comenzar.

Más información 
Ícono de exploración
Explore las ofertas de asesoramiento sobre soluciones

Explore nuestra cartera de ofertas de asesoramiento para obtener ayuda autorizada por AWS con la implementación de la solución.

Más información