Implementación de referencia

Data Lake Foundation on AWS

Con el uso de servicios de AWS, incluidos Amazon Redshift, Amazon Kinesis, AWS Glue y Amazon SageMaker

Mediante esta solución se implementa la base de un lago de datos que se integra en servicios de Amazon Web Services (AWS) como Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Kinesis, Amazon Athena, AWS Glue, Amazon Elasticsearch Service (Amazon ES), Amazon SageMaker y Amazon QuickSight.

La base del lago de datos usa estos servicios de AWS para ofrecer capacidades como el envío de datos, el procesamiento de elementos de entrada, la administración de conjuntos de datos, el análisis y la transformación de datos, la creación e implementación de herramientas de machine learning, búsqueda, publicaciones y visualización. Una vez que la base esté instalada, podrá optar por incorporar herramientas SaaS o de ISV al lago de datos.

La arquitectura de referencia está automatizada mediante plantillas de AWS CloudFormation que puede personalizar para cumplir requisitos.

  •  Lo que creará
  • Gracias a esta solución, es posible configurar lo siguiente:

    • Una nube virtual privada (VPC) que abarca dos zonas de disponibilidad e incluye dos subredes privadas y dos públicas.*
    • Una gateway de Internet que permite el acceso a Internet.*
    • En las subredes públicas, gateways administradas mediante NAT que permiten el acceso de salida hacia Internet a los recursos de las subredes privadas.*
    • En las subredes públicas, hosts bastión de Linux en un grupo de Auto Scaling que permiten el acceso de entrada mediante Secure Shell (SSH) a las instancias EC2 en subredes públicas y privadas*.
    • Roles de AWS Identity and Access Management (IAM) para otorgar permisos para acceder a los recursos de AWS; por ejemplo, para permitir que Amazon Redshift y Amazon Athena tengan conjuntos de datos de lectura y escritura organizados.
    • En las subredes privadas, Amazon Redshift para la incorporación, el análisis y la transformación de datos, y la creación de nuevos conjuntos de datos organizados y publicados.
    • Una instancia de Amazon SageMaker, a la cual puede obtener acceso mediante la autenticación de AWS.
    • Integración en otros servicios de Amazon, como Amazon S3, Amazon Athena, AWS Glue, AWS Lambda, Amazon ES con Kibana, Amazon Kinesis y Amazon QuickSight.

    * En la plantilla con la que se implementa la solución en una VPC existente, se omiten las tareas marcadas con asteriscos y se le pide la configuración de su VPC existente.

  •  Cómo implementar
  • Para implementar esta solución, siga las instrucciones que aparecen en la guía de implementación, que incluye estos pasos.

    1. Inicie sesión en su cuenta de AWS. Si no tiene ninguna cuenta de AWS, regístrese en https://aws.amazon.com.
    2. Lance la solución. La pila tarda aproximadamente 50 minutos en implementarse. Antes de crear la pila, elija la AWS Region (Región de AWS) desde la barra de herramientas superior. Seleccione una de las siguientes opciones:
    3. Controle los recursos que se crearon con la solución para probar la implementación.

    En la solución, se incluyen parámetros que puede personalizar. Por ejemplo, puede configurar su red o personalizar los ajustes de Amazon Redshift, Kinesis y Elasticsearch.  

    Amazon puede compartir la información de implementación de los usuarios con el socio de AWS que colaboró con AWS en esta solución.  

  •  Costos y licencias
  • Usted es responsable del costo de los servicios de AWS, así como de las licencias de terceros que se utilicen, mientras se ejecuta esta solución. No se aplican cargos adicionales por el uso de la solución.

    En esta solución, se incluyen parámetros de configuración que puede personalizar. Algunas de estas configuraciones, como el tipo de instancia, afectan al costo del despliegue. Para hacer estimaciones de costos, consulte las páginas de precios de cada servicio de AWS que utilice. Los precios están sujetos a cambios.

    Sugerencia: Después de implementar una solución, cree Informes de costo y uso de AWS para realizar el seguimiento de los costos asociados. Dichos informes envían métricas de facturación a un bucket de Amazon Simple Storage Service (Amazon S3) en su cuenta. Suministran estimaciones de costos en función del uso de cada mes y agregan los datos a finales del mes. Para obtener más información, consulte ¿Qué son los informes de costo y uso de AWS?
  •  Recursos
  • Esta solución está vinculada a la presentada en Espacio de soluciones, que incluye un resumen, productos de consultoría opcionales desarrollados por socios con competencias en AWS y la inversión conjunta de AWS en proyectos de prueba de concepto. Para obtener más información, consulte Espacio de soluciones.