implementación de referencia

Data Lake Foundation on AWS

Con el uso de servicios de AWS, incluidos Amazon Redshift, Amazon Kinesis, AWS Glue y Amazon SageMaker

Mediante este Quick Start se implementa la base de un lago de datos que se integra en servicios de Amazon Web Services (AWS) como Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Kinesis, Amazon Athena, AWS Glue, Amazon Elasticsearch Service (Amazon ES), Amazon SageMaker y Amazon QuickSight.

La base del lago de datos usa estos servicios de AWS para ofrecer capacidades como el envío de datos, el procesamiento de elementos de entrada, la administración de conjuntos de datos, el análisis y la transformación de datos, la creación e implementación de herramientas de aprendizaje automático, búsqueda, publicaciones y visualización. Una vez que la base esté instalada, podrá optar por incorporar herramientas SaaS o de ISV al lago de datos.

La arquitectura de referencia está automatizada mediante plantillas de AWS CloudFormation que usted puede personalizar para cumplir requisitos específicos.

Para tener en cuenta: si esta arquitectura no cumple sus requisitos específicos, analice las demás implementaciones de lagos de datos en el catálogo de Quick Start.

Este Quick Start fue desarrollado por AWS.

  •  Lo que creará
  • La arquitectura del Quick Start para el lago de datos incluye la siguiente estructura:

    • Una nube virtual privada (VPC) que abarca dos zonas de disponibilidad e incluye dos subredes privadas y dos públicas.*
    • Una gateway de Internet que permite el acceso a Internet.*
    • En las subredes públicas, gateways administradas mediante NAT que permiten el acceso de salida hacia Internet a los recursos de las subredes privadas.*
    • En las subredes públicas, hosts bastión de Linux en un grupo de Auto Scaling que permiten el acceso de entrada mediante Secure Shell (SSH) a las instancias EC2 en subredes públicas y privadas*.
    • Roles de AWS Identity and Access Management (IAM) para otorgar permisos para acceder a los recursos de AWS; por ejemplo, para permitir que Amazon Redshift y Amazon Athena tengan conjuntos de datos de lectura y escritura organizados.
    • En las subredes privadas, Amazon Redshift para la incorporación, el análisis y la transformación de datos, y la creación de nuevos conjuntos de datos organizados y publicados.
    • Una instancia de Amazon SageMaker, a la cual puede obtener acceso mediante la autenticación de AWS.
    • Integración en otros servicios de Amazon, como Amazon S3, Amazon Athena, AWS Glue, AWS Lambda, Amazon ES con Kibana, Amazon Kinesis y Amazon QuickSight.

    * La plantilla que implementa el Quick Start en una VPC existente omite las tareas marcadas con asteriscos y le pide la configuración de la VPC existente.

  •  Cómo realizar la implementación
  • Para crear el entorno del lago de datos en AWS, siga las instrucciones de la guía de implementación. El proceso de implementación, que tarda unos 50 minutos, incluye los siguientes pasos:

    1. Si aún no tiene una cuenta de AWS, regístrese en https://aws.amazon.com.
    2. Lance el Quick Start. Puede elegir entre dos opciones:
    3. Controle los recursos que se crearon con el Quick Start para probar la implementación.

    El Quick Start incluye parámetros que se pueden personalizar. Por ejemplo, puede configurar su red o personalizar los ajustes de Amazon Redshift, Kinesis y Elasticsearch.  

    Amazon puede compartir la información de despliegue de los usuarios con el socio de AWS que colaboró con AWS en esta solución de socio.  

  •  Costo y licencias
  • Usted es responsable del costo de los servicios de AWS implementados por este Quick Start No hay costos adicionales por el uso del Quick Start.

    En las plantillas de AWS CloudFormation para este Quick Start, se incluyen parámetros de configuración que puede personalizar. Algunas de estas configuraciones, como el tipo de instancia, influyen en el costo de la implementación. Consulte las páginas de precios de cada servicio de AWS que utilizará para obtener una estimación de los costos.

    Como el Quick Start usa componentes de soluciones nativas de AWS, no existen costos ni requisitos de licencias aparte de los costos de infraestructura de AWS. El Quick Start también implementa Kibana, una herramienta de código abierto que se incluye con Amazon ES.

  •  Recursos
  • Esta implementación de referencia del Quick Start está vinculada con la solución presentada en Solution Space, que incluye un resumen de la solución, productos de consultoría opcionales desarrollados por socios con competencias de AWS y la inversión conjunta de AWS en proyectos de prueba de concepto. Para obtener más información sobre estos recursos, visite Solution Space.