de referência de solução

Base de data lake na AWS

Usando serviços da AWS, incluindo Amazon Redshift, Amazon Kinesis, AWS Glue e Amazon SageMaker

Esta solução implanta uma base de data lake que integra serviços da Amazon Web Services (AWS), como o Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Kinesis, Amazon Athena, AWS Glue, Amazon Elasticsearch Service (Amazon ES), Amazon SageMaker e Amazon QuickSight.

A base de data lake usa esses serviços da AWS para fornecer recursos, como envio de dados, processamento de ingestão, gerenciamento de conjunto de dados, transformação e análise de dados, compilação e implantação de ferramentas de machine learning, pesquisa, publicação e visualização. Depois que essa base estiver em vigor, você poderá expandir o data lake com as ferramentas ISV e SaaS.

Esta arquitetura de referência é automatizada por modelos personalizáveis do AWS CloudFormation para atender às suas necessidades.

Esta solução foi desenvolvida pela AWS.

  •  O que você criará
  • Essa solução configura o seguinte:

    • Uma nuvem privada virtual (VPC) que abrange duas zonas de disponibilidade e inclui duas sub-redes públicas e duas privadas.*
    • Um Internet Gateway para permitir o acesso à Internet.*
    • Nas sub-redes públicas, gateways NAT gerenciados para permitir o acesso à Internet de saída para recursos em sub-redes privadas.*
    • Nas sub-redes públicas, bastion hosts do Linux em um grupo de Auto Scaling para permitir acesso de entrada Secure Shell (SSH) às instâncias do EC2 em sub-redes públicas e privadas.*
    • Funções do AWS Identity and Access Management (IAM) a fim de fornecer permissões para acessar recursos da AWS; por exemplo, para permitir que o Amazon Redshift e o Amazon Athena leiam e escrevam conjuntos de dados selecionados.
    • Nas sub-redes privadas, o Amazon Redshift para agregação de dados, análise, transformação e criação de novos conjuntos de dados com curadoria e publicados.
    • Uma instância do Amazon SageMaker, que você pode acessar usando a autenticação da AWS.
    • Integração com outros serviços da Amazon, como o Amazon S3, Amazon Athena, AWS Glue, AWS Lambda, Amazon ES com Kibana, Amazon Kinesis e Amazon QuickSight.

    * O modelo que implanta a solução em uma VPC existente ignora as tarefas marcadas com asteriscos e solicita a configuração dessa VPC existente.

  •  Como implantar
  • Para implantar essa solução, siga as instruções no guia de implantação, que inclui as etapas mostradas aqui.

    1. Faça login em sua conta da AWS. Caso não tenha uma conta da AWS, cadastre-se em https://aws.amazon.com.
    2. Execute a solução. A pilha demora cerca de 50 minutos para ser implantada. Antes de criar a pilha, escolha a região da AWS na barra de ferramentas superior. Escolha uma das seguintes opções:
    3. Teste a implantação, verificando os recursos criados pela solução.

    A solução inclui parâmetros que podem ser personalizados. Por exemplo, você pode configurar sua rede ou personalizar as configurações do Amazon Redshift, Kinesis e Elasticsearch.  

    A Amazon pode compartilhar informações sobre implantações de usuários com o parceiro da AWS que colaborou com a AWS nesta solução.  

  •  Custos e licenças
  • Você é responsável pelo custo dos serviços da AWS e de licenças de terceiros usadas durante a execução da solução. Não há custo adicional para usar a solução.

    Esta solução inclui parâmetros de configuração personalizáveis. Algumas dessas configurações, como o tipo de instância, afetam os custos de implantação. Para obter estimativas de custo, consulte as páginas de preço de cada produto da AWS que você utiliza. Os preços estão sujeitos a alterações.

    Dica: após a implantação da solução, crie  Relatórios de custos e uso da AWS para monitorar os custos associados. Esses relatórios fornecem métricas de faturamento para um bucket do Amazon Simple Storage Service (Amazon S3) em sua conta. Fornecem estimativas de custos com base no uso ao longo de cada mês e agregam os dados no fim do mês. Para obter mais informações, consulte  What are AWS Cost and Usage Reports? (O que são os Relatórios de Custos e Uso da AWS?).
  •  Recursos
  • Esta solução está relacionada a outra em destaque no espaço de soluções, que inclui um resumo, ofertas de consultoria opcionais projetadas por parceiros da AWS com competências específicas e o investimento conjunto da AWS em projetos de prova do conceito (PoC). Para obter mais informações, consulte o espaço de soluções.