implantação de referência

Databricks na AWS

Um workspace colaborativo para ciências de dados, machine learning e análise

Essa solução de parceiro é destinada a arquitetos de infraestrutura de TI, administradores e profissionais de DevOps que querem usar a API do Databricks para criar workspaces na Nuvem Amazon Web Services (AWS). Essa solução de parceiro cria um novo espaço de trabalho em sua conta da AWS e configura o ambiente para implantar mais workspaces.

O Databricks é uma plataforma de análise de dados unificada para engenharia de dados, machine learning e ciência de dados colaborativa. Um workspace Databricks é um ambiente de software como serviço (SaaS) para acessar todos os ativos do Databricks. O workspace organiza objetos (por exemplo, notebooks, bibliotecas e experimentos) em pastas e fornece acesso a dados e recursos computacionais, como clusters e trabalhos.

Importante: essa implantação da solução de parceiro da AWS requer que sua conta do Databricks esteja na versão E2 da plataforma. Entre em contato com a Databricks para obter mais informações.
Visualizar conteúdo relacionado

Essa solução de parceiro foi criada pela Databricks em colaboração com a AWS. A Databricks é uma parceira da AWS.

  •  O que você criará
  • A solução de parceiro configura o seguinte, que constitui o workspace Databricks:

    • Uma arquitetura de alta disponibilidade que alcança pelo menos três zonas de disponibilidade.
    • Uma Virtual Private Cloud (VPC) gerenciada pelo Databricks ou gerenciada pelo cliente na conta AWS do cliente. Esta VPC é configurada com sub-redes privadas e uma sub-rede pública, de acordo com as práticas recomendadas da AWS, para fornecer a você sua própria rede virtual na AWS.
    • Nas sub-redes privadas:
      • Clusters do Databricks de instâncias do Amazon Elastic Compute Cloud (Amazon EC2).
      • Um ou mais grupos de segurança para habilitar conectividade de clusters segura.
    • Na sub-rede pública:
      • Um gateway gerenciado de Network Address Translation (NAT – Conversão de endereço de rede) para permitir o acesso de saída à Internet.
    • Amazon CloudWatch para logs de instâncias do workspace Databricks.
    • (Opcional) Uma chave do AWS Key Management Service (AWS KMS) gerenciada pelo cliente para codificar notebooks.
    • Um bucket do Amazon Simple Storage Service (Amazon S3) para armazenar objetos como logs de cluster, revisões de notebooks e resultados de trabalhos.
    • Um AWS Security Token Service (AWS STS) para permitir a solicitação de credenciais temporárias com privilégio limitado para os usuários autenticarem.
    • Um endpoint da VPC para acessar artefatos e logs S3.
    • Uma função do AWS Identity and Access Management (IAM) entre contas para permitir que o Databricks implante clusters na VPC para o novo workspace. De acordo com a opção de implantação que escolher, você criará essa função do IAM durante a implantação ou usará uma função do IAM existente.
  •  Como implantar
  • Para implantar o Databricks, siga as instruções no guia de implementação. O Databricks precisa de acesso a uma função do IAM entre contas em sua conta da AWS para iniciar clusters na VPC para um novo workspace. O processo de implantação, que dura aproximadamente 15 minutos, inclui as seguintes etapas:

    1. Caso ainda não tenha uma conta da AWS, cadastre-se em https://aws.amazon.com e acesse sua conta.
    2. Execute a solução de parceiro escolhendo uma destas opções:

    A Amazon pode compartilhar informações sobre implantações de usuários com o parceiro da AWS que colaborou com a AWS nesta solução.  

  •  Custos e licenças
  • Você é responsável pelo custo dos serviços da AWS usados durante a execução desta solução de parceiro. Não há custos adicionais pelo uso da solução de parceiro.

    O modelo do AWS CloudFormation para esta solução de parceiro inclui parâmetros de configuração personalizáveis. Algumas das configurações, como o tipo de instância, afetam o custo da implantação. Para obter estimativas de custo, consulte as páginas de preços de cada serviço da AWS que você utiliza. Os preços estão sujeitos a alterações.

    Dica: depois de implantar a solução de parceiro, ative o Relatório de custos e uso da AWS para fornecer métricas de faturamento para um bucket do Amazon S3 em sua conta. Ele fornece estimativas de custo com base no uso ao longo de cada mês e agrega os dados no fim do mês. Para obter mais informações, consulte  What are AWS Cost and Usage Reports? (O que são os Relatórios de Custos e Uso da AWS?).

    Para estimativas de custo do Databricks, consulte a página de preços para obter informações sobre níveis e recursos do produto.

História de sucesso do parceiro
A Databricks simplifica a implantação usando a solução de parceiro da AWS

Quando a Databricks se deparou com o desafio de reduzir etapas de configuração complexas e o tempo de implantação de workspaces do Databricks na Nuvem AWS, ela trabalhou com a equipe de integração e automação da AWS para projetar uma solução de parceiro da AWS, uma arquitetura de referência automatizada baseada em modelos do AWS CloudFormation com práticas recomendadas integradas. 

Leia a referência completa do parceiro
Voltar ao início