O que faz esta Implementação de soluções da AWS?

Essa implementação de soluções fornece suporte ao processamento de dados declarativo, recursos de extração-transformação-carga (ETL) sem código e automação com orquestração de fluxos de trabalho para ajudar seus usuários de negócios (cientistas e analistas de dados) a acessar dados e criar insights significativos sem exigir processos de TI manuais.

Benefícios

Crie, teste e depure trabalhos de ETL no Jupyter

Use o JupyterHub, um ambiente de desenvolvimento integrado (IDE) interativo baseado na Web para simplificar o desenvolvimento de aplicações de ETL.

Use uma abordagem com prioriza o SQL
.

Implemente verificações de lógica de negócios e qualidade de dados no desenvolvimento do pipeline de ETL usando o Spark SQL.

Orquestre trabalhos sem código
.

Use fluxos de trabalho do Argo para agendar trabalhos e gerenciar dependências de trabalho complexas sem a necessidade de codificar.

Implante imagens do Docker automaticamente
.

Configure um pipeline de melhoria contínua e desenvolvimento contínuo (CI/CD) da AWS para armazenar com segurança a imagem do Docker da framework de dados no Amazon Elastic Container Registry (Amazon ECR).

Visão geral da Implementação de soluções da AWS

O diagrama abaixo apresenta a arquitetura que você pode implantar automaticamente usando o guia de implementação da solução e o respectivo modelo do AWS CloudFormation.

SQL-Based ETL with Apache Spark on Amazon EKS | Diagrama da arquitetura
 Clique para aumentar

Arquitetura da implementação de soluções SQL-Based ETL with Apache Spark on Amazon EKS

O modelo do AWS CloudFormation implanta um ambiente seguro, tolerante a falhas e de escalabilidade automática para oferecer suporte às workloads de ETL que contêm os seguintes componentes:

  1. Uma camada de gerenciamento de fluxo de trabalho personalizável e flexível [consulte a orquestração no grupo Amazon Elastic Kubernetes Service (Amazon EKS) do diagrama] inclui o plug-in Argo Workflows. Esse plug-in fornece uma ferramenta baseada na Web para orquestrar seus trabalhos de ETL sem a necessidade de escrever código. Opcionalmente, você pode usar outras ferramentas de fluxo de trabalho, como o Volcano e o Apache Airflow.
  2. Um espaço de trabalho seguro de processamento de dados é configurado para unificar workloads de dados no mesmo cluster do Amazon EKS. Esse espaço de trabalho contém uma segunda ferramenta baseada na Web, o JupyterHub, para compilações e testes de tarefas interativas. Você pode desenvolver o notebook Jupyter usando uma abordagem declarativa para especificar tarefas de ETL ou escrever programaticamente suas etapas de ETL usando o PySpark. Esse espaço de trabalho também fornece automações de trabalhos do Spark que são gerenciadas pela ferramenta Argo Workflows.
  3. Um conjunto de funções de segurança é implantado na solução. O Amazon Elastic Container Registry (Amazon ECR) mantém e protege uma imagem do Docker da framework de processamento de dados. O recurso IRSA [funções para contas de serviços do AWS Identity and Access Management (IAM)] no Amazon EKS fornece autorização de token com controle de acesso detalhado a outros serviços da AWS. Por exemplo, a integração do Amazon EKS com o Amazon Athena não tem senha, para atenuar o risco de expor credenciais da AWS em uma string de conexão. O Jupyter busca credenciais de login do AWS Secrets Manager para o Amazon EKS instantaneamente. O Amazon CloudWatch monitora aplicações no Amazon EKS usando o recurso ativado do CloudWatch Container Insights.
  4. As workloads analíticas no cluster do Amazon EKS produzem resultados de dados para um data lake do Amazon Simple Storage Service (Amazon S3). Uma entrada de esquema de dados (metadados) é criada em um Catálogo de dados do AWS Glue via Amazon Athena.

SQL-Based ETL with Apache Spark on Amazon EKS

Versão 1.0.0
Lançamento: 07/2021
Autor: AWS

Tempo de implantação estimado: 30 minutos

Custo estimado Código-fonte  Modelo do CloudFormation 
Use o botão abaixo para se inscrever nas atualizações desta Implementação de solução.
Observação: para assinar atualizações RSS, você deve ter um plug-in RSS habilitado para o navegador que está usando.
Esta implementação de soluções ajudou você?
Fornecer feedback 
Ícone Construir
Implante você mesmo uma solução

Explore nossa biblioteca de Implementações de soluções da AWS para obter respostas para problemas comuns de arquitetura.

Saiba mais 
Encontre um parceiro da APN
Encontre um parceiro da APN

Encontre parceiros de consultoria e tecnologia certificados pela AWS para ajudar você a começar.

Saiba mais 
Ícone Explorar
Explore ofertas de consultoria de soluções

Explore nosso portfólio de Ofertas de consultoria para obter ajuda aprovada pela AWS com a implantação de soluções.

Saiba mais