Qual é a diferença entre ETL e ELT?

Os processos de extração, transformação e carregamento (ETL) e de extração, carregamento e transformação (ELT) são duas abordagens de processamento de dados para análise. Grandes organizações têm várias centenas (ou até milhares) de fontes de dados de todos os aspectos de suas operações, como aplicações, sensores, infraestrutura de TI e parceiros terceirizados. Elas precisam filtrar, classificar e limpar esse grande volume de dados para torná-lo útil para análise e inteligência de negócios. A abordagem ETL usa um conjunto de regras de negócios para processar dados de várias fontes antes da integração centralizada. A abordagem ELT carrega os dados como estão e os transforma em um estágio posterior, dependendo do caso de uso e dos requisitos de análise. O processo de ETL requer maior definição no início. Análises devem estar envolvidas desde o início para que haja definição dos tipos de dados de destino, estruturas e relações. Os cientistas de dados usam principalmente a ETL para carregar bancos de dados legados no data warehouse, enquanto a ELT se tornou a norma atualmente.

Leia sobre ETL »

Quais são as semelhanças entre o ETL e o ELT?

Tanto o processo de extração, transformação e carregamento (ETL) quanto o de extração, carregamento e transformação (ELT) são sequências de processos que preparam dados para análise posterior. Eles capturam, processam e carregam dados para análise em três etapas. 

Extração

A extração é a primeira etapa do ETL e do ELT. Esta etapa trata da coleta de dados brutos de diferentes fontes. Podem ser bancos de dados, arquivos, aplicações de software como serviço (SaaS), sensores da Internet das Coisas (IoT) ou eventos de aplicações. Você pode coletar dados semiestruturados, estruturados ou não estruturados nesse estágio.

Transformação

No processo de ETL, a transformação é a segunda etapa, enquanto no ELT é a terceira. Essa etapa se concentra em transformar os dados brutos de sua estrutura original em um formato que atenda aos requisitos do sistema de destino em que você planeja armazenar os dados para análise. Aqui estão alguns exemplos de transformação:

  • Alteração de tipos ou formatos de dados
  • Removendo dados inconsistentes ou imprecisos.
  • Removendo a duplicação de dados.

Você aplica regras e funções para limpar e preparar dados para análise no sistema de destino.

Carga

Nessa fase, você armazena dados no banco de dados de destino. Os processos de ETL carregam dados como uma etapa final, para que as ferramentas de geração de relatórios possam usá-los diretamente para gerar relatórios e insights acionáveis. No entanto, no ELT, você ainda precisa transformar os dados extraídos após carregá-los.

Como os processos ELT e ETL diferem entre si?

Em seguida, descrevemos os processos de extração, transformação e carregamento (ETL) e extração, carga e transformação (ELT). Você também pode ler alguns antecedentes históricos.

Processo ETL

O ETL tem três etapas:

  1. Você extrai dados brutos de várias fontes
  2. Você usa um servidor de processamento secundário para transformar esses dados.
  3. Você carrega esses dados em um banco de dados de destino

O estágio de transformação garante a conformidade com os requisitos estruturais do banco de dados de destino. Você só move os dados quando eles são transformados e estão prontos.

 

Processo ELT

Estas são as três etapas do ELT:

  1. Você extrai dados brutos de várias fontes
  2. Você o carrega em seu estado natural em um data warehouse ou data lake
  3. Você o transforma conforme necessário enquanto está no sistema de destino

Com o ELT, toda a limpeza, transformação e enriquecimento de dados ocorrem dentro do data warehouse. Você pode interagir e transformar os dados brutos quantas vezes forem necessárias.

História do ETL e do ELT

O ETL existe desde a década de 1970, tornando-se especialmente popular com o surgimento dos data warehouses. No entanto, os data warehouses tradicionais exigiam processos ETL personalizados para cada fonte de dados.

A evolução das tecnologias de nuvem mudou o que era possível. Agora, as empresas podiam armazenar dados brutos ilimitados em grande escala e analisá-los posteriormente, conforme necessário. O ELT se tornou o método moderno de integração de dados para análises eficientes.

Principais diferenças: ETL versus ELT

Extrair, carregar e transformar (ELT) melhorou a extração, transformação e carregamento (ETL) de várias maneiras.

Local de transformação e carga

A transformação e a carga ocorrem em locais diferentes e usam processos distintos. O processo ETL transforma dados em um servidor de processamento secundário.

Em contraste, o processo ELT carrega dados brutos diretamente no data warehouse de destino. Uma vez lá, você pode transformar os dados sempre que precisar. 

Compatibilidade de dados

O ETL é mais adequado para dados estruturados que você pode representar em tabelas com linhas e colunas. Ele transforma um conjunto de dados estruturados em outro formato estruturado e depois o carrega.

Por outro lado, o ELT lida com todos os tipos de dados, incluindo dados não estruturados, como imagens ou documentos, que você não pode armazenar em formato tabular. Com o ELT, o processo carrega os vários formatos de dados no data warehouse de destino. A partir daí, você pode transformá-lo ainda mais no formato desejado.

Velocidade

O ELT é mais rápido que o ETL. O ETL tem uma etapa adicional antes de carregar dados no destino, que é difícil de escalar e desacelera o sistema à medida que o tamanho dos dados aumenta.

Em contraste, o ELT carrega dados diretamente no sistema de destino e os transforma em paralelo. Ele usa o poder de processamento e a paralelização que os data warehouses em nuvem oferecem para fornecer transformação de dados em tempo real ou quase em tempo real para análise. 

Custos

O processo de ETL exige o envolvimento da análise desde o início. É necessário que os analistas planejem com antecedência os relatórios que desejam gerar e definam estruturas e formatação de dados. O tempo necessário para a configuração aumenta, o que aumenta os custos. Uma infraestrutura adicional de servidor para transformações também pode custar mais.

O ELT tem menos sistemas do que o ETL, pois todas as transformações ocorrem no data warehouse de destino. Com menos sistemas, há menos para manter, resultando em uma pilha de dados mais simples e menores custos de configuração.

Segurança

Ao trabalhar com dados pessoais, você deve cumprir os regulamentos de privacidade de dados. As empresas devem proteger as informações de identificação pessoal (PII) contra acesso não autorizado.

No ETL, os desenvolvedores precisam criar soluções personalizadas, como mascarar PII para monitorar e proteger os dados.

Por outro lado, as soluções ELT fornecem muitos recursos de segurança, como controle de acesso granular e autenticação multifatorial, diretamente no data warehouse. Você pode investir mais tempo em análises e menos tempo atendendo aos requisitos de regulamentação de dados.

Quando usar ETL versus ELT

Extrair, carregar e transformar (ELT) é a escolha padrão para análises modernas. No entanto, você pode considerar o processo de extração, transformação e carregamento (ETL) nos cenários a seguir.

Bancos de dados antigos

Às vezes, é mais benéfico usar o ETL para integrar bancos de dados legados ou fontes de dados de terceiros com formatos de dados predeterminados. Você só precisa transformá-lo e carregá-lo uma vez em seu sistema. Depois de transformado, você pode usá-lo com mais eficiência para todas as análises futuras.

Experimentação

Em grandes organizações, os engenheiros de dados conduzem experimentos, como descobrir fontes de dados ocultas para análise e testar novas ideias para responder a consultas comerciais. O ETL é útil em experimentos de dados para entender o banco de dados e sua utilidade em um cenário específico.

Análise complexa

O ETL e o ELT podem ser usados juntos para análises complexas que usam vários formatos de dados de fontes variadas. Os cientistas de dados podem configurar pipelines de ETL a partir de algumas das fontes e usar o ELT com o resto. Isso melhora a eficiência da análise e aumenta a performance da aplicação em alguns casos.

Aplicações de IoT

As aplicações da Internet das Coisas (IoT) que usam fluxos de dados de sensores geralmente se beneficiam do ETL em vez do ELT. Por exemplo, aqui estão alguns casos de uso comuns de ETL na borda:

  • Você deseja receber dados de diferentes protocolos e convertê-los em formatos de dados padrão para uso em workloads na nuvem
  • Você deseja filtrar dados de alta frequência, executar funções de média em grandes conjuntos de dados e, em seguida, carregar valores médios ou filtrados a uma taxa reduzida
  • Você deseja calcular valores de fontes de dados diferentes no dispositivo local e enviar valores filtrados para o back-end da nuvem
  • Você deseja limpar, desduplicar ou preencher elementos de dados de séries temporais ausentes

Resumo das diferenças: ETL versus ELT

Categoria

ETL

ELT

Significa

Extrair, transformar e carregar

Extrair, carregar e transformar

Processe

Pega dados brutos, os transforma em um formato predeterminado e os carrega no data warehouse de destino.

Pega dados brutos, os carrega no data warehouse de destino e os transforma logo antes da análise.

Locais de transformação e carga

A transformação ocorre em um servidor de processamento secundário.

A transformação ocorre no data warehouse de destino.

Compatibilidade de dados

Melhor com dados estruturados.

Pode lidar com dados estruturados, não estruturados e semiestruturados. 

Velocidade

O ETL é mais lento que o ELT.

O ELT é mais rápido do que o ETL, pois pode usar os recursos internos do data warehouse.

Custos

A configuração pode ser demorada e cara, dependendo das ferramentas de ETL usadas.

Mais econômico, dependendo da infraestrutura de ELT usada.

Segurança

Pode exigir a criação de aplicações personalizadas para atender aos requisitos de proteção de dados.

Você pode usar recursos integrados do banco de dados de destino para gerenciar a proteção de dados.

Como a AWS pode apoiar seus requisitos de ETL e ELT?

A Análise de dados na AWS descreve a ampla seleção de serviços de análise da Amazon Web Services (AWS) que atendem a todas as suas necessidades de análise de dados. Com a AWS, organizações de todos os tamanhos e setores podem reinventar seus negócios com dados.

Aqui estão alguns dos serviços da AWS que você pode usar para seus requisitos de ETL e ELT:

  • O Amazon Aurora permite integrações ETL zero com o Amazon Redshift. Essa integração permite análises e machine learning quase em tempo real por meio do Amazon Redshift em petabytes (PB) de dados transacionais da Aurora.
  • O AWS Data Pipeline é um serviço de ETL gerenciado que permite definir a movimentação e as transformações de dados em vários serviços da AWS.
  • O AWS Glue é um serviço de integração de dados sem servidor para trabalhos de ETL orientados por eventos e ETL sem código.
  • O AWS IoT Greengrass oferece suporte ao seu ETL em casos de uso na borda, trazendo processamento e lógica em nuvem localmente para dispositivos periféricos.
  • O Amazon Redshift permite que você configure todos os fluxos de trabalho de ELT e consulte diretamente conjuntos de dados de diferentes fontes.  

Comece a usar ELT e ETL na AWS criando uma conta gratuita hoje mesmo.

Próximas etapas com a AWS

Comece a criar com o ETL
Comece a criar com o ELT