O que é uma abordagem de lake house?

Integre perfeitamente seu data lake, data warehouse e datastores desenvolvidos para fins específicos

Abordagem de lake house - como tudo funciona

Uma abordagem de lake house reconhece a ideia de que adotar uma abordagem de tamanho único para análises acaba resultando em situações difíceis. Não se trata simplesmente de integrar um data lake com um data warehouse, mas sim de integrar um data lake, um data warehouse e datastores desenvolvidos para fins específicos, possibilitando uma governança unificada e a fácil movimentação dos dados. Com uma arquitetura de lake house na AWS, os clientes podem armazenar dados em um data lake e usar um círculo de serviços de dados criados especificamente ao redor do data lake, possibilitando decisões com rapidez e agilidade em uma escala e relação preço/performance incomparável no mercado.

Uma arquitetura de lake house exige que os clientes:

  • Criem data lakes escaláveis rapidamente
  • Usem uma coleção ampla e profunda de serviços de dados criados para fins específicos
  • Garantam a compatibilidade por meio de uma maneira unificada de proteger, monitorar e gerenciar o acesso aos seus dados
  • Dimensionem seus sistemas a um baixo custo sem comprometer a performance
Como funciona - abordagem de lake house

Por que você precisa de uma abordagem de lake house

Os volumes de dados estão aumentando a uma taxa sem precedentes, explodindo de terabytes para petabytes e, às vezes, até exabytes. As abordagens tradicionais de análises de dados on-premises não dão conta desses volumes de dados, pois são muito caras e não são suficientemente bem escaladas. Muitas empresas estão extraindo seus dados de vários silos e agregando todos esses dados em um único local, o que muitos chamam de data lake, para usá-los diretamente com análises e ML. Em outras ocasiões, essas mesmas empresas estão armazenando outros dados em datastores desenvolvidos para fins específicos, com o objetivo de analisar e obter insights rápidos de dados estruturados e não estruturados. Essa movimentação de dados pode ser “de dentro para fora”, “de fora para dentro” ou “em torno do perímetro”, pois os dados tem uma determinada gravidade.

  • De dentro para fora
  • De fora para dentro
  • Em torno do perímetro
  • Gravidade dos dados
  • De dentro para fora
  • Movimentação de dados de dentro para fora

    Os clientes armazenam dados em um data lake e, em seguida, transferem uma parte desses dados a um datastore desenvolvido para fins específicos com o objetivo de realizar trabalhos adicionais com machine learning ou análises.

    Exemplo: dados de sequência de cliques de aplicações Web podem ser coletados diretamente em um data lake, e uma parte desses dados pode ser movida a um data warehouse para relatórios diários. Pensamos nesse conceito como uma movimentação de dados de dentro para fora.

    Movimentação de dados de dentro para fora
  • De fora para dentro
  • Movimentação de dados de fora para dentro

    Os clientes armazenam dados em datastores desenvolvidos para fins específicos, como um data warehouse ou um banco de dados, e transferem esses dados a um data lake para executar análises neles. 

    Exemplo: eles copiam os resultados de consultas para vendas de produtos em uma determinada região do data warehouse para o data lake com o objetivo de executar algoritmos de recomendação de produtos em um conjunto de dados maior usando ML.

    Movimentação de dados de fora para dentro
  • Em torno do perímetro
  • Movimentação de dados em torno do perímetro

    Integre perfeitamente seu data lake, data warehouse e datastores desenvolvidos para fins específicos. 

    Exemplo: eles podem copiar os dados de um catálogo de produtos armazenados em seus bancos de dados para o serviço de pesquisa a fim de facilitar a consulta desse catálogo e o descarregamento das consultas de pesquisa do banco de dados.

    Movimentação de dados de fora para dentro
  • Gravidade dos dados
  • Gravidade dos dados

    À medida que os dados nesses data lakes e datastores desenvolvidos para fins específicos continuam a crescer, fica cada vez mais difícil mover todos esses dados, pois eles têm uma determinada gravidade. É igualmente importante garantir que os dados possam chegar facilmente onde quer que forem necessários, com os controles certos, para possibilitar análises e insights.

    Gravidade dos dados

Pilares de abordagem de lake house

As organizações estão extraindo seus dados de vários silos e agregando todos esses dados em um único local para usá-los diretamente com análises e machine learning. Para obter o máximo de valor desses dados, elas precisam tirar proveito de uma abordagem de lake house que lhes permita mover dados entre data lakes e datastores desenvolvidos para fins específicos. Essa forma moderna de arquitetura requer:

Mais clientes estão criando lake houses na AWS do que em qualquer outro lugar

  • lake_house_customers_logo_bmw
  • lake_house_customers_logo_nielsen
  • lake_house_customers_logo_engie
  • BMW Group
  • BMW Group
    BMW Group

    Para acelerar a inovação e democratizar o uso dos dados em grande escala, o BMW Group migrou seu data lake on-premises para um alimentado pelo Amazon S3. Agora, o BMW Group processa TBs de dados de telemetria de milhões de veículos diariamente e resolve problemas antes que eles afetem os clientes.

    Leia o estudo de caso 
  • Nielsen
  • Nielsen
    Nielsen

    A Nielsen, uma empresa global de medição e análise de dados, aumentou drasticamente a quantidade de dados que ela é capaz de ingerir, processar e relatar aos seus clientes todos os dias, tirando proveito de uma moderna tecnologia de nuvem. Ela passou a medir mais de 30 milhões de lares todos os dias em contraste com os 40.000 que costuma medir.

    Leia o estudo de caso 
  • Engie
  • Engie
    lake_house_customers_logo_engie

    A ENGIE's é uma das maiores empresas de serviços públicos da França, com 160.000 funcionários e 40 unidades de negócios operando em 70 países. O data lake de quase 100 TB do Common Data Hub usa os serviços da AWS para atender à demanda comercial em termos de ciência de dados, marketing e operações.

    Leia o estudo de caso 

Parceiros

Saiba como nossos Parceiros estão ajudando as organizações a criar uma arquitetura de dados moderna tirando proveito da abordagem de lake house na AWS.

Cloudera

Cloudera

A execução do Cloudera Enterprise na AWS fornece aos usuários de TI e de negócios uma plataforma de gerenciamento de dados que pode atuar como base para o processamento e a análise de dados modernos.

Saiba mais »

Informatica Cloud

Informatica Cloud

O Informatica Cloud fornece integração otimizada aos serviços de dados da AWS com conectividade nativa a mais de 100 aplicativos.

Saiba mais »

Dataguise

Dataguise

A Dataguise é líder em execução segura de negócios, fornecendo soluções de segurança centradas em dados que detectam e protegem dados confidenciais de uma empresa, não importa onde ela esteja sediada ou quem precise aproveitá-la.

Saiba mais »

Alluxio Data Orchestration

Alluxio Data Orchestration

O Alluxio Data Orchestration permite que os clientes aproveitem melhor os principais serviços da AWS, como o EMR e o S3 para cargas de trabalho do Analytic e de IA.

Saiba mais »

Conceitos básicos

Programa AWS Data Driven Everything

AWS Data-Driven Everything
No programa AWS Data-Driven EVERYTHING (D2E), a AWS fará parceria com nossos clientes para avançar mais rápido, com maior precisão e um escopo muito mais ambicioso para impulsionar seu próprio volante de dados.

Saiba mais »

AWS Data Lab

AWS Data Lab
O AWS Data Lab oferece contratos de engenharia acelerados e conjuntos entre clientes e recursos técnicos da AWS, para criar conteúdo de entrega tangível capaz de acelerar iniciativas de modernização de dados e análises.

Saiba mais »

Arquitetura de referência de big data e análises da AWS

Arquitetura de referência de big data e análises da AWS
Aprenda as práticas recomendadas de arquitetura para análises de dados na nuvem, armazenamento em data warehouse e gerenciamento de dados na AWS.

Saiba mais »