O que é um data lake?

Armazene todos os seus dados em um repositório centralizado em qualquer escala

O que é um data lake?

Um data lake é um repositório centralizado que permite armazenar todos os seus dados estruturados e não estruturados em qualquer escala. Você pode armazenar seus dados como estão, sem precisar primeiro estruturá-los e executar diferentes tipos de análise, desde painéis e visualizações até processamento de big data, análise em tempo real e machine learning para orientar melhores decisões.

AWS  Lake House

Por que você precisa de um data lake?

As organizações que geram valor empresarial com êxito a partir de seus dados superarão seus pares. Uma pesquisa da Aberdeen revelou que as organizações que implementaram um data lake superaram em 9% a performance de empresas semelhantes no crescimento orgânico da receita. Esses líderes foram capazes de fazer novos tipos de análise, como machine learning em novas fontes, como arquivos de log, dados de fluxos de cliques, mídia social e dispositivos conectados à Internet armazenados no data lake. Isso os ajudou a identificar e agir de acordo com as oportunidades de crescimento dos negócios mais rapidamente, atraindo e retendo clientes, aumentando a produtividade, mantendo dispositivos proativamente e tomando decisões informadas.

Data lakes comparados a data warehouses: duas abordagens diferentes

Dependendo dos requisitos, uma organização típica exigirá um data warehouse e um data lake, pois atendem a diferentes necessidades e casos de uso.

Um data warehouse é um banco de dados otimizado para analisar dados relacionais provenientes de sistemas transacionais e aplicações de linha de negócios. A estrutura de dados e o esquema são definidos antecipadamente para otimizar consultas SQL rápidas, em que os resultados são normalmente usados para relatórios e análises operacionais. Os dados são limpos, enriquecidos e transformados para que possam atuar como a “fonte única da verdade” em que os usuários podem confiar.

Um data lake é diferente porque armazena dados relacionais de aplicações de linha de negócios e dados não relacionais de aplicativos móveis, dispositivos IoT e mídias sociais. A estrutura dos dados ou esquema não é definida quando os dados são capturados. Isso significa que você pode armazenar todos os seus dados sem um design cuidadoso ou a necessidade de saber para quais perguntas você pode precisar de respostas no futuro. Diferentes tipos de análise em seus dados, como consultas SQL, análise de big data, pesquisa de texto completo, análise em tempo real e machine learning, podem ser usados para descobrir insights.

À medida que as organizações com data warehouses veem os benefícios dos data lakes, elas evoluem seu warehouse para incluir data lakes e habilitar diversos recursos de consulta, casos de uso de ciência de dados e recursos avançados para descobrir novos modelos de informações. A Gartner chama essa evolução de “Solução de gerenciamento de dados para análise” ou “DMSA”.

Características Data warehouse Data lake
Dados Relacionais de sistemas transacionais, bancos de dados operacionais e aplicações de linha de negócios Não relacionais e relacionais de dispositivos de IoT, sites, aplicações móveis, mídia social e aplicações corporativas
Esquema Definido antes da implementação do DW (esquema na gravação) Gravado no momento da análise (esquema na leitura)
Preço/performance Resultados de consulta mais rápidos, usando armazenamento de maior custo Resultados de consulta ficando mais rápidos, usando armazenamento de menor custo
Qualidade dos dados
Dados altamente selecionados, que representam a versão central da verdade Quaisquer dados, selecionados ou não (ou seja, dados brutos)
Usuários Analistas de negócios Cientistas de dados, desenvolvedores de dados e analistas de negócios (usando dados selecionados)
Análises Geração de relatórios em lote, BI e visualizações Machine learning, análises preditivas, descoberta de dados e criação de perfis

Os elementos essenciais de uma solução de data lake e análise

À medida que as organizações estão criando data lakes e uma plataforma de análise, elas precisam considerar vários recursos importantes, incluindo:

Movimentação de dados

Os data lakes permitem que você importe qualquer quantidade de dados que possa vir em tempo real. Os dados são coletados de várias fontes e movidos para o data lake em seu formato original. Esse processo permite escalar para dados de qualquer tamanho, economizando tempo na definição de estruturas de dados, esquemas e transformações.

Armazene e catalogue dados com segurança

Os data lakes permitem que você armazene dados relacionais, como bancos de dados operacionais e dados de aplicações de linha de negócios, e dados não relacionais, como aplicativos móveis, dispositivos IoT e mídias sociais. Eles também oferecem a capacidade de entender quais dados estão no lago por meio de crawling, catalogação e indexação de dados. Por fim, os dados devem ser protegidos para garantir que seus ativos de dados estejam protegidos.

Análises

Os data lakes permitem que várias funções da organização, como cientistas de dados, desenvolvedores de dados e analistas de negócios, acessem dados com sua escolha de ferramentas e frameworks analíticos. Isso inclui frameworks de código aberto, como Apache Hadoop, Presto e Apache Spark, e ofertas comerciais de fornecedores de data warehouse e inteligência empresarial. Os data lakes permitem que você execute análises sem a necessidade de mover seus dados para um sistema de análise separado.

Machine learning

O data lakes permitirão que as organizações gerem diferentes tipos de insights, incluindo relatórios sobre dados históricos e machine learning, onde os modelos são criados para prever resultados prováveis e sugerir uma série de ações prescritas para alcançar o resultado ideal.

O valor de um data lake

A capacidade de aproveitar mais dados, de mais fontes, em menos tempo, e de capacitar os usuários a colaborar e analisar dados de diferentes maneiras leva a uma tomada de decisão melhor e mais rápida. Exemplos em que os data lakes agregaram valor incluem:

Melhores interações com o cliente

Um data lake pode combinar dados de clientes de uma plataforma de CRM com análise de mídia social, uma plataforma de marketing que inclui histórico de compras e tíquetes de incidentes para capacitar a empresa a entender o grupo de clientes mais lucrativo, a causa da perda de clientes e as promoções ou recompensas que aumentará a fidelidade.

Melhorar as opções de inovação em P&D

Um data lake pode ajudar suas equipes de P&D a testar hipóteses, refinar suposições e avaliar resultados, como escolher os materiais certos no design do produto, resultando em uma performance mais rápida, em pesquisas genômicas que levam a medicamentos mais eficazes ou no entendimento da disposição dos clientes de pagar por atributos diferentes.

Aumente as eficiências operacionais

A Internet das Coisas (IoT) apresenta mais maneiras de coletar dados sobre processos como fabricação, com dados em tempo real provenientes de dispositivos conectados à Internet. Um data lake facilita o armazenamento e a execução de análises em dados de IoT gerados por máquina para descobrir maneiras de reduzir custos operacionais e aumentar a qualidade.  

Os desafios dos data lakes

O principal desafio com uma arquitetura de data lake é que os dados brutos são armazenados sem supervisão do conteúdo. Para que um data lake torne os dados utilizáveis, ele precisa ter mecanismos definidos para catalogar e proteger os dados. Sem esses elementos, os dados não podem ser encontrados ou confiáveis, resultando em um “pântano de dados”. Atender às necessidades de públicos mais amplos exige que os data lakes tenham governança, consistência semântica e controles de acesso.

 

Implantar data lakes na nuvem

Data lakes são uma workload ideal para ser implantada na nuvem, porque a nuvem oferece performance, escalabilidade, confiabilidade, disponibilidade, um conjunto diversificado de mecanismos analíticos e enormes economias de escala. Uma pesquisa da ESG revelou que 39% dos entrevistados consideram a nuvem sua principal implantação para análise, 41% para data warehouses e 43% para Spark. Os principais motivos pelos quais os clientes perceberam a nuvem como uma vantagem para data lakes são: melhor segurança, tempo de implantação mais rápido, melhor disponibilidade, atualizações de recursos/funcionalidades mais frequentes, mais elasticidade, mais cobertura geográfica e custos vinculados à utilização real.

 

Crie seus data lakes na nuvem na AWS

A AWS oferece o portfólio de serviços mais seguro, escalável, abrangente e econômico para permitir que os clientes criem um data lake na nuvem, analisem todos os dados, incluindo dados de dispositivos de IoT, usando diversas abordagens analíticas, como machine learning. Como resultado, há mais organizações executando data lakes e análises na AWS do que em qualquer outro lugar, com clientes como NETFLIX, Zillow, NASDAQ, Yelp, iRobot e FINRA confiando na AWS para executar suas workloads de análise crítica de negócios. Saiba mais.

Mais recursos no data lake

Saiba mais sobre data lakes com analistas do setor.

Conceitos básicos da AWS

Step 1 - Sign up for an AWS account

Cadastre-se para obter uma conta da AWS

Obtenha acesso instantâneo ao nível gratuito da AWS

Crie um data lake seguro em dias

Leia sobre o AWS Lake Formation

Comece a criar com a AWS