O que é um data lake?

Um data lake é um repositório centralizado que permite armazenar todos os seus dados estruturados e não estruturados em qualquer escala. Você pode armazenar seus dados como estão, sem precisar primeiro estruturá-los e executar diferentes tipos de análise, desde painéis e visualizações até processamento de big data, análise em tempo real e machine learning para orientar melhores decisões.

Por que você precisa de um data lake?

As organizações que geram valor empresarial com êxito a partir de seus dados superarão seus pares. Uma pesquisa da Aberdeen revelou que as organizações que implementaram um data lake superaram em 9% a performance de empresas semelhantes no crescimento orgânico da receita. Esses líderes foram capazes de fazer novos tipos de análise, como machine learning em novas fontes, como arquivos de log, dados de fluxos de cliques, mídia social e dispositivos conectados à Internet armazenados no data lake. Isso os ajudou a identificar e agir de acordo com as oportunidades de crescimento dos negócios mais rapidamente, atraindo e retendo clientes, aumentando a produtividade, mantendo dispositivos proativamente e tomando decisões informadas.

Quais são os elementos essenciais de uma solução de data lake e análise?

À medida que as organizações estão criando data lakes e uma plataforma de análise, elas precisam considerar vários recursos importantes, incluindo:

Migração de dados

Os data lakes permitem que você importe qualquer quantidade de dados que possa vir em tempo real. Os dados são coletados de várias fontes e movidos para o data lake em seu formato original. Esse processo permite escalar para dados de qualquer tamanho, economizando tempo na definição de estruturas de dados, esquemas e transformações.

Armazene e catalogue dados com segurança

Os data lakes permitem que você armazene dados relacionais, como bancos de dados operacionais e dados de aplicações de linha de negócios, e dados não relacionais, como aplicações móveis, dispositivos IoT e mídias sociais. Eles também oferecem a capacidade de entender quais dados estão no lago por meio de crawling, catalogação e indexação de dados. Por fim, os dados devem ser protegidos para garantir que seus ativos de dados estejam protegidos.

Análise

Os data lakes permitem que várias funções da organização, como cientistas de dados, desenvolvedores de dados e analistas de negócios, acessem dados com sua escolha de ferramentas e frameworks analíticos. Isso inclui frameworks de código aberto, como Apache Hadoop, Presto e Apache Spark, e ofertas comerciais de fornecedores de data warehouse e inteligência empresarial. Os data lakes permitem executar análises sem a necessidade de mover seus dados para um sistema de análise separado.

Leia sobre análise de dados »

Machine Learning

O data lakes permitirão que as organizações gerem diferentes tipos de insights, incluindo relatórios sobre dados históricos e machine learning, onde os modelos são criados para prever resultados prováveis e sugerir uma série de ações prescritas para alcançar o resultado ideal.

Leia sobre machine learning »

Como um data warehouse se compara a um data lake?

Dependendo dos requisitos, uma organização típica exigirá um data warehouse e um data lake, pois atendem a diferentes necessidades e casos de uso.

Um data warehouse é um banco de dados otimizado para analisar dados relacionais provenientes de sistemas transacionais e aplicações de linha de negócios. A estrutura de dados e o esquema são definidos antecipadamente para otimizar consultas SQL rápidas, em que os resultados são normalmente usados para relatórios e análises operacionais. Os dados são limpos, enriquecidos e transformados para que possam atuar como a “fonte única da verdade” em que os usuários podem confiar.

Leia sobre data warehouses »

Um data lake é diferente porque armazena dados relacionais de aplicações de linha de negócios e dados não relacionais de aplicativos móveis, dispositivos IoT e mídias sociais. A estrutura dos dados ou esquema não é definida quando os dados são capturados. Isso significa que você pode armazenar todos os seus dados sem um design cuidadoso ou a necessidade de saber para quais perguntas você pode precisar de respostas no futuro. Diferentes tipos de análise em seus dados, como consultas SQL, análise de big data, pesquisa de texto completo, análise em tempo real e machine learning, podem ser usados para descobrir insights.

À medida que as organizações com data warehouses veem os benefícios dos data lakes, elas evoluem seu warehouse para incluir data lakes e habilitar diversos recursos de consulta, casos de uso de ciência de dados e recursos avançados para descobrir novos modelos de informações. A Gartner chama essa evolução de “Solução de gerenciamento de dados para análise” ou “DMSA”.

Para uma comparação aprofundada entre data lakes e data warehouses, visite nossa página de comparação dedicada para data lakes versus data warehouses.

Qual é o valor dos data lakes?

A capacidade de aproveitar mais dados, de mais fontes, em menos tempo, e de capacitar os usuários a colaborar e analisar dados de diferentes maneiras leva a uma tomada de decisão melhor e mais rápida. Exemplos em que os data lakes agregaram valor incluem:

Melhores interações com o cliente

Um data lake pode combinar dados de clientes de uma plataforma de CRM com análise de mídia social, uma plataforma de marketing que inclui histórico de compras e tíquetes de incidentes para capacitar a empresa a entender o grupo de clientes mais lucrativo, a causa da perda de clientes e as promoções ou recompensas que aumentará a fidelidade.

Melhorar as opções de inovação em P&D

Um data lake pode ajudar suas equipes de P&D a testar hipóteses, refinar suposições e avaliar resultados, como escolher os materiais certos no design do produto, resultando em uma performance mais rápida, em pesquisas genômicas que levam a medicamentos mais eficazes ou no entendimento da disposição dos clientes de pagar por atributos diferentes.

Aumente as eficiências operacionais

A Internet das Coisas (IoT) apresenta mais maneiras de coletar dados sobre processos como fabricação, com dados em tempo real provenientes de dispositivos conectados à Internet. Um data lake facilita o armazenamento e a execução de análises em dados de IoT gerados por máquina para descobrir maneiras de reduzir custos operacionais e aumentar a qualidade.

Leia sobre a Internet das Coisas (IoT) »

Quais são os desafios dos data lakes?

O principal desafio com uma arquitetura de data lake é que os dados brutos são armazenados sem supervisão do conteúdo. Para que um data lake torne os dados utilizáveis, ele precisa ter mecanismos definidos para catalogar e proteger os dados. Sem esses elementos, os dados não podem ser encontrados ou confiáveis, resultando em um “pântano de dados”. Atender às necessidades de públicos mais amplos exige que os data lakes tenham governança, consistência semântica e controles de acesso.

Como você implanta data lakes na nuvem?

Data lakes são uma workload ideal para ser implantada na nuvem, porque a nuvem oferece desempenho, escalabilidade, confiabilidade, disponibilidade, um conjunto diversificado de mecanismos analíticos e enormes economias de escala. Uma pesquisa da ESG revelou que 39% dos entrevistados consideram a nuvem sua principal implantação para análise, 41% para data warehouses e 43% para Spark. Os principais motivos pelos quais os clientes perceberam a nuvem como uma vantagem para data lakes são: melhor segurança, tempo de implantação mais rápido, melhor disponibilidade, atualizações de recursos/funcionalidades mais frequentes, mais elasticidade, mais cobertura geográfica e custos vinculados à utilização real.

Como a AWS pode oferecer suporte aos seus requisitos de data lakes?

A AWS oferece o portfólio de serviços mais seguro, escalável, abrangente e econômico para permitir que os clientes criem um data lake na nuvem, analisem todos os dados, incluindo dados de dispositivos de IoT, usando diversas abordagens analíticas, como machine learning. Como resultado, há mais organizações executando data lakes e análises na AWS do que em qualquer outro lugar, com clientes como NETFLIX, Zillow, NASDAQ, Yelp, iRobot e FINRA confiando na AWS para executar suas workloads de análise crítica de negócios.

Comece a usar data lakes na AWS criando uma conta hoje mesmo.

Próximas etapas na AWS

Confira recursos adicionais relacionados a produtos
Veja ofertas gratuitas de serviços de análises na nuvem 
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS.

Cadastre-se 
Comece a criar no console

Comece a criar no Console de Gerenciamento da AWS.

Faça login