AWS Lake Formation

Crie um data lake seguro em dias

O AWS Lake Formation é um serviço que facilita a configuração de um data lake seguro em dias. Um data lake é um repositório centralizado, administrado e seguro que armazena todos os seus dados, tanto em sua forma original quanto preparados para análise. Um data lake permite romper os silos de dados e combinar diferentes tipos de análises para obter insights e orientar as melhores decisões de negócios.

Atualmente, a configuração e o gerenciamento dos data lakes envolvem muitas tarefas manuais, complicadas e demoradas. Esse trabalho inclui o carregamento de dados de diversas fontes, monitoramento desses fluxos de dados, configuração de partições, ativação de criptografia e gerenciamento de chaves, definição de trabalhos de transformação e monitoramento da operação, reorganização de dados em um formato colunar, remoção da duplicação de dados redundantes e correspondência de registros vinculados. Depois que os dados são carregados no data lake, você precisa conceder acesso refinado aos conjuntos de dados e auditar o acesso ao longo do tempo em uma ampla gama de ferramentas e serviços de análise e machine learning (ML).

Criar um data lake com o Lake Formation é tão simples quanto definir as fontes de dados e quais políticas de acesso aos dados e de segurança dos serão aplicadas. O Lake Formation ajuda a coletar e catalogar dados de bancos de dados e armazenamento de objetos, mover os dados para seu novo data lake do Amazon Simple Storage Service (S3), limpar e classificar seus dados usando algoritmos de ML e proteger o acesso a dados sigilosos usando controles detalhados na coluna, linha e níveis de célula. Os usuários podem acessar um catálogo de dados centralizado que descreve os conjuntos de dados disponíveis e o respectivo uso apropriado. Eles então usam esses conjuntos de dados com sua escolha de serviços analíticos e de ML, como Amazon Redshift, Amazon Athena, Amazon EMR para Apache Spark e Amazon QuickSight. O Lake Formation aproveita os recursos disponíveis no AWS Glue.

AWS re:Invent 2018 – Announcing AWS Lake Formation (AWS re:Invent 2018 – Anúncio do AWS Lake Formation) (2:44)

Benefícios

Crie data lakes com rapidez

Com o Lake Formation, você pode mover, armazenar, catalogar e limpar dados com mais agilidade. Basta apontar o Lake Formation em suas fontes de dados e ele rastreará essas fontes e moverá os dados para seu novo data lake do Amazon S3. O Lake Formation usa como base os termos de consulta usados frequentemente para organizar os dados no S3 em blocos dimensionados para aumentar a eficiência. Ele também altera os dados para formatos como Apache Parquet e ORC para agilizar as análises. O Lake Formation também incorpora ML para eliminar duplicidades e encontrar registros correspondentes (duas entradas que fazem referência à mesma coisa) para aumentar a qualidade dos dados.

Simplifique o gerenciamento da segurança

O Lake Formation oferece um local único para definir e aplicar controles de acesso que operam na tabela, coluna, linha e nível de célula para todos os usuários e serviços que acessam os dados. As políticas são implementadas de forma consistente, eliminando a necessidade de configurá-las manualmente em serviços de segurança, como AWS Identity and Access Management (IAM) e AWS Key Management Service (KMS), serviços de armazenamento como S3 e serviços analíticos e de ML, como Redshift, Athena, AWS Glue e EMR for Apache Spark. Isso reduz os esforços de configuração de políticas em diversos serviços e oferece aplicação e conformidade consistentes.

Forneça acesso de autoatendimento aos dados

Com o Lake Formation, você cria um catálogo de dados que descreve os diferentes conjuntos de dados disponíveis e quais grupos de usuários têm acesso a cada conjunto. Isso aumenta a produtividade dos usuários, ajudando-os a encontrar os conjuntos de dados corretos para as análises. Com o catálogo de dados e a aplicação consistente de segurança, o Lake Formation permite que analistas e cientistas de dados usem seus serviços de análises preferidos com mais facilidade. Eles podem usar o EMR for Apache Spark, o Redshift, o Athena, o AWS Glue ou o Amazon QuickSight em conjuntos de dados diversificados, agora hospedados em um único data lake. Os usuários também podem combinar esses serviços sem necessidade de mover dados entre silos.

Como funciona

Como funciona

O Lake Formation ajuda a criar, proteger e gerenciar data lakes. Primeiro, identifique datastores existentes no S3 ou bancos de dados relacionais e NoSQL e mova os dados para o data lake. Em seguida, examine, catalogue e prepare os dados para análise. Em seguida, permita que os usuários acessem os dados por meio de autoatendimento seguro usando seus serviços de análises preferidos. Outros serviços da AWS e aplicações de terceiros também podem acessar os dados por meio dos serviços mencionados. O Lake Formation gerencia todas as tarefas mostradas na caixa laranja e é integrado aos armazenamentos de dados e serviços das caixas azuis.

Casos de uso

Construa data lakes com rapidez

Use esquemas em Lake Formation para mover, armazenar, catalogar, limpar e organizar seus dados mais rapidamente. Converta dados em formatos como Parquet e ORC para análises mais rápidas e use ML integrado para eliminar a duplicação e encontrar registros correspondentes. Simplifique a forma como você armazena e mantém seus dados usando Governed Tables, um novo tipo de tabela do Amazon S3. Governed Tables usam transações ACID (atômicas, consistentes, isoladas e duráveis), que gerenciam conflitos automaticamente e garantem visualizações de dados consistentes para todos os usuários. Governed Tables também monitoram e otimizam automaticamente seus dados para melhorar a performance do mecanismo ao consultar as Governed Tables.

Defina e gerencie centralmente os controles de acesso

O Lake Formation fornece um único lugar para definir, classificar, etiquetar e gerenciar permissões refinadas para dados no Amazon S3. Você pode definir uma lista hierárquica de etiquetas, atribuir etiquetas a bancos de dados, tabelas e colunas e configurar a segurança em nível de coluna e célula.

Aplique a classificação de dados e acesso refinado

O Lake Formation impõe políticas sem a necessidade de configurar controles de acesso a dados em cada serviço de consumo. O Lake Formation filtra automaticamente os dados e só revela os dados permitidos pela política definida para usuários autorizados, sem a necessidade de duplicar os dados.

Habilite o gerenciamento contínuo de dados, viagens no tempo e otimização de armazenamento

Aumente a confiabilidade e do data lake para atualizar lotes e transmissão de dados. Consultar versões de dados históricos e auditar dados alterados. Compactar pequenos arquivos automaticamente e habilitar filtros push-down para reduzir as varreduras de dados e melhorar a performance das consultas.

Habilite data lakes federados com compartilhamento entre contas

Forneça produtos de dados descentralizados e orientados para o domínio em toda a organização, usando o compartilhamento de dados bem administrado com mínima ou nenhuma movimentação de dados.

Consulte “O que é um data lake?” para obter mais informações.

Clientes

Nu Skin

A Nu Skin Enterprises é uma empresa global de venda direta que distribui mais de 200 produtos antienvelhecimento de altíssima qualidade nas categorias de cuidados pessoais e suplementos nutricionais.

“Fomos desafiados com a expansão da capacidade e a escalabilidade da taxa de transferência de nossos sistemas de análise existentes. Nossos dados foram distribuídos entre vários bancos de dados desconectados e soluções SaaS, tornando difícil analisar os dados em escala e restringindo o acesso a dados confidenciais. Para superar esse desafio, criamos uma solução de data lake na AWS. Isso nos permitiu agregar dados de vários silos de dados no Amazon S3 em que catalogamos e protegemos todos os dados usando o AWS Lake Formation. Sem o AWS Lake Formation, teria sido impossível alcançar a meta de uma camada de segurança escalável e fácil de usar para todos os dados no Amazon S3. Foi fácil configurar e aplicar controles de acesso detalhados com base em usuários.”

Joe Sueper, vice-presidente de arquitetura corporativa, Tecnologia global, da Nu Skin Enterprises

Panasonic

A Panasonic Avionics Corporation é a maior fornecedora mundial de sistemas de entretenimento e comunicação a bordo.

“Queríamos criar uma plataforma de dados com a capacidade de gerenciar as configurações de segurança de todos os diferentes aplicativos em nosso ambiente. Com o AWS Lake Formation, agora podemos definir políticas uma vez e aplicá-las da mesma maneira e em todos os lugares nos vários serviços que utilizamos, incluindo o AWS Glue e o Amazon Athena. O nível aprimorado de controle nos proporciona acesso seguro a dados e metadados de colunas e tabelas, não apenas para objetos em massa, o que é parte importante de nosso padrão de segurança e governança de dados.”

Anand Desikan, diretor de serviços de nuvem e dados, Panasonic Avionics

Accenture

A Accenture é uma das principais empresas globais de serviços profissionais e oferece uma ampla variedade de serviços e soluções digitais de estratégia, consultoria, tecnologia e operações.

“Eu me concentro em ajudar os clientes em sua jornada de “dados na nuvem”. Com relação a isso, vimos que as organizações estão lidando com uma falta de dados confiáveis quando precisam executar análise em dados provenientes de várias fontes. A limpeza de dados é uma etapa essencial na análise de dados e pode afetar muito o resultado dos negócios e a tomada de decisões. Os novos recursos do AWS Lake Formation foram extremamente benéficos para resolver o desafio da veracidade dos dados e proteger o acesso ao data lake. Descobrimos ser muito útil usar as técnicas avançadas de machine learning para preparação de dados a fim de encontrar registros correspondentes, limpar e desduplicar dados de diferentes fontes de dados. Isso ajudará a reduzir o tempo, o esforço e o custo, ao mesmo tempo que melhorará a qualidade e a precisão dos dados nos datalakes de um cliente.”

Namrata Maheshwary, arquiteta sênior do Grupo de Negócios de Dados, Accenture

Zalando

Zalando é a plataforma on-line líder da Europa em moda e estilo de vida.

“No papel de empresa de tecnologia mais moderna da Europa, trabalhamos arduamente para buscar soluções digitais para cada aspecto da jornada de moda. O AWS Lake Formation nos deu um ponto central escalável de controle para acesso a dados por meio do Amazon Redshift, que não só simplificou o processo, mas o melhorou por meio de controle granular sobre como nossos dados estão sendo utilizados. Agora, podemos detectar, acessar e analisar dados em nosso data lake com nossas ferramentas preferidas, e aproveitá-los para inteligência comercial e ciência de dados. Esse fluxo de trabalho simplificado ajuda nossos executivos a tomar as decisões certas em tempo e fomenta a inovação por meio do machine learning.”

Alberto Miorin, líder de engenharia, Zalando SE

Life360

A Life360 é a líder mundial em serviço de tranquilidade para famílias. O aplicativo da Life360 aproxima as famílias com recursos inteligentes projetados para proteger e conectar as pessoas que mais importam.

“Queríamos usar o AWS Lake Formation para criar nosso data lake e oferecer suporte a dados em séries temporais baseados em localização, e facilita muito o carregamento de dados. Os esquemas pré-fabricados ajudaram a obter dados no data lake sem que nossa equipe de engenharia de dados precisasse escrever códigos desde o princípio, podendo se concentrar em operacionalizar a ingestão e não em reinventar a roda. Com o AWS Lake Formation, conseguimos desbloquear rapidamente os dados disponíveis no Amazon S3 e disponibilizá-los para análise em um amplo espectro dos serviços de dados da AWS. Os dados permanecem no lugar no Amazon S3, e podemos analisá-los de várias maneiras diferentes e mantemos o controle sobre eles.”

Richard Chennault, chefe de serviços de nuvem e dados da Life360, Inc.

Change Healthcare

A Change Healthcare é uma empresa independente líder em tecnologia de saúde que fornece soluções voltadas a dados e análises que alcançam cerca de 2.100 conexões pagantes governamentais e comerciais, 5.500 hospitais, 900.000 médicos e 33.000 farmácias.

“Processamos dados de milhões de transações diárias, mantendo a conformidade com os regulamentos do setor de saúde, incluindo a HIPAA. Estamos muito entusiasmados com o lançamento do AWS Lake Formation, que oferece um ponto de controle centralizado para carregar, limpar, proteger e catalogar facilmente dados de milhares de clientes em nosso data lake baseado na AWS, reduzindo drasticamente nossa carga operacional. Os controles de acesso a dados no Lake Formation facilitam a definição de nossas políticas uma única vez e sua aplicação em todos os serviços de análise e machine learning que utilizamos, com registros de auditoria para demonstrar a conformidade.”

Aaron Symanski, diretor de tecnologia da Change Healthcare

Fender Digital

A Fender Digital, que faz parte da Fender, a icônica marca de guitarras, produz aplicações, sites, plataformas e ferramentas para complementar as guitarras, os amplificadores e os equipamentos de áudio fabricados pela marca.

“Geramos uma enorme quantidade de dados de usuário e utilização de nossas aplicações e dispositivos digitais. Estamos planejando criar um data lake na AWS para operar em conjunto com nosso data warehouse baseado no Amazon Redshift. Estou ansioso para que a minha equipe possa usar o AWS Lake Formation. O Lake Formation facilita a carga, a transformação e a catalogação de dados e sua disponibilização segura para a organização em um amplo portfólio de serviços da AWS. Com uma opção de nível empresarial como o Lake Formation, poderemos dedicar mais tempo à obtenção de valor dos nossos dados em vez do trabalho pesado envolvido na configuração e gerenciamento manuais do data lake.”

Joshua Couch, vice-presidente de engenharia da Fender Digital

Cloudreach

Supercarregada pela plataforma de software de migração e gerenciamento Cloudamize, a Cloudreach traz simplicidade e absoluta confiança a tomada de decisões orientadas por dados.

“O AWS Lake Formation está democratizando o data lake e criando um ponto de aceleração para a estratégia de dados empresariais. O AWS Lake Formation centraliza a segurança e a governança de serviços, simplificando o gerenciamento e reduzindo a sobrecarga operacional. Acelerando o processo de integrar dados do isolamento em toda a empresa, outras iniciativas de dados, como o machine learning, começam a gerar maior valor empresarial.”

Kevin Davis, CTO de prática da AWS, Cloudreach

Amgen

Amgen é a maior empresa de biotecnologia independente do mundo.

“Na Amgen, somos usuários pesados do Amazon Redshift e de clusters do Amazon EMR por mais de três anos. Configurar os controles de segurança e acesso para cada conta, serviço, usuário e conjunto de dados da AWS no nível de detalhe que era necessário podia ser trabalhoso. O AWS Lake Formation simplifica o processo com um ponto de controle central ao mesmo tempo que nos permite gerenciar quem está usando nossos dados, e de que maneira, com mais detalhes. O AWS Lake Formation nos permite gerenciar permissões sobre objetos do Amazon S3 como se gerenciássemos permissões sobre dados em um banco de dados. Nossos usuários poderão encontrar, acessar e analisar os dados de que precisam com as ferramentas que preferirem. Esse novo fluxo de trabalho pode tornar todos mais produtivos ao usar dados da Amgen.”

Kerby Johnson, proprietário de produto do Enterprise Data Lake, Amgen

Alcon

Alcon é líder em inovação e desenvolvimento de produtos para visão e cuidados com os olhos que mudam a vida das pessoas.

“Da mesma maneira que muitas empresas, começamos nossa iniciativa em data lake para pararmos de ter silos de dados inacessíveis. Com o AWS Lake Formation, podemos rapidamente adicionar o acesso a buckets do Amazon S3 existentes e definir seu conteúdo e como ele pode ser usado. Os dados permanecem no lugar no S3, mas temos pleno controle sobre eles para outros usos.”

Srinivas Ravilisetty, líder de análise de TI, Alcon

Quantiphi

A Quantiphi é uma empresa de software e serviços de inteligência artificial e big data motivada pelo desejo de resolver problemas empresariais complexos. A Quantiphi é especializada em criar data lakes e soluções de IA para clientes para gerar valor quantificável.

“O AWS Lake Formation nos permite gerar um data lake seguro com acesso a dados relevantes em poucos dias. Agora, temos a capacidade de gerar o melhor dos dois mundos para nossos clientes: segurança plena e acesso simplificado a dados relevantes para que os usuários deles tomem decisões facilmente. Nossos clientes podem se concentrar em tomar decisões de negócios mais inteligentes orientadas por análise aproveitando uma poderosa fonte de dados centralizada.”

Arnav Gupta, líder de prática da AWS, Quantiphi

Curvo Labs

A Curvo é uma empresa de software como serviço dedicada à cadeia de suprimentos na área de saúde. Com conhecimento profundo de domínio e práticas ágeis de desenvolvimento, a empresa cria a análise, o fluxo de trabalho e a automação para agilizar e facilitar o gerenciamento de gastos com saúde.

“A normatização de dados é uma etapa importante para garantir melhores resultados ao paciente, por meio de transparência nos dados de definição de preço como referência de produtos clínicos e médicos. Usando transformações de ML no AWS Lake Formation, agora processamos os conjuntos de dados em quatro horas, em vez de em uma semana, e nosso grau de precisão aumentou em quase 100%. Essa velocidade e precisão permitem que nossos clientes no setor de saúde respondam rapidamente às mudanças de mercado, o que significa um atendimento mais viável financeiramente, sem prejuízo dos resultados dos pacientes. Entregamos a eles em um dia o que os concorrentes entregam em quatro a seis semanas.”

Nic Sagez, CTO, Curvo

Novidades

data
  • data
1
Standard Product Icons (Features) Squid Ink
Saiba mais sobre os recursos do AWS Lake Formation

Saiba mais sobre os recursos do AWS Lake Formation visitando a página de recursos.

Saiba mais 
Sign up for a free account
Cadastrar-se em uma conta

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastrar-se 
Standard Product Icons (Start Building) Squid Ink
Comece a criar no console

Comece a criar com o AWS Lake Formation no Console de Gerenciamento da AWS.

Faça login