Ferramentas de governança de dados na Amazon Web Services

Por Andres Palacios, Especialista Analítico para a região latino-americana na AWS
Ariel Kirsman, Criador de Soluções na nuvem da AWS

12 de setembro de 2022: Este blogpost foi atualizado para refletir o novo nome do AWS Single Sign-On (SSO) – AWS IAM Identity Center. Leia mais sobre a mudança de nome aqui.

Muitas organizações, mais cedo ou mais tarde, iniciam um processo de governança de dados. Às vezes eles fazem isso de forma reativa, observando que para alguns de seus indicadores mais básicos, como por exemplo “vendas por mês”, possuem mais de uma “verdade” de diferentes áreas; e às vezes de forma proativa, buscando alinhar práticas que já seguem algum modelo mais formal que lhes permita evoluir.

Para ambos os casos, as dimensões do modelo de governança de dados do DAMA (Global Data Management Community) fornecem uma estrutura de referência que permite que as organizações concentrem seus esforços para governar os dados ao longo de seu ciclo de vida.

No entanto, as recomendações das dimensões da DAMA devem ser implementadas, materializadas no dia-a-dia para que elas produzam os resultados esperados.

O objetivo deste artigo é explicar como os serviços da Amazon Web Services permitem implementar na prática os requisitos do modelo de governança de dados DAMA. Para estruturar a explicação, vamos seguir as dimensões definidas pelo modelo:

Definindo “Governança de Dados”

Existem muitas definições do conceito de governança de dados. No entanto, tomaremos as áreas definidas pela estrutura DAMA-DMBOK2, que são as 11 Áreas de Conhecimento de Gestão de Dados. DAMA define o Governo de Dados como “o exercício de autoridade, controle e tomada de decisão compartilhada (planejamento, monitoramento e execução) sobre a gestão de ativos de dados”.

Nas seções a seguir, serão definidas a relação entre cada área do DAMA e os serviços, soluções e práticas da AWS que suportam a execução de recomendações para cada domínio.

Arquitetura de dados

“A estrutura geral de dados e recursos relacionados a dados como parte integrante da arquitetura corporativa”

O AWS Glue Data Catalog detecta dados e armazena metadados associados a eles, como definição de tabela e esquema. É um serviço gerenciado que permite armazenar, anotar e compartilhar metadados na AWS da mesma forma que faria com o Apache Hive Metastore. Uma vez catalogados, seus dados ficam imediatamente acessíveis para serem consultados por ferramentas de pesquisa e utilizáveis a partir de processos ETL (Extract, Transform, Load).

Modelagem e design de dados

“A modelagem de dados é o processo de descoberta, análise e determinação do escopo dos requisitos de dados e, em seguida, sua representação e comunicação de uma maneira precisa chamada de modelo de dados.”

Do ponto de vista físico, lógico e conceitual, o Glue Data Catalog permite catalogar e modelar os dados que a organização deseja descobrir e expor em seu modelo de dados. Além disso, como será explicado abaixo, ele permite a rotulagem dos dados para aumentar sua semântica.

Armazenamento e operações de dados

“Implementação e gestão do armazenamento de ativos de dados físicos estruturados (conhecido como Operação de Dados na primeira edição do DAMA-DMBOK)”

Serviços de banco de dados: A AWS tem vários serviços de banco de dados gerenciados projetados para necessidades específicas: relacional, chave-valor, in-memory e muito mais. Alguns destes serviços são: Amazon RDS, Amazon DynamoDB, Amazon ElastiCache, Amazon Neptune, Amazon Redshift, Amazon QLDB, Amazon DocumentDB e Amazon Keyspaces (for Apache Cassandra).
Serviços relacionados ao conceito de Data Lake:O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos que oferece os melhores padrões em escalabilidade, disponibilidade, segurança e desempenho. Muitos outros serviços permitem que você crie e opere com eficiência um Data Lake na AWS.

Segurança de dados

“Garantir privacidade, confidencialidade e acesso adequado [aos dados]”

Acesso granular a dados: OAWS Lake Formation permite definir centralmente políticas de segurança, governança e auditoria. Permite que os gerenciadores de dados concedam e revoguem permissões granulares em nível de tabela e coluna em tabelas do Catálogo de Dados do Glue e buckets do S3.
Criptografia de dados: O AWS KMSpermite que você crie e gerencie chaves criptográficas e controle seu uso a partir de uma vasta lista de serviços e aplicativos da AWS. O AWS KMS é um serviço robusto e seguro que usa módulos de segurança de hardware (HSM) validados sob FIPS 140-2 ou que estão em processo de validação. O AWS CloudHSM permite que os clientes gerenciem suas chaves de criptografia usando HSMs validados sob FIPS 140-2 Nível 3, oferecendo a flexibilidade de integração com aplicativos usando interfaces padrão do setor, como PKCS #11, Java Cryptography Extensions (JCE) e bibliotecas da Microsoft CrypTong (CNG).
Detecção de dados confidenciais: O Amazon Macieé um serviço de segurança que usa Machine Learning para descobrir, classificar e proteger dados confidenciais na AWS. O Amazon Macie reconhece dados confidenciais, como informações de identificação pessoal (PII) ou propriedade intelectual, e fornece gráficos e alertas para visualizar como esses dados são acessados e movidos.
Gerenciamento de Identidades: O AWS Identity and Access Management (IAM) permite que os clientes gerenciem o acesso a seus serviços e recursos na nuvem AWS. Usando o IAM, você pode criar usuários e grupos e usar permissões para permitir ou negar acesso a recursos que o cliente tem na AWS.
Autenticação do usuário: O AWS IAM Identity Center (sucessor do AWS Single Sign-On) permite o gerenciamento centralizado do acesso do usuário a várias contas e aplicativos de negócios da AWS usando um único conjunto de credenciais.

Integração de dados e interoperabilidade

“Aquisição, extração, transformação, movimentação, entrega, replicação, federação, virtualização e suporte operacional (nova área de conhecimento no DMBOK2)”

Migração e transferência de dados
- De bancos de dados: AWS Database Migration Service, Blueprints e workflows do Lake Formation
- De arquivos: AWS DataSync, AWS Transfer para SFTP, AWS Snowball
- De streams de dados: Amazon Kinesis Data Streams, Amazon Kinesis Data Firehose
- De fontes de terceiros: AWS Data Exchange
Orquestração e gerenciamento de fluxos de dados:
- AWS Step Functions:Máquina de estado serverless que permite gerenciar fluxos em diferentes serviços da AWS.
- Fluxos de trabalho do AWS Glue:uma ferramenta de arrastar e soltar que permite criação e gerenciamento de fluxos de trabalho complexos (workflows) de jobs do AWS Glue.

Gerenciamento de documentos e conteúdo

“Armazenamento, proteção, indexação e acesso a dados encontrados em fontes não estruturadas (arquivos eletrônicos e registros físicos), disponibilizando esses dados para integração e interoperabilidade com dados estruturados (bancos de dados)”

Armazenamento: Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB, Amazon DocumentDB. Esses serviços permitem armazenar e obter documentos e conteúdo com alto desempenho em um modo chave/valor.
Pesquisar: O Amazon CloudSearch e o Amazon Elasticsearch Servicepermitem a indexação e pesquisa de conteúdo de forma massiva e flexível, atendendo a vários requisitos de pesquisa de texto. O Amazon Kendra também é uma opção apropriada, permitindo que você melhore a relevância por meio do uso de algoritmos de machine learning. Ele fornece recursos avançados de pesquisa em linguagem natural, para que seus usuários finais possam encontrar com maior facilidade as informações de que precisam no grande volume de conteúdo gerado pela sua empresa.

Dados mestres e de referências

“Gerenciando dados compartilhados para reduzir a redundância e garantir uma melhor qualidade de dados por meio da definição padronizada e do uso de valores de dados”

Dados de referência: podem ser centralizados no AWS Glue Data Catalog
Deduplicação de registros:usando o AWS Lake Formation FindMatches você pode automatizar a identificação de registros duplicados em seus dados.
Regras de negócios: A AWS oferece uma ampla variedade de serviços para implementação de regras de negócios — por exemplo, o Amazon Simple Workflow Service e o AWS Step Functions permitem que você defina fluxos de trabalho com flexibilidade, combinando vários modelos de execução.

Data Warehousing e Inteligência de Negócios

“Gestão do processamento de dados analíticos e permissão do acesso a dados de suporte para relatórios e análises”

Data warehouse de processamento massivo paralelo: O Amazon Redshift é um data warehouse totalmente gerenciado que permite analisar dados usando ferramentas SQL e de Business Intelligence. Ele permite que consultas analíticas complexas sejam executadas em petabytes de dados estruturados através da otimização consultas massivas paralelas e armazenamento colunar de alto desempenho. O Amazon EMR também é uma opção para implementar esse tipo de processamento paralelo, especialmente por meio de seu suporte para Hive e Presto, serviços otimizados para throughput e latência, respectivamente.
Serviço serverless de consulta interativa: O Amazon Athena é um serviço que permite consultar dados interativamente no Amazon S3 usando SQL padrão. O Athena é serverless — o cliente não precisa gerenciar nenhuma infraestrutura e paga apenas pelas consultas que faz.
Exibindo Dados: O Amazon Quicksight é um serviço de business intelligence que permite criar facilmente visualizações e distribuí-las em toda a sua organização.

Gestão de metadados

“Coleta, categorização, manutenção, integração, controle, gerenciamento e distribuição de metadados”

O AWS Glue Data Catalog é um serviço de armazenamento de metadados que permite descobrir e gerenciar metadados técnicos (por exemplo, formatos, tamanho médio de registro, partições, tipo de compactação) e metadados de negócios (por exemplo, proprietários de dados, descrição de tabelas e colunas)
- Metadados baseados em tags e estratégia de linhagem: o uso de uma plataforma de tags no AWS Glue Data Catalog pode facilitar a rotulagem técnica e comercial e a linhagem de dados para descrever como os dados evoluíram.

Usando o AWS Lambdapara capturar metadados de objetos e o Amazon DynamoDB ou o Amazon Elasticsearch Service como armazenamento para criar um catálogo de dados abrangente com recursos pesquisáveis, conforme mostrado na seguinte arquitetura:

Qualidade de dados

“Definição, monitoramento e manutenção da integridade dos dados e melhoria da qualidade dos dados”

Criação de perfil e correção de dados:
- Criação de perfil de dados: Deequ é uma biblioteca construída com Apache Spark, utilizada para definir “testes unitários para dados” que medem a qualidade dos dados em grandes repositórios.
- Deduplicação de dados — as transformações com machine learning do AWS Lake Formation podem ser usadas para implementar a deduplicação automática de dados.
- Ferramentas de terceiros: por exemplo, o Trifacta na AWS permite a criação de perfis e a preparação de dados usando uma ferramenta visual de autoatendimento, usando o poder de computação distribuído do serviço Amazon EMR.

Conclusão

Neste artigo, descrevemos como a maioria dos serviços da AWS e algumas ferramentas de terceiros podem atender aos requisitos do modelo de governança de dados do DAMA, um modelo que orienta muitas organizações que embarcam em um processo de governança de dados. O resultado final que essas organizações procuram é possuir informações corretas, atualizadas e seguras para dar suporte à tomada de decisões.

Este artigo foi traduzido do Blog da AWS em Espanhol.

Sobre os autores

Andres Palacios é especialista em analytics para a região da América Latina com 10 anos de experiência como consultor e arquiteto analítico para projetos de sistemas descritivos, de diagnósticos e preditivos de apoio na tomada de decisões e pipelines de dados.

Ariel Kirsman trabalha com tecnologia da informação há 25 anos. Ele desempenhou funções de desenvolvimento, teste de software e segurança, principalmente em plataformas Microsoft, e depois se concentrou na criação de soluções na nuvem da AWS.

Sobre os revisores

Daniel Bento é Arquiteto de Soluções Especialista em Analytics na AWS.

Luiz Yanai é Arquiteto de Soluções na AWS.

O blog da AWS