O blog da AWS

Ferramentas de governança de dados na Amazon Web Services

Por Andres Palacios, Especialista Analítico para a região latino-americana na AWS
Ariel Kirsman, Criador de Soluções na nuvem da AWS

 

Muitas organizações, mais cedo ou mais tarde, tratam de um processo de governança de dados. Às vezes eles fazem isso de forma reativa, alertando que para alguns de seus indicadores mais básicos, por exemplo, “vendas por mês” têm mais de uma “verdade” de diferentes áreas; e às vezes proativamente, buscando alinhar práticas que já seguem algum modelo mais formal que lhes permita evoluir.

Para ambos os casos, o modelo de governança de dados DAMA (Global Data Management Community) especificamente, as dimensões DAMA, fornecem uma estrutura de referência que permite que as organizações concentrem seus esforços para governar os dados ao longo de seu ciclo de vida.

No entanto, as recomendações das dimensões da DAMA devem ser implementadas, materializadas no dia-a-dia para que elas produzam os resultados esperados.

O objetivo deste artigo é explicar como os serviços da Amazon Web Services permitem implementar na prática os requisitos do modelo de governança de dados DAMA. Para estruturar a explicação, vamos fazê-lo seguindo as dimensões definidas pelo modelo:

 

Mapeamento de soluções vs dimensões da DAMA

 

Definindo “Governança de Dados”

Existem muitas definições do conceito de governança de dados. No entanto, tomaremos as áreas definidas pela estrutura DAMA-DMBOK2, que são as 11 Áreas de Conhecimento de Gestão de Dados. DAMA define o Governo de Dados como “o exercício de autoridade, controle e tomada de decisão compartilhada (planejamento, monitoramento e execução) sobre a gestão de ativos de dados”.

Nas seções a seguir, definiremos a relação entre cada área DAMA e os serviços, soluções e práticas da AWS que suportam a execução de recomendações para cada domínio.

 

Arquitetura de dados

“ A estrutura geral de dados e recursos relacionados a dados como parte integrante da arquitetura corporativa” 

 

  • O AWS Glue Data Catalog detecta dados e armazena metadados associados a eles, como definição de tabela e esquema. É um serviço gerenciado que permite armazenar, anotar e compartilhar metadados na AWS da mesma forma que faria com um metastore do Apache Hive. Uma vez catalogados, seus dados ficam imediatamente acessíveis para serem consultados por ferramentas de pesquisa e utilizáveis a partir de processos ETL (Extract, Transform, Load).

 

Modelagem e design de dados

“ A modelagem de dados é o processo de descoberta, análise e determinação do escopo dos requisitos de dados e, em seguida, sua representação e comunicação de uma maneira precisa chamada de modelo de dados.”

 

  • Do ponto de vista físico, lógico e conceitual, o Glue Data Catalog permite catalogar e modelar os dados que a organização descobre e deseja expor em seu modelo de dados. Além disso, como será explicado abaixo, ele permite a rotulagem dos dados para aumentar sua semântica.

 

Armazenamento e operações de dados

“ Implementação e gestão do armazenamento de ativos de dados físicos estruturados (conhecido como Operação de Dados na primeira edição do DAMA-DMBOK)”

 

  • Serviços de banco de dados: A AWS tem vários serviços de banco de dados gerenciados projetados para necessidades específicas: relacional, chave-valor, in-memory e muito mais. Alguns destes serviços são: Amazon RDS, Amazon DynamoDB, Amazon ElastiCache, Amazon Neptune, Amazon Redshift, Amazon QLDB, Amazon DocumentDB e Amazon Keyspaces.
  • Serviços relacionados ao conceito Data Lake: O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos que oferece os melhores padrões nas áreas de escalabilidade, disponibilidade, segurança e desempenho. Muitos outros serviços adicionais permitem que você crie e opere com eficiência um Data Lake na AWS.

 

Segurança de dados

“ Garantir privacidade, confidencialidade e acesso adequado [aos dados]”

 

  • Acesso granular a dados: O AWS Lake Formation permite definir centralmente políticas de segurança, governança e auditoria. Permite que os gerenciadores de dados concedam e revoguem permissões de forma granular em nível de tabela e coluna em tabelas do Catálogo de Dados do Glue e buckets do S3.
  • Criptografia de dados: O AWS KMS permite que você crie e gerencie chaves criptográficas e controle seu uso a partir de uma longa lista de serviços e aplicativos da AWS. O AWS KMS é um serviço robusto e seguro que usa módulos de segurança de hardware (HSM) validados sob FIPS 140-2 ou que estão em processo de validação. O AWS CloudHSM permite que os clientes gerenciem suas chaves de criptografia usando HSMs validados sob FIPS 140-2 Nível 3, oferecendo a flexibilidade de integração com aplicativos usando interfaces padrão do setor, como PKCS #11, Java Cryptography Extensions (JCE) e bibliotecas da Microsoft CrypTong (CNG).
  • Detecção de dados confidenciais: O Amazon Macie é um serviço de segurança que usa Machine Learning para descobrir, classificar e proteger dados confidenciais na AWS. O Amazon Macie reconhece dados confidenciais, como informações de identificação pessoal (PII) ou propriedade intelectual, e fornece gráficos e alertas para visualizar como esses dados são acessados e movidos.
  • Gerenciamento de Identidades: O AWS Identity and Access Management (IAM) permite que os clientes gerenciem o acesso a seus serviços e recursos na Nuvem AWS. Usando o IAM, você pode criar usuários e grupos e usar permissões para permitir ou negar acesso a recursos que o cliente tem na AWS.
  • Autenticação do usuário: O AWS Single Sign-On (SSO) permite o gerenciamento centralizado do acesso do usuário a várias contas e aplicativos de negócios da AWS usando um único conjunto de credenciais e de um único local.

 

Integração de dados e interoperabilidade

“ Aquisição, extração, transformação, movimento, entrega, replicação, federação, virtualização e suporte operacional (nova área de conhecimento no DMBOK2)”

 

 

Gerenciamento de documentos e conteúdo

“ Armazenamento, proteção, indexação e acesso a dados encontrados em fontes não estruturadas (arquivos eletrônicos e registros físicos), disponibilizando esses dados para integração e interoperabilidade com dados estruturados (bancos de dados)”

 

 

Dados mestre e de referência

“ Gerenciando dados compartilhados para reduzir a redundância e garantir uma melhor qualidade de dados por meio da definição padronizada e do uso de valores de dados”

 

 

Data Warehousing e Business Intelligence

“ Gestão do processamento de dados analíticos e permitir o acesso a dados de suporte para relatórios e análises”

 

  • Data warehouse de processamento paralelo massivo: O Amazon Redshift é um data warehouse totalmente gerenciado que permite analisar dados usando ferramentas SQL e Business Intelligence padrão. Ele permite que consultas analíticas complexas sejam executadas em petabytes de dados estruturados usando otimização sofisticada de consultas, armazenamento colunar de alto desempenho sobre armazenamento e execução de consultas paralelas massivamente. O Amazon EMR também é uma opção para implementar esse tipo de processamento paralelo, especialmente por meio de seu suporte para Hive e Presto, serviços otimizados para taxa de transferência e latência, respectivamente.
  • Serviço de consulta interativa sem servidor: O Amazon Athena é um serviço que permite consultar dados interativamente no Amazon S3 usando SQL padrão. O Athena é sem servidor — o cliente não precisa gerenciar nenhuma infraestrutura e paga apenas pelas consultas que faz.
  • Exibindo Dados: O Amazon Quicksight é um serviço de business intelligence que permite criar facilmente visualizações e distribuí-las em toda a sua organização.

 

Metadados

“ Coleta, categorização, manutenção, integração, controle, gerenciamento e distribuição de metadados”

 

  • O AWS Glue Data Catalog é um serviço de armazenamento de metadados que permite descobrir e gerenciar metadados técnicos (por exemplo, formatos, tamanho médio de registro, partições, tipo de compactação) e metadados de negócios (por exemplo, proprietários de dados, descrição de tabelas e colunas)
    • Metadados baseados em etiquetas e estratégia de linhagem: o uso de uma plataforma de tags no AWS Glue Data Catalog pode facilitar a rotulagem técnica e comercial e a linhagem de dados para descrever como os dados evoluíram.

 

 

 

Qualidade dos dados

“ Definição, monitoramento e manutenção da integridade dos dados e melhoria da qualidade dos dados”

 

  • Criação de perfil e correção de dados:
    • Criação de perfil de dados:  Deequ é uma biblioteca construída no Apache Spark que é usada para definir “testes unitários para dados” que medem a qualidade dos dados em grandes repositórios de dados. Até à data, esta biblioteca só pode ser usada usando Scala sobre Spark.
    • Deduplicação de dados — as transformações de aprendizado de máquina  podem ser usadas para implementar a deduplicação automática de dados.
    • Ferramentas de terceiros: por exemplo, o Trifacta na AWS  permite a criação de perfis e a preparação de dados usando uma ferramenta visual de autoatendimento, usando o poder de computação distribuída do serviço AWS Amazon EMR para Big Data.

 

Opinião

Nesta publicação, descrevemos como a maioria dos serviços da AWS e algumas ferramentas de terceiros podem atender aos requisitos do conhecido modelo de governança de dados da DAMA, um modelo que orienta muitas organizações que embarcam em um processo de governança de dados. O resultado final que essas organizações procuram é possuir informações corretas, atualizadas e seguras para dar suporte à tomada de decisões.

 


Sobre os autores

 

Andres Palacios é especialista analítico para a região latino-americana com 10 anos de experiência como consultor analítico e arquiteto para sistemas descritivos, diagnósticos e projetos preditivos de apoio na tomada de decisões e pipelines de dados.

 

 

 

 

Ariel Kirsman trabalha em tecnologia da informação há 25 anos. Ele desempenhou funções de desenvolvimento, teste de software e segurança, principalmente em plataformas Microsoft, e depois se concentrou na criação de soluções na nuvem da AWS.