Pular para o conteúdo principal

O que é integridade de dados?

Além de enfatizar a manutenção da integridade dos dados, ela garante que os dados sejam precisos, livres de erros, consistentes e totalmente funcionais durante todo o ciclo de vida. Manter a integridade dos dados em um único armazenamento de dados deve ser gerenciável, independentemente do número de solicitações de acesso e do volume e velocidade dos dados. Ambientes de nuvem modernos exigem movimentação de dados complexa e contínua entre armazenamentos de dados e serviços distribuídos. Os sistemas de processamento de transações on-line (OLTP) de alto throughput exigem verificações rigorosas de integridade de dados para manter a consistência do sistema. Os engenheiros de dados devem implementar verificações de integridade de dados em processos e armazenamentos de dados novos e já existentes, incluindo integração, backups e migrações para a nuvem. Este artigo explora os desafios e as soluções para o gerenciamento da integridade de dados na nuvem.

A integridade dos dados é um processo que mantém a precisão, a consistência e a integridade dos dados durante todo o ciclo de vida. É parte fundamental do controle de qualidade de dados garantir que os dados de uma organização sejam relevantes e confiáveis para processamento de transações, business intelligence e analytics. A integridade dos dados engloba vários métodos e protocolos para validar dados e, ao mesmo tempo, proteger informações confidenciais contra acesso não autorizado.

Por que a integridade dos dados é importante? Ela garante que a confiabilidade dos dados de uma organização seja preservada para registrar atividades financeiras e outras atividades comerciais, bem como para a tomada de decisões. A integridade dos dados é essencial, independentemente das ferramentas e funções que os utilizam e das transformações a que são submetidos.

A integridade dos dados é fundamental nos sistemas de processamento de transações on-line (OLTP), pois garante o processamento preciso das transações comerciais, a consistência nas operações financeiras e ainda evita problemas como dupla contabilização ou perda de transações. Lapsos na integridade dos dados podem resultar em consequências que incluem a não conformidade regulatória e a redução da satisfação do cliente.

Quais são os desafios na manutenção da integridade dos dados?

Para garantir a integridade dos dados em uma organização, é preciso enfrentar os desafios de gerenciamento de dados humanos e relacionados à tecnologia.

Ambientes OLTP

O maior desafio de integridade de dados em ambientes OLTP é gerenciar transações simultâneas e, ao mesmo tempo, manter a consistência dos dados, especialmente durante operações de alto volume. Esse desafio exige o equilíbrio estrito da conformidade em relação à Atomicidade, Consistência, Isolamento e Durabilidade (ACID) com requisitos de desempenho. Neste ponto, vários usuários devem poder modificar simultaneamente os mesmos dados, sem encontrar condições de disputa e impasses, mantendo os recursos de processamento em tempo real do sistema.

Business Intelligence e analytics

Para casos de uso de business intelligence e analytics, a integração limitada entre fontes de dados e sistemas impede que as empresas mantenham uma visão unificada e precisa de seus ativos de dados. Além disso, confiar na entrada e coleta manual de dados pode introduzir erros de digitação, omissões e inconsistências que comprometem a precisão dos dados.

Auditoria e trilhas de dados

Outro desafio é a ausência de trilhas de auditoria adequadas, dificultando o rastreamento do histórico de dados desde a coleta até a exclusão. As organizações correm o risco de perder a visibilidade em decorrência de modificações de dados não autorizadas. Os sistemas legados complicam ainda mais a integridade dos dados devido a formatos de arquivo desatualizados ou que não têm funções essenciais de validação. A transferência de dados para a nuvem permite a implementação de mecanismos de qualidade de dados mais centralizados e reduz o tempo e o esforço necessários para verificações de integridade de dados.

Como os dados são protegidos na nuvem?

A integridade dos dados pode ser dividida em dois grandes tipos.

Integridade física

Os processos de integridade física protegem os dados contra danos e corrupção causados por desastres naturais, quedas de energia, falhas de hardware ou outros fatores que afetam os dispositivos de armazenamento físico. Na nuvem, a integridade física é gerenciada automaticamente pelo provedor de nuvem. Essa é a responsabilidade do provedor de nuvem conforme o Modelo de responsabilidade compartilhada.

Por exemplo, os datacenters da AWS fornecem uma infraestrutura de segurança de dados de quatro camadas para os dispositivos físicos que armazenam seus dados. Os recursos de segurança de dados incluem:

  • Controles de acesso rígidos com acesso à sala do servidor protegido por autenticação multifator e controles eletrônicos.
  • Medidas de prevenção contra intrusões, como detecção automática de remoção não autorizada de dados.
  • Gerenciamento seguro de dispositivos de armazenamento, desde a instalação e o provisionamento até a desinstalação e a desativação.
  • Auditorias rigorosas de terceiros em mais de 2.600 requisitos de segurança, incluindo inspeções de equipamentos.

Integridade lógica

Os processos de integridade lógica garantem que os dados atendam às regras básicas do sistema de armazenamento em que residem. A integridade lógica pode ser ainda classificada em quatro subtipos:

  • A integridade do domínio garante a precisão dos dados ao restringir valores dentro de um intervalo, formato ou conjunto predefinido específico (por exemplo, usando tipos de dados e outras restrições de dados semelhantes).
  • A integridade da entidade garante que os registros de dados individuais possam ser identificados de forma exclusiva por meio de mecanismos como uma chave primária, evitando valores duplicados ou nulos nos campos-chave.
  • A integridade referencial mantém relações consistentes entre tabelas ao impor restrições de chave estrangeira para evitar registros de dados isolados.
  • A integridade definida pelo usuário implementa regras específicas de negócios além das restrições padrão, como lógica de validação personalizada ou imposição em nível de aplicação.

O usuário da nuvem é responsável por implementar restrições lógicas de integridade e garantir a qualidade dos dados. Essa é a responsabilidade do cliente conforme o Modelo de responsabilidade compartilhada.

No entanto, os serviços de dados da AWS fornecem vários mecanismos que prestam suporte para a verificação da integridade dos dados, como algoritmos de soma de verificação, ferramentas de monitoramento da qualidade dos dados e verificações automatizadas da integridade dos dados durante backups e sincronização de dados.

Os serviços gerenciados podem fornecer barreiras automáticas e configuráveis para a integridade de seus dados. Nos sistemas e bancos de dados OLTP, os processos de integridade lógica ajudam a manter cada transação Atômica, Consistente, Isolada e Durável.

Como garantir a integridade dos dados na nuvem?

Considere as medidas de implementação da integridade lógica na Nuvem AWS a seguir.

Implementação da integridade dos dados do objeto

A maioria das operações de dados na nuvem começa com os buckets do Amazon S3, que podem armazenar qualquer tipo de dados como objetos. É possível mover dados com frequência entre buckets, bancos de dados e outros serviços em nuvem ou armazenamento local do Amazon S3. O Amazon S3 fornece mecanismos de soma de verificação integrados para reduzir os riscos de integridade de dados durante uploads, downloads e cópias.

Uma soma de verificação é um valor exclusivo de tamanho fixo gerado a partir de dados usando um algoritmo específico. Esse mecanismo cria uma impressão digital exclusiva, permitindo que os sistemas detectem dados corrompidos ou modificações não intencionais. Ao copiar objetos, o Amazon S3 calcula a soma de verificação do objeto de origem e a aplica ao objeto de destino. Um alerta é gerado em caso de incompatibilidade. O Amazon S3 oferece suporte a somas de verificação de todo o objeto e somas de verificação compostas para uploads de várias partes. As somas de verificação de todo o objeto abrangem todo o arquivo, enquanto as somas de verificação compostas agregam somas de verificação individuais por partes.

Use a funcionalidade de soma de verificação conforme explicado abaixo.

Uploads

O Amazon S3 é compatível com vários algoritmos de hash seguros (SHA) e algoritmos de verificação de redundância cíclica (CRC), incluindo CRC-64/NVME, CRC-32, CRC-32C, SHA-1 e SHA-256. Se estiver usando o Console de Gerenciamento da AWS, selecione o algoritmo de soma de verificação durante o upload. Se nenhuma soma de verificação for especificada, o Amazon S3 assumirá como padrão o algoritmo CRC-64/NVME.

Downloads

Ao baixar objetos, solicite o valor da soma de verificação armazenado para verificar a integridade dos dados. Dependendo da situação do upload (concluído ou em andamento), recupere os valores da soma de verificação usando as operações GetObject, HeadObject ou ListParts.

Cópia

Se um objeto for copiado usando a operação CopyObject, o Amazon S3 gerará uma soma de verificação direta para todo o objeto. Se o objeto foi carregado inicialmente como um upload de várias partes, seu valor de soma de verificação mudará após a cópia, mesmo que os dados permaneçam inalterados.

Implementação da integridade do pipeline de dados

Outro caso de uso comum é mover dados para data lakes, armazéns ou serviços de banco de dados gerenciados na nuvem. A configuração de verificações de integridade dos dados nesses pipelines é suscetível a erros, trabalhosa e consome muito tempo. É preciso escrever manualmente o código de monitoramento e as regras de qualidade de dados que alertarão os consumidores de dados quando a qualidade dos dados é deteriorada.

Durante a migração

O AWS Database Migration Service (DMS) protege a integridade dos dados durante migrações para bancos de dados da Nuvem AWS por meio de várias proteções e mecanismos de validação integrados. O DMS realiza uma validação automática para comparar os dados de origem e de destino, identificando e resolvendo discrepâncias por meio da ressincronização de dados.

O DMS inclui recursos de ponto de verificação e recuperação que permitem que as migrações sejam retomadas do último estado válido conhecido em caso de interrupções, ao mesmo tempo em que fornece recursos abrangentes de monitoramento e registro para acompanhar o progresso da migração. Além disso, o DMS garante a segurança dos dados por meio da criptografia SSL para dados em trânsito e da integração com os serviços de segurança da AWS.

Infraestrutura de banco de dados

Os bancos de dados da AWS protegem a integridade dos dados por meio de vários mecanismos e recursos abrangentes, incluindo backups automatizados e implantações Multi-AZ que garantem a durabilidade e a consistência dos dados. Esses bancos de dados reforçam a integridade referencial por meio de restrições incorporadas, mantêm a conformidade com as propriedades ACID para garantir a consistência transacional e fornecem recursos de recuperação pontuais. Os serviços gerenciados de banco de dados, como o Amazon Relational Database Service (RDS) e o Amazon Aurora, permitem que você defina controles específicos para a integridade dos dados. Por exemplo, o Aurora permite a definição de diferentes níveis de isolamento de transações no banco de dados OLTP.

Para mais proteção, os bancos de dados da AWS prestam suporte à recuperação de desastres por meio de implantações em várias regiões, replicando dados em regiões geograficamente distribuídas. A integração com o Amazon CloudWatch ajuda a identificar e resolver possíveis problemas de integridade de dados antes que eles afetem as operações.

Integração de dados

O AWS Glue é um serviço de integração de dados sem servidor para preparar e combinar dados na nuvem da AWS. O recurso AWS Glue Data Quality reduz o trabalho manual de validação de dados de dias para horas. Ele recomenda automaticamente regras de qualidade, calcula estatísticas e monitora e alerta o usuário quando detecta dados incorretos ou incompletos. Esse serviço funciona com a linguagem de definição de qualidade de dados (DQDL), uma linguagem específica de domínio usada para definir regras de integridade de dados.

Ao coletar dados de sistemas OLTP para uso em análises, é possível usar os pipelines do AWS Glue para enviar dados de bancos de dados para serviços de analytics.

É possível publicar ainda mais métricas no Amazon CloudWatch para monitoramento e criação de alertas.

Implementação da integridade do backup de dados

Grandes projetos corporativos podem ter equipes diversas fazendo backups de dados e acessando lojas do Amazon S3 de diversos locais. A governança de dados se torna um desafio nessas operações de backup de dados distribuídos. Observe que os bancos de dados da AWS contam com recursos de backup integrados.

O AWS Backup é um serviço totalmente gerenciado que centraliza e automatiza a proteção de dados em serviços da AWS como o Amazon Simple Storage Service (S3), o Amazon Elastic Compute Cloud (EC2), o Amazon FSx e workloads híbridas no VMware. É possível implantar centralmente políticas de proteção de dados para governar, gerenciar e configurar suas atividades de backup em todos os recursos e contas da AWS.

O AWS Backup foi projetado para manter a integridade dos dados em todo o ciclo de vida dos dados, desde a transmissão e o armazenamento até o processamento. Esse serviço aplica medidas de segurança rigorosas a todos os dados armazenados, independentemente do tipo, garantindo alta proteção contra o acesso não autorizado aos dados. É possível manter o controle total sobre a classificação dos dados, os locais de armazenamento e as políticas de segurança, permitindo o gerenciamento, arquivamento e proteção dos dados de acordo com as necessidades.

O AWS Backup colabora com outros serviços da AWS para preservar a integridade dos dados usando vários mecanismos. Isso inclui:

  • Validação contínua da soma de verificação para evitar corrupção de dados.
  • Somas de verificação internas para analisar a integridade dos dados em trânsito e em repouso.
  • Restauração automática da redundância em caso de falhas no disco.

Os dados são armazenados de forma redundante em vários locais físicos, e as verificações no nível da rede também ajudam a detectar corrupção de dados durante as transferências.

Como a AWS pode ajudar a manter a integridade dos dados?

A integridade dos dados também melhora a confiança em analytics, presta suporte à conformidade e garante que os dados permaneçam valiosos durante todo o ciclo de vida. No entanto, para implantações on-premises, garantir a integridade de dados é desafiador e caro, e pode resultar em horas perdidas devido ao trabalho manual, distribuído e redundante.

As tecnologias de nuvem centralizam o processo e fazem a maior parte do trabalho pesado. Várias verificações de integridade física e lógica são incorporadas por padrão. Os mecanismos de automação geram automaticamente as regras de software necessárias para alcançar a integridade de dados. Engenheiros de dados precisam apenas definir as configurações ou revisar o trabalho realizado por mecanismos automatizados. A integridade de dados permite que os sistemas de processamento de transações on-line (OLTP) mantenham uma precisão perfeita ao lidar com transações de alto volume e em tempo real, o que é essencial para operações e práticas comerciais confiáveis.

Comece criando uma conta gratuita na nuvem hoje mesmo.