- O que é a computação em nuvem?›
- Hub de conceitos de computação em nuvem›
- Analytics›
- Bancos de dados
O que é gerenciamento de dados?
Tópicos da página
- O que é gerenciamento de dados?
- Por que o gerenciamento de dados é importante?
- O que é arquitetura e modelagem de dados?
- Como a governança de dados está relacionada ao gerenciamento de dados?
- O que é gerenciamento de big data?
- O que são sistemas de gerenciamento de dados em nuvem?
- Quais são alguns dos desafios do gerenciamento de dados?
- Quais são algumas das práticas recomendadas de gerenciamento de dados?
- Como a AWS pode ajudar com o gerenciamento de dados?
O que é gerenciamento de dados?
Gerenciamento de dados é o processo de coletar, armazenar, proteger e usar os dados de uma organização. As organizações usam seus dados para apoiar processos operacionais, como processamento de transações e interações com clientes. Elas também precisam integrar seus dados para fins de business intelligence, analytics, IA e tomada de decisões em tempo real. O gerenciamento de dados inclui todas as políticas, ferramentas e procedimentos que melhoram a usabilidade dos dados dentro dos limites das leis e regulamentações.
Por que o gerenciamento de dados é importante?
Os dados são um recurso valioso para as organizações modernas. Com acesso a grandes volumes e diferentes tipos de dados, as organizações investem significativamente na infraestrutura de armazenamento e gerenciamento de dados. As organizações usam sistemas de gerenciamento de dados para automatizar os processos operacionais de negócios e analisar dados para embasar as decisões de negócios. Confira alguns benefícios específicos do gerenciamento de dados.
Eficiência operacional
Os sistemas de gerenciamento de dados ajudam as organizações a processar grandes volumes de transações e dados operacionais de forma eficiente. Eles garantem que as transações sejam capturadas de forma precisa e consistente, minimizando erros nos registros financeiros, nas atualizações de inventário, nas contas de clientes e em outros fluxos de trabalho operacionais. Além do processamento de transações, esses sistemas podem automatizar as operações de negócios rotineiras e fornecer manutenção confiável de registros, oferecendo a consistência necessária para atividades em tempo real. Por meio desses benefícios de eficiência, os sistemas de gerenciamento de dados ajudam as organizações a oferecer experiências perfeitas aos clientes, a manter a confiança e a manter os processos do dia a dia eficientes e escaláveis.
Aumentar a receita e o lucro
As análises de dados fornecem insights mais profundos sobre todos os aspectos de um negócio. Você pode agir com base nesses insights para otimizar as operações de negócios, obter insights que promovam decisões mais embasadas para aumentar a receita e reduzir custos. As análises de dados também podem prever o impacto futuro de decisões, melhorando a tomada de decisões e o planejamento dos negócios. Dessa forma, as organizações passam por um crescimento significativo da receita e dos lucros, aprimorando suas técnicas de gerenciamento de dados.
Reduzir a inconsistência de dados
As inconsistências de dados no processamento de transações podem levar a erros, como registros duplicados, saldos de contas incorretos e inventário incompatível, o que interrompe as operações, mina a confiança do cliente e aumenta os custos de remediação. As inconsistências no data analytics podem resultar de silos de dados.
Um silo de dados é uma coleção de dados brutos dentro de uma organização que somente um departamento ou grupo pode acessar. Silos de dados criam inconsistências que reduzem a confiabilidade dos resultados das análises de dados. As soluções de gerenciamento de dados integram os dados e criam uma visualização de dados centralizada para uma melhor tomada de decisão e uma maior colaboração entre os departamentos.
Atender à conformidade regulatória
Leis como o Regulamento Geral de Proteção de Dados (RGPD) e a Lei de Privacidade do Consumidor da Califórnia (CCPA) foram elaboradas para proteger os dados do cliente. Essas leis de proteção de dados incluem diretrizes que precisam de:
- Consentimento para capturar dados
- Controles rígidos quanto à localização e ao uso de dados
- Armazenamento seguro de dados e exclusão mediante solicitação
Portanto, as organizações precisam de um sistema de gerenciamento de dados que seja preciso e confidencial para ajudar a proteger os dados, mantendo a sua precisão.
O que é arquitetura e modelagem de dados?
A arquitetura e a modelagem de dados são fundamentais para uma estratégia bem-sucedida de gerenciamento de dados.
Arquitetura de dados
A arquitetura de dados é a framework abrangente que descreve e governa a coleta, o gerenciamento e o uso de dados de uma organização. O plano de gerenciamento de dados inclui detalhes técnicos, como bancos de dados operacionais, data lakes, data warehouses e servidores, que são os mais adequados para implementar a estratégia de gerenciamento de dados.
Modelagem de dados
Modelagem de dados é o processo de criação de modelos de dados conceituais e lógicos que visualizam os fluxos de trabalho e as relações entre diferentes tipos de dados. A modelagem de dados geralmente começa representando conceitualmente os dados e, em seguida, representando-os novamente no contexto das tecnologias escolhidas. Profissionais de dados criam vários tipos diferentes de modelos de dados durante o estágio de concepção de dados.
Como a governança de dados está relacionada ao gerenciamento de dados?
A prática de gerenciamento de dados abrange a coleta e a distribuição de dados de alta qualidade, além da governança de dados, para controlar o acesso aos dados.
A governança de dados inclui as políticas e os procedimentos que uma organização implementa para gerenciar a segurança, a integridade e o uso responsável dos dados. Ela define a estratégia de gerenciamento de dados e determina quem pode acessar quais dados. Políticas de governança de dados também estabelecem responsabilidade na forma como equipes e indivíduos acessam e usam os dados. Funções de governança de dados geralmente incluem:
Criação de perfil de dados
A criação de perfil de dados é o processo de diagnóstico de análise de dados para determinar sua estrutura, qualidade e características. Esta é a primeira etapa para entender um conjunto de dados existente, para decidir se ele precisa ser refatorado antes de ser usado.
Linhagem de dados
A linhagem de dados rastreia os fluxos de dados em uma organização. A linhagem de dados com data e hora é usada para determinar onde um dado se originou, como foi usado e quando e como foi transformado. Esse processo de gerenciamento de dados é particularmente importante nos processos de auditoria.
Catálogo de dados
Os catálogos de dados são uma coleção dos ativos de dados da organização e dos metadados relacionados. Ao armazenar todas as informações relacionadas aos dados em um catálogo central, ele se torna o principal registro de dados dentro da organização. Os usuários podem esperar que o catálogo de dados contenha as informações mais atualizadas sobre todos os ativos de dados.
Segurança de dados e controle de acesso
A governança de dados ajuda a impedir o acesso não autorizado aos dados e a proteger os dados contra corrupção. A segurança de dados e o controle de acesso abrangem todos os aspectos da proteção de dados, como os seguintes:
- Evitar a movimentação ou a exclusão acidental dos dados
- Proteger o acesso à rede para reduzir o risco de ataques à rede
- Verificar se os data centers físicos que armazenam os dados atendem aos requisitos de segurança
- Manter os dados seguros, mesmo quando os funcionários os acessam de dispositivos pessoais
- Autenticação do usuário, autorização e configuração e aplicação de permissões de acesso a dados
- Garantir que os dados armazenados estejam em conformidade com as leis do país onde os dados estão armazenados
- Adicionar camadas extras de controles para dados sensíveis
Conformidade de dados
As políticas de conformidade de dados reduzem o risco de multas ou ações regulatórias. Cumprir as leis de conformidade, como o RGDP e a CCPA, é essencial para as operações.
As atividades de conformidade se concentram na modelagem de dados, controles de software e treinamento de funcionários para que a adesão às leis ocorra em todos os níveis. Por exemplo, uma organização colabora com uma equipe de desenvolvimento externa para melhorar seus sistemas de dados. Os gerentes de governança de dados verificam se todos os dados pessoais foram removidos antes de transmiti-los para a equipe externa para uso em testes.
Gerenciamento do ciclo de vida de dados
O gerenciamento do ciclo de vida de dados refere-se ao processo de gerenciar os dados durante todo o seu ciclo de vida.
Por exemplo:
- Os dados devem ser verificados na ingestão e em intervalos regulares
- Os dados devem ser mantidos por períodos específicos para fins de auditoria
- Os dados devem ser apagados quando não forem mais necessários
Gerenciamento da qualidade dos dados
Os usuários de dados esperam que os dados sejam suficientemente confiáveis e consistentes para cada caso de uso.
Gerentes de qualidade de dados medem e melhoram a qualidade dos dados de uma organização. Eles analisam dados novos e existentes e verificam se eles atendem aos padrões. Também podem configurar processos de gerenciamento de dados que impedem a entrada de dados de baixa qualidade no sistema. Os padrões de qualidade de dados geralmente avaliam o seguinte:
- Falta alguma informação importante ou os dados estão completos? (por exemplo, o cliente omite informações importantes de contato)
- Os dados atendem às regras básicas de verificação de dados? (por exemplo, um número de telefone deve ter um determinado número de dígitos)
- Com que frequência os mesmos dados aparecem no sistema? (por exemplo, entradas de dados duplicadas do mesmo cliente.)
- Os dados são precisos? (por exemplo, o cliente insere o endereço de e-mail errado)
- A qualidade dos dados é consistente em todo o sistema? (por exemplo, a data de nascimento está no formato dd/mm/aaaa em um conjunto de dados, mas está no formato mm/dd/aaaa em outro conjunto de dados)
Distribuição de dados
Endpoints para distribuição dos dados
Para a maioria das organizações, os dados precisam ser distribuídos para os (ou para perto de) vários endpoints onde eles são necessários. Isso inclui sistemas operacionais, data lakes e data warehouses. A distribuição de dados é necessária devido a latências de rede. Quando os dados são necessários para uso operacional, a latência de rede pode não ser suficiente para entregá-los em tempo hábil. Armazenar uma cópia desses dados em um banco de dados local resolve o problema de latência de rede.
A distribuição de dados também é necessária para a consolidação de dados. Os data warehouses e data lakes consolidam dados de várias fontes para apresentar uma visão consolidada das informações. Os data warehouses são usados para analytics e tomada de decisões, enquanto os data lakes servem como um hub consolidado do qual os dados podem ser extraídos para uma variedade de casos de uso, ao mesmo tempo em que cada vez mais oferecem suporte a analytics diretamente nos dados armazenados neles.
Mecanismos de replicação de dados e seu impacto na consistência
Os mecanismos de distribuição de dados têm um impacto potencial na consistência de dados, e isso é uma consideração importante no gerenciamento de dados.
Uma consistência forte é resultante da replicação síncrona dos dados. Nessa abordagem, quando um valor de dados for alterado, todas as aplicações e usuários verão essa alteração. Se o novo valor dos dados ainda não tiver sido replicado, o acesso aos dados será bloqueado até que todas as cópias sejam atualizadas. A replicação síncrona prioriza a consistência em detrimento da performance e do acesso aos dados. A replicação síncrona é usada com mais frequência para dados financeiros.
A consistência final é resultante da replicação assíncrona dos dados. Quando os dados são alterados, as cópias são eventualmente atualizadas (geralmente em alguns segundos), mas o acesso às cópias desatualizadas não é bloqueado. Para muitos casos de uso, isso não é um problema. Por exemplo, postagens, curtidas e comentários em mídias sociais não exigem consistência forte. Como outro exemplo, se um cliente alterar seu número de telefone em uma aplicação, essa alteração poderá ser aplicada em cascata de maneira assíncrona.
Comparação entre streaming e atualizações em lote
Os fluxos de dados aplicam as alterações de dados em cascata à medida que elas ocorrem. Essa é a abordagem preferencial quando o acesso aos dados quase em tempo real é necessário. Os dados são extraídos, transformados e entregues ao seu destino assim que são alterados.
Atualizações em lote são mais apropriadas quando os dados precisam ser processados em lotes antes da entrega. Resumir ou realizar análises estatísticas dos dados e entregar apenas o resultado é um exemplo disso. As atualizações em lote também podem preservar a consistência interna e pontual dos dados quando todos os dados são extraídos em um ponto específico no tempo. As atualizações em lote por meio de um processo de extração, transformação e carregamento (ETL) são normalmente usadas para data lakes, data warehousing e analytics.
Gerenciamento de dados de referência
O gerenciamento de dados de referência é o processo de gerenciar a consistência e a sincronização de dados essenciais de negócios. Exemplos de dados de referência incluem dados de clientes, de parceiros e de produtos. Esses dados fundamentais são principalmente persistentes e não mudam com frequência. Exemplos desses dados em uso incluem o software de Gerenciamento de relacionamento com cliente (CRM) e de Planejamento de recursos empresariais (ERP).
O gerenciamento de dados de referência é essencial para ajudar a garantir que esses dados sejam precisos em todos os sistemas, incluindo a sincronização e integração de dados nas atualizações.
O que é gerenciamento de big data?
Big data são os grandes volumes de dados que uma organização coleta em alta velocidade ao longo de um curto período de tempo. Feeds de notícias em vídeo nas mídias sociais e fluxos de dados de sensores inteligentes são exemplos de big data. A escala, a variedade e a complexidade das operações criam desafios no gerenciamento de big data. Por exemplo, um sistema de big data armazena dados como:
- Dados estruturados que são bem representados em formato tabular
- Dados não estruturados, como documentos, imagens e vídeos
- Dados semiestruturados, que combinam os dois tipos anteriores
As ferramentas de gerenciamento de big data precisam processar e preparar todos esses dados para análise. As ferramentas e técnicas necessárias para big data normalmente executam as seguintes funções: integração de dados, armazenamento de dados e análise de dados.
O que são sistemas de gerenciamento de dados em nuvem?
O gerenciamento de dados em nuvem (CDM) é o gerenciamento de dados corporativos na nuvem, quando os dados estão em repouso, em processamento e em trânsito. Muitas das mesmas práticas do gerenciamento de dados tradicional se aplicam ao gerenciamento de dados em nuvem.
Como os ambientes em nuvem são diferentes dos ambientes on-premises padrão, a forma como os dados são tratados é um pouco diferente. O armazenamento, a computação e as redes em nuvem trabalham juntos, juntamente com os serviços modernos de gerenciamento de dados em nuvem, para atender às expectativas de gerenciamento de dados.
Armazenamento na nuvem
Os provedores de serviços em nuvem oferecem armazenamento de dados em vários produtos e serviços, como bancos de dados operacionais, data lakes e data warehouses em nuvem. Essas soluções de armazenamento de dados são nativas da nuvem, executadas em instâncias de nuvem e oferecem configurações de armazenamento virtualizado para se adequar a qualquer caso de uso. As instâncias de armazenamento em nuvem devem ser configuradas para atender aos padrões de dados.
Computação em nuvem
As instâncias de computação em nuvem são projetadas para processar dados armazenados na nuvem. Essas instâncias de computação também oferecem muitas configurações diferentes, cada uma para tipos ligeiramente diferentes de workloads, como processamento de transações, automação de processos, business intelligence, analytics, machine learninge e IA. As instâncias de computação em nuvem devem ser configuradas de acordo com as regras internas relacionadas ao gerenciamento de dados na nuvem.
Rede em nuvem
As soluções de rede em nuvem, como nuvens privadas virtuais (VPCs) e redes privadas virtuais (VPNs), oferecem redes baseadas em software. A rede em nuvem fornece isolamento ao segmentar recursos e garantir que as workloads sejam separadas umas das outras com segurança e melhor protegidas contra acesso não autorizado. Os dados em trânsito por essas redes devem ser gerenciados com uma combinação de controles de produtos e produtos de segurança de rede.
Ferramentas de gerenciamento de dados na nuvem
Cada provedor de nuvem oferece soluções diferentes para o gerenciamento de dados em nuvem em todo o seu ambiente. Esses recursos de gerenciamento de dados podem incluir:
- Serviços de unificação de dados, como data lakes e data warehouses
- Serviços de segurança de dados, como gerenciamento de conformidade
- Serviços de qualidade de dados para verificar dados válidos e de alta qualidade
- Soluções de inventário de dados para identificar dados sensíveis usando IA e machine learning
Cada solução de gerenciamento de dados na nuvem foi projetada para complementar os serviços fundamentais de armazenamento, processamento e transferência de dados oferecidos na nuvem.
O modelo de responsabilidade compartilhada
Segurança e conformidade são responsabilidades compartilhadas entre o provedor de serviços de nuvem e o cliente. A AWS chama isso de Modelo de responsabilidade compartilhada.
Esse modelo compartilhado pode ajudar a reduzir os encargos operacionais do cliente à medida que o provedor de nuvem opera, gerencia e controla os componentes do sistema operacional do host e a camada de virtualização, até a segurança física das instalações em que o serviço opera. Os provedores e clientes de gerenciamento de dados em nuvem devem entender suas obrigações de gerenciamento e segurança de dados de acordo com o modelo.
Por exemplo, os provedores de nuvem devem tomar medidas para proteger a infraestrutura subjacente que dá suporte às instâncias de nuvem dos clientes. Os provedores de nuvem garantem que o hardware seja corrigido e esteja operando conforme o esperado. Os clientes devem então se certificar de que o sistema operacional em execução na instância esteja atualizado.
Os clientes devem garantir que haja replicações de instâncias adequadas entre zonas e backups de dados. Isso ajuda na consistência dos dados e torna os dados recuperáveis no caso de um evento que exija recuperação de desastres.
Quais são alguns dos desafios do gerenciamento de dados?
Confira a seguir alguns desafios comuns para o gerenciamento de dados.
Escala e performance
As organizações precisam de um software de gerenciamento de dados que funcione de forma eficiente em grande escala. Elas precisam monitorar e reconfigurar continuamente a infraestrutura de gerenciamento de dados para manter os tempos de resposta de pico conforme os dados crescem exponencialmente. Como alternativa, elas precisam usar um software de gerenciamento de dados sem servidor que ajusta automaticamente a capacidade às mudanças no volume de dados e nas workloads.
Requisitos em constante evolução
Os regulamentos de conformidade são complexos e mudam com o tempo. Da mesma forma, os requisitos de clientes e as necessidades dos negócios também mudam rapidamente. Embora as organizações tenham mais opções quanto às plataformas de gerenciamento de dados que podem usar, elas precisam avaliar constantemente as decisões de infraestrutura para manter o máximo de agilidade de TI, conformidade legal e custos mais baixos.
Treinamento de funcionários
Começar o processo de gerenciamento de dados em qualquer organização pode ser um grande desafio. O imenso volume de dados pode ser avassalador, e também podem existir silos interdepartamentais. Planejar uma nova estratégia de gerenciamento de dados e fazer com que os funcionários aceitem novos sistemas e processos exige tempo e esforços.
Quais são algumas das práticas recomendadas de gerenciamento de dados?
As práticas recomendadas de gerenciamento de dados formam a base de uma estratégia de dados bem-sucedida. Confira a seguir os princípios comuns de gerenciamento de dados para ajudar você a criar um alicerce de dados forte.
Colaboração em equipe
Os usuários empresariais e as equipes técnicas devem colaborar para garantir que os requisitos de dados de uma organização sejam atendidos.
Automação
Uma estratégia de gerenciamento de dados bem-sucedida incorpora automação na maioria das tarefas de processamento e preparação de dados. Executar tarefas manuais de transformação de dados é entediante e também introduz erros no sistema. Mesmo um número limitado de tarefas manuais, como a execução de trabalhos em lote semanais, pode causar gargalos no sistema. Um software de gerenciamento de dados pode ser compatível com uma escalabilidade mais rápida e eficiente.
Computação em nuvem
As empresas precisam de soluções modernas de gerenciamento de dados que lhes forneçam um amplo conjunto de recursos. Uma solução de nuvem pode administrar todos os aspectos do gerenciamento de dados em grande escala e sem comprometer a performance. Por exemplo, a AWS oferece uma ampla variedade de funcionalidades, como bancos de dados, data lakes, análises, acessibilidade de dados, governança de dados e segurança, em uma única conta.
Como a AWS pode ajudar com o gerenciamento de dados?
A AWS é uma plataforma global de gerenciamento de dados que pode ser usada para criar uma estratégia de gerenciamento de dados moderna. Os bancos de dados da AWS oferecem uma base de alta performance, segura e confiável para potencializar soluções de IA generativa e aplicações orientadas por dados que agregam valor para sua empresa e seus clientes. Os bancos de dados de alta performance da AWS são compatíveis com qualquer workload ou caso de uso, incluindo bancos de dados relacionais com throughput de três a cinco vezes mais rápido do que as alternativas, bancos de dados com propósito específico com latência de microssegundos e recursos integrados de banco de dados de vetores com throughput mais rápido e taxas de recall mais altas.
A AWS oferece opções de tecnologia sem servidor que eliminam a necessidade de gerenciar a capacidade por meio da escalabilidade instantânea sob demanda. Os bancos de dados da AWS oferecem segurança inigualável com criptografia em repouso e em trânsito, isolamento de rede, autenticação, resolução de anomalias e adesão rigorosa aos padrões de conformidade. Eles são altamente confiáveis porque os dados são automaticamente replicados em várias zonas de disponibilidade dentro de uma região da AWS. Com mais de 15 mecanismos de banco de dados otimizados para o modelo de dados da aplicação, os bancos de dados totalmente gerenciados pela AWS eliminam a carga pesada indiferenciada das tarefas administrativas do banco de dados.
A AWS oferece um conjunto abrangente de recursos para cada workload de analytics. Com soluções que abrangem desde o processamento de dados e analytics de SQL à transmissão, pesquisa e business intelligence, a AWS fornece performance de preço e escalabilidade incomparáveis, com governança integrada. Escolha serviços desenvolvidos especificamente e otimizados para workloads específicas ou simplifique e gerencie seus dados e fluxos de trabalho de IA com o Amazon SageMaker. Independentemente de você estar iniciando sua jornada de dados ou procurando uma experiência integrada, a AWS disponibiliza os recursos de analytics ideais para impulsionar a reinvenção de seu negócio por meio dos dados.
Confira alguns dos serviços que podem ajudar na criação de sua infraestrutura moderna de dados em nuvem.
O Amazon DataZone é um serviço de gerenciamento de dados que torna mais rápido e fácil para os clientes catalogar, descobrir, compartilhar e controlar dados armazenados na AWS, on-premises e em fontes terceirizadas.
O AWS Glue é um serviço sem servidor que torna a integração de dados mais simples, rápida e barata. Você pode descobrir e se conectar a mais de cem fontes de dados diversas, gerenciar seus dados em um catálogo de dados centralizado e criar, executar e monitorar visualmente pipelines de dados para carregar dados em seus data lakes, data warehouses e lakehouses.
O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos que oferece escalabilidade, disponibilidade de dados, segurança e performance líderes do setor. Milhões de clientes de todos os portes e setores armazenam, gerenciam, analisam e protegem qualquer quantidade de dados para praticamente qualquer caso de uso, como data lakes, aplicações nativas da nuvem e aplicativos móveis.
O AWS Lake Formation permite que você controle, proteja e compartilhe dados de forma centralizada para analytics e machine learning. O AWS Lake Formation ajuda você a gerenciar e escalar de forma centralizada as permissões refinadas de acesso a dados e a compartilhar dados com confiança dentro e fora da sua organização.
O Amazon Relational Database Service (Amazon RDS) é um serviço de banco de dados relacional de fácil gerenciamento e otimizado para o custo total de propriedade.
A Amazon Virtual Private Cloud (Amazon VPC) ajuda você a definir e lançar recursos da AWS em uma rede virtual logicamente isolada.
Comece a criar sua solução de gerenciamento de dados em nuvem na AWS criando uma conta da AWS hoje mesmo.