O que é virtualização de dados?
O que é virtualização de dados?
A virtualização de dados é o processo de abstrair as operações de dados do armazenamento de dados subjacente. As organizações modernas armazenam dados em vários formatos, de tabelas tradicionais a mensagens e arquivos em tempo real, em vários sistemas e plataformas. Mover fisicamente esses dados para um único sistema central nem sempre é prático ou econômico.
A virtualização de dados usa metadados, dados sobre dados, para criar uma camada virtual para a manipulação de dados. Os usuários finais podem ler e modificar dados de forma integrada na camada virtual sem precisar entender os aspectos técnicos subjacentes. Em vez do usuário final, a camada virtual interage com a camada de armazenamento subjacente para enviar ou recuperar dados, conforme necessário.
Por que a virtualização de dados é importante?
Atualmente, as organizações geralmente têm dados espalhados por fontes de dados diferentes em sistemas on-premises, serviços em nuvem e outros sistemas em silos. Os recursos de mesclagem de dados físicos são limitados devido aos seguintes desafios:
- O gerenciamento manual dos dados de origem em várias plataformas pode ser demorado e propenso a erros.
- O controle de acesso para várias fontes independentes pode ser complexo devido à governança de dados obrigatória.
- Manter conexões diretas entre fontes de dados pode ser um desafio quando novas fontes ou usuários são adicionados.
Outros métodos tradicionais de integração de dados exigem a movimentação de dados para data warehouses ou data lakes. Essa abordagem oferece centralização, mas exige a manutenção de várias cópias em sincronização, o que, por sua vez, pode afetar os recursos de geração de relatórios em tempo real.
Os sistemas de virtualização de dados oferecem várias vantagens importantes em relação a essas outras abordagens.
Abstração
A consulta é abstraída das fontes reais, para que você possa trabalhar com conjuntos de dados complexos sem que os usuários ou desenvolvedores precisem entender todos os detalhes técnicos por trás deles.
Governança unificada
Como a virtualização de dados opera usando metadados, você pode implementar a governança centralizada dentro da camada de virtualização. Também é fácil criar e iterar modelos de dados que estão disponíveis rapidamente e que podem ser reutilizados em projetos futuros.
Acesso em tempo real
A virtualização de dados permite que você consulte várias fontes em tempo real. Você não precisa esperar pelas sincronizações programadas. Seus usuários corporativos podem interagir com uma única aplicação em vez de se conectar a cada sistema individualmente.
Fonte única de verdade
Você elimina redundâncias e confusões causadas por dados desatualizados em um sistema devido a atrasos na sincronização com outro sistema. Você também reduz os custos de armazenamento ao não copiar dados em data warehouses ou data lakes centralizados.
Quais são os casos de uso de virtualização de dados?
Ao facilitar o acesso aos dados em tempo real, a virtualização pode oferecer suporte a várias funções importantes.
Business intelligence e analytics
Iniciativas de analytics, como relatórios internos ou conformidade regulatória, geralmente exigem a integração de dados de várias fontes dentro de uma organização. O acesso virtualizado aos dados permite que analistas e equipes de BI explorem facilmente os dados e refinem as consultas sem afetar negativamente as fontes de dados de produção.
Suporte à migração para a nuvem
A migração de sistemas grandes para a nuvem pode ser um processo lento e cheio de erros. A virtualização de dados é uma ferramenta robusta para o planejamento eficaz da migração. Sua equipe pode testar cenários de substituição e validar processos de integração de dados sem interromper sistemas ativos.
Simplificar as principais atualizações do sistema
A criação de ambientes de teste para grandes projetos, como a atualização do sistema de planejamento de recursos corporativos (ERP), pode ser demorada e exigir ampla coordenação entre várias equipes. Usando a tecnologia de virtualização de dados, as equipes podem gerar rapidamente estruturas de dados complexas para um trabalho eficiente. Isso pode ajudar a reduzir os custos de infraestrutura e reduzir os tempos de implantação.
Suporte ao sistema de produção
A solução de problemas complexos em sistemas de produção às vezes exige a recriação de serviços de dados completos para testes. A tecnologia de virtualização de dados permite que suas equipes de TI criem e testem ambientes rapidamente sem a necessidade de copiar dados. Isso permitirá que elas verifiquem as correções e identifiquem efeitos colaterais não intencionais.
Fluxos de trabalho de DevOps
Desenvolvedores e testadores podem trabalhar com um ambiente de dados virtual completo ao preparar aplicações para lançamento. Eles podem modelar como o software opera no mundo real sem precisar replicar grandes conjuntos de dados.
Quais são os recursos de uma camada de virtualização de dados?
O software de virtualização de dados pode fornecer vários recursos importantes que simplificam o gerenciamento de dados.
Modelagem semântica
Conceitos comerciais significativos, como “cliente” ou “linha de produtos”, podem ser representados em dados virtuais fragmentados em vários sistemas. Uma camada de virtualização permite que você use dados para definir conceitos significativos em várias fontes com mais facilidade.
Conectividade universal
Ao acessar fontes de dados em sua organização por meio de uma camada de virtualização, você pode eliminar com mais facilidade os silos de dados e fornecer a cada equipe acesso em tempo real a um conjunto de dados unificado.
Consulta de alta performance
O software de virtualização de dados pode utilizar técnicas inteligentes de performance para otimizar consultas complexas em uma declaração única e eficiente. Ele não fará consultas redundantes em sistemas diferentes.
Catálogos de dados
A virtualização permite que você armazene metadados ou informações sobre seus dados no mesmo sistema. Você pode usar os dados para rastrear informações sobre seu conjunto de dados existente e criar um catálogo de dados que ofereça suporte à descoberta de dados.
Como funciona a virtualização de dados?
A virtualização de dados é um tipo de integração de dados. Em vez de trabalhar diretamente com dados, os serviços de virtualização de dados operam somente com metadados, como informações sobre onde seus dados estão armazenados, como são categorizados e como se conectam a outros dados.
Consulta de usuários
Digamos que sua empresa tenha um banco de dados de gerenciamento de relacionamento com o cliente (CRM) e um sistema de inventário separado para gerenciar seus produtos. Mas você quer encontrar todos os pedidos feitos por clientes chamados “Smith” nos últimos dois meses, uma solicitação que engloba os dois sistemas. Você insere sua consulta em seu serviço de virtualização de dados.
Integração de dados
O serviço de virtualização decompõe a consulta em componentes menores. Usando seus metadados, o serviço identifica o local dos dados para cada componente da consulta em suas várias fontes. Ele gera subconsultas para recuperar as informações de clientes do seu CRM e as informações de pedidos do inventário.
Apresentação de dados
À medida que as fontes retornam os dados, o serviço de virtualização de dados os transforma na memória de trabalho, ajustando a formatação e a nomenclatura, conforme necessário. Ele filtra as redundâncias identificadas pelos metadados. Depois que as transformações forem concluídas, o serviço fornecerá um resultado integrado à sua aplicação.
Quais são as abordagens de virtualização de dados na nuvem?
Você tem três abordagens amplas para implementar a virtualização de dados na nuvem: soluções personalizadas, ferramentas comerciais ou soluções nativas da nuvem.
Virtualização de dados personalizada
Sua primeira opção é criar sua própria solução de virtualização de dados usando a infraestrutura de nuvem. Embora possa oferecer mais controle sobre o design e os recursos, também requer desenvolvimento e manutenção significativos.
Ferramentas comerciais de virtualização de dados
Outra opção é usar uma plataforma de virtualização de dados pré-criada de um provedor. Essas ferramentas geralmente oferecem conectores predefinidos para várias fontes de dados e otimizações de performance. Elas também podem oferecer suporte à integração com os padrões de metadados corporativos existentes.
Virtualização de dados nativos da nuvem
Essa abordagem utiliza serviços gerenciados fornecidos por provedores de nuvem, como a Amazon Web Services (AWS), para simplificar a implantação e as operações contínuas. Ela permite que organizações que já trabalham na nuvem ou que estão migrando para ela adotem a virtualização de dados sem exigir amplo conhecimento técnico.
Como a AWS pode apoiar seus requisitos de virtualização de dados?
A AWS oferece recursos nativos que se alinham com muitos dos fornecidos por serviços comerciais de virtualização de dados. Esses recursos nativos têm o potencial de oferecer suporte a uma ampla variedade de casos de uso de virtualização de dados.
O Amazon Redshift potencializa o data analytics moderno em grande escala. Independentemente de seus dados com volume crescente estarem armazenados em armazenamentos de dados operacionais, data lakes, serviços de streaming ou conjuntos de dados de terceiros, o Amazon Redshift ajuda você a acessar, combinar e compartilhar dados com segurança com o mínimo de movimento ou cópia.
O Amazon Athena é um serviço de analytics interativo que funciona diretamente com os dados armazenados no Amazon S3. Ele é sem servidor, de forma que não existe uma infraestrutura para configurar ou gerenciar. Dessa forma, é possível começar a analisar os dados imediatamente.
O AWS Glue é um serviço de integração de dados sem servidor que simplifica o processo de descoberta, preparação e combinação de dados. O Amazon Athena e o Amazon Redshift têm integração nativa com o Catálogo de Dados do AWS Glue, um repositório central de metadados que oferece suporte à virtualização.
O AWS Lake Formation facilita o controle centralizado, a proteção e o compartilhamento global de dados para analytics e machine learning (ML). Você pode centralizar a segurança e a governança de dados usando o Catálogo de Dados do AWS Glue, o que permite gerenciar metadados e permissões de dados em um só lugar com recursos familiares no estilo de banco de dados. Ele também oferece controle refinado de acesso aos dados.
Comece a usar a visualização de dados na AWS criando uma conta gratuita hoje mesmo.