O que é um catálogo de dados?
Um catálogo de dados é um inventário de todos os dados que uma organização coleta e processa. Requisitos regulatórios obrigam as organizações a protegerem seus dados em todos os momentos, desde a coleta até o consumo. Um catálogo de dados organiza e classifica os dados para apoiar a governança e a descoberta de dados. Ele facilita a eficiência operacional por meio do compartilhamento de contexto, pois todos podem entender rapidamente por que e como um conjunto de dados específico é usado em uma organização.
Quais são os benefícios de um catálogo de dados?
Como ferramenta organizacional, um catálogo de dados simplifica a busca por dados e a identificação para que você os usa. Oferecemos alguns benefícios abaixo.
Descoberta rápida de ativos
Um catálogo de dados simplifica o processo de identificação de dados, ajudando a aumentar a produtividade dos funcionários. Assim, você pode pesquisar dados usando tags descritivas para descobrir rapidamente os dados relacionados e, ao mesmo tempo, entender o contexto e a finalidade de cada conjunto de dados. Ele oferece uma visão de onde os dados vêm, como eles se movem pelos sistemas e como são transformados. Os analistas de dados geralmente podem realizar suas análises sem depender muito da TI, o que resulta em insights mais rápidos.
Qualidade dos dados aprimorada
Os catálogos de dados exigem vários campos que os funcionários precisam preencher quando uma empresa ingere novos dados. Quando os usuários acessam o catálogo, a capacidade de ler sobre as origens dos dados, os processos de transformação e as datas de edição significa que eles podem ter mais confiança ao interagir com as informações. Um alto grau de integridade ajuda a aumentar a facilidade de governança de dados e a melhorar a qualidade dos dados. As empresas também podem automatizar a geração desses metadados de catálogo de dados para fornecer catálogos de dados abrangentes com menos esforço.
Alta eficiência
Um catálogo de dados incentiva a consistência na nomenclatura, nas definições e nas métricas, garantindo que as diferentes equipes de uma organização estejam alinhadas na compreensão e no uso dos dados. Com a visibilidade de todos os ativos de dados, as organizações podem reduzir a redundância de dados, garantindo que os esforços não sejam duplicados e que os custos de armazenamento sejam minimizados. Os ganhos de produtividade que os cientistas de dados vivenciam também ajudam a reduzir os custos gerais.
Segurança reforçada
Os regulamentos de privacidade exigem que as organizações saibam onde os dados pessoais residem e quem os acessou. Um catálogo de dados pode ajudar a garantir que dados confidenciais sejam tratados corretamente e que o acesso seja concedido adequadamente. As organizações podem rastrear de onde vêm seus dados, quem os acessou e como estão sendo usados, aprimorando assim as iniciativas de conformidade regulatória.
Quais são os casos de uso de um catálogo de dados?
As organizações podem usar catálogos de dados para otimizar o armazenamento e o gerenciamento de dados. Abaixo estão alguns dos casos de uso de um catálogo de dados.
Análise autosserviço
Um catálogo de dados fornece uma descrição detalhada do que os dados contêm e para que a empresa os usa. Também permite que as empresas diferenciem muitos dados semelhantes e acelerem qualquer processo relacionado à recuperação e ao uso de dados, especialmente em ambientes corporativos. Essa transparência aprimorada permite que os usuários determinem rapidamente quais dados estão vendo e descubram todas as informações necessárias em um único local. Você pode criar fluxos de trabalho de análise de autoatendimento para usuários de dados não técnicos, mesmo com grandes volumes de dados em armazenamento.
Compartilhamento de conhecimento
A colaboração é fundamental para obter insights acionáveis dos dados. Um catálogo de dados promove um ambiente colaborativo ao permitir que os usuários comentem, avaliem e revisem conjuntos de dados. Ao compartilhar suas experiências e conhecimentos sobre conjuntos de dados específicos, os usuários podem trabalhar juntos para reduzir os riscos e acelerar a análise em toda a organização.
Análise de linhagem de dados
Entender de onde os dados se originam e como eles atravessam vários sistemas é essencial para solucionar problemas de dados, realizar análises de impacto ou atender aos padrões de conformidade. Um catálogo de dados fornece visibilidade da linhagem de dados, oferecendo aos usuários uma visão clara da jornada dos dados desde a origem até o destino final. As empresas podem criar documentos de taxonomia internos, permitindo que todos os funcionários entendam os nomes corretos de todos os ativos de dados. Ter um documento ou planilha de referência em um catálogo de dados aumenta a coerência dos dados em toda a organização.
Quais informações um catálogo de dados contém?
Os catálogos de dados contêm metadados para descrever seu inventário de ativos de dados e fornecer informações adicionais sobre o que os dados contêm. Os campos de metadados permitem que você pesquise rapidamente os dados e localize ativos. Um catálogo de dados pode incluir uma variedade de metadados, como os exemplos a seguir.
Metadados de negócios
Metadados de negócios são qualquer informação relacionada ao valor que eles fornecem a uma empresa. Pode incluir informações sobre o uso dos dados em uma empresa, detalhes de conformidade regulatória e contexto comercial útil para outros usuários. Por exemplo, ele pode conter anotações de projetos de dados, como níveis de confidencialidade de dados, descrições, localização, usuários, departamento e muito mais. Normalmente, uma organização define os dados de negócios exatos de que precisa e inclui vários campos relacionados.
Metadados técnicos
Os metadados técnicos descrevem a estrutura geral de um conjunto de dados. Eles descrevem a estrutura dos objetos de dados, comentando sobre seus relacionamentos, conexões, índices, linhas, colunas e forma tabular. Esses metadados também fornecem contexto aos profissionais de dados sobre os processos pelos quais os dados devem passar, como transformação ou análise. Os usuários compreendem rapidamente como uma organização estruturou e exibiu as informações.
Metadados operacionais
Os metadados operacionais comentam sobre a origem dos dados e sua transformação, atualizações, cardinalidade e outros marcadores de identificação do processo. Usando metadados operacionais, você pode ver como os dados entraram na sua organização, por qual transformação eles passaram e outras atualizações de status atuais. Com os campos de metadados operacionais, você pode ver quando os usuários editaram os dados pela última vez e quem tem permissão para editá-los.
Quais são os principais atributos de um catálogo de dados?
As plataformas modernas de catálogos de dados usam vários atributos importantes para agilizar seu uso e aumentar a eficiência.
Automação
A automação permite que as empresas gerenciem seu catálogo de dados com menos esforço. Os recursos de integração permitem que o catálogo extraia automaticamente metadados de várias fontes. O catálogo permanece atualizado quando novos ativos de dados são adicionados ou os existentes são atualizados. Alguns sistemas avançados também utilizam machine learning para melhorar e refinar seus processos de categorização de dados ao longo do tempo. Os atributos de automação em um catálogo de dados aumentam a agilidade, apesar dos volumes de dados cada vez maiores.
Opções de pesquisa eficientes
Os atributos de pesquisa do catálogo de dados vão além das pesquisas básicas por palavras-chave para fornecer sugestões. Eles também incorporam filtros para que os usuários possam encontrar os dados com base em vários critérios. A experiência do usuário é semelhante aos mecanismos de pesquisa modernos, fornecendo resultados relevantes, classificados e de acesso rápido. A eficiência na recuperação de dados economiza tempo enquanto incentiva a descoberta e a exploração de dados.
Glossário universal
Um glossário universal oferece definições padronizadas para termos e métricas em toda a organização. Ele garante que todos os termos de metadados tenham uma definição única e clara. Quando os usuários encontram um termo no catálogo, eles podem consultar o glossário para saber seu significado, garantindo uma compreensão e um uso consistentes em todos os setores. Isso é particularmente crucial para manter a integridade dos dados e promover uma comunicação clara entre diferentes equipes.
Qual é a diferença entre governança de dados e um catálogo de dados?
A governança de dados é uma metodologia que garante que os dados estejam nas condições adequadas para apoiar as iniciativas e operações de negócios. Estabelecer a governança correta significa equilibrar o acesso e o controle dos dados e dar às pessoas confiança nos dados, ao mesmo tempo em que incentiva a experimentação. Ela oferece uma estrutura que as pessoas podem seguir ao usar dados e tecnologia corporativos. A governança de dados é útil para garantir uma alta qualidade dos dados e o uso adequado sob restrições regulatórias.
Os catálogos de dados são uma tecnologia para implementar políticas de governança de dados. A governança de dados define as políticas de uso de dados, enquanto os catálogos de dados as aplicam. Esses catálogos permitem que as empresas acompanhem sua governança de dados com mais eficiência.
Como a AWS pode oferecer suporte aos requisitos de catálogo de dados?
O AWS Glue é um serviço de integração de dados sem servidor que facilita a descoberta, preparação, movimentação e integração de dados de várias fontes para análise de dados, machine learning (ML) e desenvolvimento de aplicações. O Catálogo de Dados do AWS Glue é um repositório central para armazenamento de metadados estruturais e operacionais de todos os ativos de dados. Você pode armazenar a definição da tabela e a localização física de um determinado conjunto de dados, adicionar atributos relevantes aos negócios e monitorar como esses dados mudaram ao longo do tempo.
O Catálogo de dados também se integra ao Amazon Athena, ao Amazon EMR e ao Amazon Redshift Spectrum. Depois de adicionar suas definições de tabela ao Catálogo de dados, você pode ter uma visão comum dos seus dados entre esses serviços.
O AWS Glue fornece várias maneiras de preencher metadados no Catálogo de dados. Por exemplo, é possível:
- Configure os crawlers do AWS Glue para verificar vários armazenamentos de dados e inferir automaticamente esquemas, estrutura de partições e preencher o Catálogo de dados com as definições e estatísticas de tabela correspondentes.
- Programe os crawlers para serem executados periodicamente para que seus metadados estejam sempre atualizados e sincronizados com os dados subjacentes.
- Adicione e atualize manualmente os detalhes da tabela usando o console do AWS Glue ou chamando a API.
Comece a usar catálogos de dados na AWS configurando uma conta gratuita hoje mesmo.
Próximas etapas com a AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.