O blog da AWS

Como a Aarin transformou a governança de dados com o Amazon SageMaker

Por Gabriela Pianezzola Serafim, Coordenadora de TI na Compass UOL; Marcelo Rezende da Aarin, Data Manager na Aarin e Luiz Yanai, arquiteto especialista sênior em Data & AI na AW.

No cenário de tecnologia financeira em rápida evolução, a fintech brasileira Aarin enfrentou um desafio familiar a muitas organizações em crescimento: como gerenciar volumes de dados cada vez maiores e, ao mesmo tempo, manter a segurança, a conformidade e a eficiência operacional?

Sua solução baseado no Amazon SageMaker Unified Studio oferece lições valiosas para qualquer organização que esteja navegando pelas complexidades da governança de dados moderna.

Entendendo o contexto de negócios de Aarin

Aarin é especialista em “serviços bancários invisíveis”, integrando os serviços financeiros em várias plataformas e modelos de negócios. Essa abordagem gera grandes volumes de dados de diversas fontes em todo o portfólio de produtos, o que inclui:

  • Serviços de recuperação de crédito
  • Gestão de consórcios
  • Plataformas de empréstimo como serviço
  • Principais operações bancárias
  • Sistemas de pagamento (PIX, TED, boleto)
  • Processos KYC (Know Your Customer, ou Conheça seu cliente)
  • Sistemas de prevenção de fraudes

Desafios

A Aarin enfrentou quatro desafios críticos de governança de dados durante sua expansão:

  1. dados fragmentados em múltiplos sistemas sem mecanismo centralizado de descoberta, causando esforços duplicados e silos de conhecimento;
  2. visibilidade limitada da linhagem de dados, dificultando auditorias, troubleshooting e demonstração de conformidade regulatória;
  3. falta de definição clara de propriedade e responsabilidade sobre os dados, gerando ambiguidade na qualidade e manutenção;
  4. possibilidade de lacunas no controle de acesso e segurança para dados financeiros sensíveis, especialmente considerando a obrigatoriedade de conformidade com a Lei Geral de Proteção de Dados (LGPD) e leis de sigilo bancário no Brasil;

A solução estratégica: Amazon SageMaker Unified Studio

Trabalhando com o parceiro de implementação Compass UOL e a AWS, Aarin selecionou o Amazon SageMaker Unified Studio como sua plataforma central de catálogo de dados. Essa escolha atendeu às necessidades imediatas e, ao mesmo tempo, estabeleceu uma base para o crescimento futuro.

Por que o Amazon SageMaker Unified Studio?

Amazon SageMaker Unified Studio fornece:

  • Catalogação unificada de dados de diversas fontes
  • Governança e controle de acesso integrados
  • Visualização da linhagem de dados
  • Recursos de glossário de negócios
  • Integração nativa com a AWS
  • Interface amigável disponível em português

Estratégia de implementação: visão em fases

Diagrama com fluxo temporal destacando as fases de implementação e componentes de cada fase

Figura 1 – Fases de implementação de governança de dados e seus componentes

A transformação da governança de dados na Aarin seguiu uma abordagem estruturada em nove fases, cada uma construindo sobre os alicerces da anterior para criar um ecossistema robusto e escalável.

Fase 1: Fundação arquitetural com Data Mesh

A jornada começou com a implementação de uma arquitetura orientada a produtos baseada nos princípios de Data Mesh. Em vez de centralizar todo o gerenciamento de dados em uma única equipe, a Aarin distribuiu a responsabilidade para os especialistas de domínio que melhor compreendem seus dados. Cada equipe de produto passou a publicar e manter seus dados como um “produto de dados” distinto, criando sentimento de propriedade e responsabilidade naturais. Esta abordagem descentralizada trouxe escalabilidade à medida que a organização crescia, permitiu inovação mais rápida dentro das equipes de produto e reduziu gargalos nas equipes centrais de dados.

Fase 2: Catalogação abrangente de dados

Com a arquitetura estabelecida, a equipe partiu para catalogar o vasto universo de dados da empresa. Mais de 140 tabelas foram catalogadas através do data lake, abrangendo 15 produtos completamente integrados. Entre eles estavam sistemas críticos como Recuperação de Crédito, Serviços de Consórcio, Lending as a Service, Core Banking, Gestão de Tarifas, Gestão de Limites, Gestão de Cobrança, Sistemas de Pagamento incluindo Boleto, PIX e TED, além de KYC e Prevenção de Fraudes. A equipe catalogou bancos de dados de praticamente todas as áreas de negócio, criando uma visão unificada dos ativos de dados acessível através de uma interface única. A estratégia foi começar pelos produtos de dados mais críticos ou frequentemente acessados, ao invés de tentar catalogar tudo simultaneamente, permitindo demonstrar valor rapidamente enquanto construíam tração.

Fase 3: Classificação de metadados com Inteligência Artificial

Para acelerar o processo de classificação de metadados, a Aarin aproveitou o poder da inteligência artificial através do Amazon Bedrock. A IA analisou estruturas de tabelas, nomes de colunas e dados de amostra para sugerir automaticamente tags de metadados e descrições. As equipes de negócio então revisaram e validaram as sugestões da IA antes que as classificações finais fossem aplicadas ao catálogo. Esta abordagem inovadora transformou o que seria um trabalho manual de semanas ou meses em uma tarefa de dias, mantendo a precisão através da validação humana.

Fase 4: Desenvolvimento do glossário de negócios

A quarta fase focou na criação de um glossário corporativo estruturado, organizado por categorias e hierarquias, definindo termos de negócio de forma consistente em toda a organização. O glossário abrangeu desde produtos financeiros, incluindo subcategorias como empréstimos (empréstimos pessoais, linhas de crédito, lending-as-a-service), pagamentos (transações PIX, transferências TED, pagamentos boleto), até gestão de risco com escoragem de crédito, detecção de fraudes e verificação KYC.
Quando equipes técnicas e de negócio usam terminologia consistente, a comunicação melhora, os requisitos ficam mais claros e a colaboração interfuncional acelera.

Fase 5: Implementação de linhagem de dados

A implementação de linhagem de dados trouxe visibilidade completa sobre a origem dos dados nos sistemas fonte, como os dados são transformados através dos pipelines de processamento, onde são utilizados nas aplicações downstream e quem acessa os dados através de trilhas de auditoria. Um exemplo típico de fluxo seria dados de clientes originando no sistema de Customer Relationship Management (CRM), passando para o data lake em formato bruto, sendo transformados através de pipelines, chegando ao banco de dados analítico para alimentar dashboards de BI, e simultaneamente usados para melhoria de eficiência de processos com IA, como a elaboração de contratos jurídicos com os dados dos clientes, além de serem usados para treinamentos de modelos de ML para classificação de riscos na esteira de cadastro. Os benefícios práticos incluem respostas a auditorias que antes levavam uma semana agora sendo respondidas em cinco minutos, análise de impacto antes de modificar campos de dados com compreensão completa das dependências downstream, troubleshooting rápido rastreando problemas de qualidade de dados até sua origem, e demonstração de práticas de tratamento de dados para reguladores com evidências visuais.

Fase 6: Framework de governança com papéis e responsabilidades

A sexta fase estabeleceu uma estrutura clara de governança definindo 30 Data Owners e 4 Data Stewards. Os Data Owners são líderes de negócio responsáveis por domínios de dados específicos, definindo políticas de uso, aprovando solicitações de acesso, garantindo qualidade de dados dentro de seus domínios e podendo editar e enriquecer metadados para seus produtos. Os Data Stewards são especialistas técnicos que implementam políticas de governança, mantêm o catálogo de dados e glossário, apoiam os Data Owners com orientação técnica e monitoram conformidade com padrões de governança. Esta estrutura funciona porque cria accountability clara prevenindo a síndrome do “problema de outra pessoa”, oferece escalabilidade através de ownership distribuído ao invés de controle centralizado, e aproveita expertise de domínio onde aqueles mais próximos aos dados tomam as melhores decisões sobre eles.

Fase 7: Classificação para conformidade regulatória

A sétima fase endereçou requisitos regulatórios críticos, especialmente LGPD (Lei Geral de Proteção de Dados) e leis de sigilo bancário. Cada tabela e coluna catalogada recebeu tags de classificação indicando nível de sensibilidade dos dados, requisitos regulatórios aplicáveis, restrições de acesso e políticas de retenção. Por exemplo, uma tabela de contas de clientes teria o ID da conta classificado como público, nome do cliente como dado pessoal sob LGPD, número de CPF como dado pessoal sensível sob LGPD mais sigilo bancário, saldo da conta sob sigilo bancário, e data de criação como público.

Fase 8: Controle de acesso e segurança

A implementação de segurança trouxe políticas baseadas em perfis através de controle de acesso baseado em função (RBAC), acesso auditável com logging completo de quem acessou quais dados e quando, autenticação integrada com sistemas de identidade existentes, e segregação de funções separando acesso a dados de administração de dados. Os benefícios de segurança incluem aplicação do princípio de menor privilégio, revisões automatizadas de acesso, trilha de auditoria para conformidade e redução de risco de ameaças internas.

Fase 9: Integração com backoffice

A fase final expandiu o escopo além dos dados de produtos, criando projetos dedicados no SageMaker para quatro áreas de backoffice. A área de Finanças recebeu dados de relatórios e análises financeiras, Customer Experience (CX) obteve dados de interação e satisfação do cliente, Risk ganhou dados de avaliação e monitoramento de risco, e Regulatory & Governance consolidou dados de conformidade e auditoria. Incluir equipes de backoffice no catálogo garantiu consistência em toda a empresa e preveniu lacunas de governança, reconhecendo que essas equipes também precisam de produtos de dados governados.

Esta jornada de nove fases transformou um cenário fragmentado de dados em um ecossistema governado, seguro e escalável, onde cada stakeholder conhece seu papel, cada dado tem seu guardião, e cada acesso deixa sua trilha auditável.

Gestão da mudança e transformação cultural

A implementação da tecnologia por si só não garante o sucesso. Aarin investiu significativamente na gestão da mudança organizacional:

Treinamento e capacitação

A Aarin desenvolveu um programa abrangente de treinamento para garantir a adoção efetiva da plataforma de governança de dados. A equipe de dados criou 10 vídeos de treinamento para a plataforma interna de aprendizado e conduziu 2 workshops práticos presenciais. Mais de 60 usuários receberam acesso à plataforma, com 15 ou mais profissionais diretamente envolvidos na implementação.

Os treinamentos cobriram tópicos essenciais para o uso completo da plataforma. Os usuários aprenderam a navegar pelo catálogo de dados, buscar e descobrir ativos de dados disponíveis, compreender a linhagem de dados para rastrear origem e transformações, utilizar o glossário de negócios para padronização de termos, solicitar acesso a dados seguindo os processos de governança, e enriquecer metadados quando atuando como Data Owners.

A abordagem da Aarin de combinar treinamento em vídeo assíncrono com workshops ao vivo demonstrou ser particularmente eficaz, acomodando diferentes estilos de aprendizado e agendas dos profissionais. Enquanto os vídeos permitiam que cada pessoa aprendesse no seu próprio ritmo e revisitasse conceitos quando necessário, os workshops práticos ofereciam oportunidades para esclarecer dúvidas, praticar cenários reais e construir confiança no uso da plataforma.

Desenvolvimento de uma cultura colaborativa

Mudança Cultural Fundamental: Os proprietários dos dados podem editar e enriquecer diretamente os metadados de seus produtos, criando um sistema de autoaperfeiçoamento.

Por que isso funciona:

  • Responsabilidade: As equipes se sentem responsáveis pela qualidade de seus dados.
  • Precisão: Os especialistas no domínio fornecem as descrições mais precisas.
  • Sustentabilidade: A manutenção distribuída escala melhor do que as atualizações centralizadas.
  • Engajamento: A participação ativa desenvolve a alfabetização em dados.

Resultados: quantificando o sucesso

Resultado quantitativos

Uma tabela mostrando cartões com os resultados quantitativos do projeto de governança usando o SageMaker Unified Studio. Tabelas catalogadas: 140+ Produtos integrados: 15 Áreas de backoffice incluídas: 4 Data owners definidos: 30 Data stewards nomeados: 4

Figura 2 – Resultados quantitativos da implantação do projeto de governança usando SageMaker Unified Studio

Impactos qualitativos

1. Preparação aprimorada para auditorias

Antes: Responder a solicitações de auditoria exigia a coleta manual de dados em vários sistemas, levando, em média, 5 dias.

Depois: Dados classificados e com linhagem completa permitem responder a auditorias com rapidez e precisão, reduzindo o tempo de resposta para menos de 5 minutos.

Cenário real: Quando os auditores perguntam “Mostre-me todos os sistemas que processam dados financeiros de clientes e quem tem acesso a eles”, a resposta agora está disponível em minutos por meio do catálogo.

2. Postura de segurança aprimorada

Funcionalidades habilitadas:

  • Proteção de dados sensíveis por meio de classificação.
  • Acesso segregado com base em funções e responsabilidades.
  • Rastreamento completo de auditoria de acesso a dados.
  • Monitoramento automatizado de conformidade.

Redução de riscos: A visibilidade clara de quem pode acessar quais dados reduz tanto o risco de ameaças internas quanto a exposição acidental de dados.

3. Aceleração da cultura orientada por dados

Transformação Cultural:

  • Democratização do conhecimento de dados em toda a organização.
  • Integração mais rápida de novos funcionários.
  • Redução da dependência de “especialistas em dados” para perguntas básicas.
  • Aumento da alfabetização em dados em toda a organização.

Exemplo Prático: Novos funcionários podem explorar o catálogo para entender os produtos de dados disponíveis, sua finalidade e como acessá-los — sem a necessidade de reuniões extensas com as equipes de dados.

4. Eficiência operacional e padronização documental com IA

Transformação Operacional: A aplicação de IA sobre dados homologados e governados elevou o processo de elaboração contratual a um novo patamar de eficiência, confiabilidade e escala, reduzindo atividades manuais, minimizando retrabalho e aumentando a padronização das entregas jurídicas e operacionais.

Cenário real: Ao aplicar IA sobre dados homologados e governados na elaboração de contratos, foi possível reduzir o tempo do processo em 99,5%, de 2 dias (ou 16 horas) para 5 minutos, com os modelos de minutas implementados e as fontes de dados integradas ao fluxo.

Ganho estratégico: Mais do que acelerar a operação, o caso demonstra como a combinação entre IA e governança de dados permite escalar processos críticos com maior controle, qualidade, padronização e aderência às regras do negócio.

5. Fundação de IA e Aprendizado de Máquina

Habilitação Estratégica:
O catálogo se torna infraestrutura essencial para iniciativas de IA, pois:

  • Acelera a descoberta de dados para o desenvolvimento de modelos.
  • Aprimora a precisão dos modelos por meio de uma melhor compreensão dos dados.
  • Permite a reutilização de recursos em projetos de aprendizado de máquina.
  • Fornece governança para pipelines de dados de IA/ML.

Preparação para o Futuro: À medida que a Aarin expande seus recursos de IA, o catálogo de dados governado garante um desenvolvimento de IA responsável e em conformidade com as normas.

Saiba Mais: Explore os serviços de IA/ML da AWS que se integram ao SageMaker Unified Studio.

Destaques da arquitetura técnica

Pontos de integração

Fontes de dados integradas:

  • Bancos de dados relacionais (dados de produtos).
  • Armazenamento em data lake (Amazon S3).
  • Fontes de dados de streaming.
  • Integrações com parceiros externos.

Serviços da AWS utilizados:

  • Amazon SageMaker Unified Studio: Plataforma de catálogo central.
  • Amazon Bedrock: Classificação de metadados com inteligência artificial.
  • AWS IAM: Gerenciamento de identidade e acesso.
  • AWS CloudTrail: Registro de auditoria.
  • Amazon S3: Armazenamento em data lake.

Conceito do diagrama de arquitetura:

Automação e APIs

Funcionalidades Implementadas:

  • Suporte a API: Acesso programático aos metadados do catálogo.
  • Registro Automatizado: Geração completa de trilhas de auditoria.
  • Geração de Relatórios: Relatórios de governança agendados.
  • Integrações: Conexões com fluxos de trabalho existentes.

Benefício para Desenvolvedores: Engenheiros de dados podem integrar funcionalidades do catálogo em pipelines de dados, garantindo que a governança seja automatizada em vez de manual.

Lições aprendidas e boas práticas

O que funcionou bem

A implementação bem-sucedida da governança de dados na Aarin foi resultado de quatro decisões estratégicas fundamentais que diferenciaram o projeto.
A primeira foi a adoção de uma abordagem faseada, começando com produtos centrais e expandindo gradualmente. Esta estratégia permitiu que a equipe demonstrasse valor rapidamente para stakeholders, aprendesse e ajustasse processos antes do rollout em escala completa, construísse momentum organizacional com vitórias incrementais, e gerenciasse a mudança de forma efetiva sem sobrecarregar a organização.
O segundo fator foi o uso de classificação acelerada por inteligência artificial. Ao utilizar o Amazon Bedrock para classificação inicial de metadados, a equipe reduziu dramaticamente o tempo de implementação que seria necessário para classificação manual, mantendo a precisão através de validação humana das sugestões da IA. Esta combinação de automação inteligente com supervisão humana provou ser o equilíbrio ideal entre velocidade e qualidade.
A colaboração entre negócio e tecnologia foi o terceiro elemento crucial. Envolver tanto Data Owners do lado de negócio quanto Data Stewards do lado técnico desde o início garantiu que a solução atendesse necessidades reais ao invés de ser apenas uma implementação tecnológica desconectada da realidade operacional. Esta parceria assegurou que as políticas de governança fossem práticas e aplicáveis, não apenas teoricamente corretas.
Por fim, o investimento substancial em treinamento preveniu a armadilha comum de implementar tecnologia que ninguém usa. Ao criar um programa de capacitação com múltiplos formatos de aprendizado, a Aarin garantiu que a plataforma fosse não apenas disponibilizada, mas efetivamente adotada e utilizada no dia a dia das equipes.

Principais armadilhas evitadas

O êxito da Aarin também pode ser atribuído à sua habilidade de evitar armadilhas comuns que frequentemente comprometem iniciativas de governança de dados.

A primeira armadilha evitada foi a abordagem tecnologia-primeiro, onde organizações selecionam ferramentas antes de compreender completamente seus problemas. A Aarin inverteu esta lógica, começando com problemas de negócio concretos como prontidão para auditorias, segurança de dados e transformação cultural, e somente então selecionando tecnologias apropriadas para resolver esses desafios específicos. Esta abordagem orientada a problemas garantiu que cada componente tecnológico implementado tivesse um propósito claro e mensurável.

O gargalo centralizado foi a segunda armadilha evitada durante o processo. Muitas organizações criam equipes centrais de dados que rapidamente se tornam gargalos, atrasando projetos e frustrando stakeholders. A arquitetura Data Mesh e o modelo de Data Ownership distribuído implementados pela Aarin preveniram que a equipe de dados se tornasse um ponto de estrangulamento. Ao distribuir responsabilidade para especialistas de domínio, a organização ganhou escalabilidade e agilidade.

A Aarin optou por um rollout faseado através dos produtos, permitindo que a equipe aprendesse com cada fase, ajustasse a abordagem baseada em feedback real, e construísse confiança progressivamente. Cada sucesso incremental fortaleceu o caso para a próxima fase.

Finalmente, a negligência da gestão de mudança é talvez a armadilha mais fatal em projetos de governança de dados. Tecnologia sem adoção é apenas desperdício de investimento. A Aarin reconheceu isso desde o início, fazendo investimento significativo em treinamento através de vídeos e workshops, e focando na transformação cultural necessária para que governança de dados se tornasse parte do DNA organizacional, não apenas mais uma ferramenta ignorada.

Futuro: roadmap da Aarin

O objetivo primário da Aarin para o futuro próximo é transformar o catálogo no hub central de conhecimento da empresa, onde qualquer funcionário possa autonomamente encontrar respostas sobre dados sem depender de intermediários ou longas cadeias de aprovação.
Para alcançar esta visão, a empresa planeja iniciativas contínuas de treinamento e campanhas de conscientização que mantenham a governança de dados no radar de todos os colaboradores. O compartilhamento de histórias de sucesso e casos de uso reais demonstrará o valor tangível da plataforma, inspirando outros times a adotarem práticas similares. Adicionalmente, a gamificação do uso do catálogo tornará a descoberta e documentação de dados mais engajante, incentivando comportamentos desejados através de mecânicas que reconhecem e recompensam contribuições significativas ao ecossistema de dados.

Conclusão

A jornada da Aarin demonstra que governança de dados efetiva não é apenas sobre tecnologia—é sobre pessoas, processos e cultura. Ao combinar o Amazon SageMaker Unified Studio com uma arquitetura Data Mesh, classificação acelerada por IA via Amazon Bedrock, e um framework robusto de ownership distribuído, a fintech transformou um cenário fragmentado de dados em um ecossistema governado que atende tanto requisitos regulatórios quanto necessidades de negócio. Os resultados falam por si: mais de 140 tabelas catalogadas, 30 Data Owners capacitados, tempo de resposta a auditorias reduzido de semanas para minuto, tempo de elaboração de contratos reduzido de 2 dias para 5 minutos e possibilitando a fundação para habilitar cenários de IA/ML em escala.
O diferencial desta implementação foi a abordagem faseada que priorizou valor incremental, o investimento substancial em gestão de mudança com treinamento abrangente, e a colaboração genuína entre equipes técnicas e de negócio. Para organizações enfrentando desafios similares de governança, o caminho está claro: comece pequeno com produtos críticos, capacite seus especialistas de domínio como Data Owners, e construa tração através de vitórias rápidas.

Próximos passos:

Autores

Gabriela Pianezzola Serafim é Coordenadora de TI na Compass UOL, com foco na construção de plataformas de dados escaláveis e na geração de valor para o negócio.
Marcelo Rezende da Aarin é Data Manager na Aarin, com atuação em Fintechs, lidera iniciativas de Dados voltadas à construção de capacidades que sustentam crescimento e escala. Trabalha impulsionando a inovação com foco em métricas e performance, IA aplicada, governança e tomada de decisão orientada por evidências. Seu foco é acelerar a transformação do setor, conectando rigor analítico, visão estratégica e excelência na execução para gerar impacto real e mensurável no negócio.
Luiz Yanai - Analytics Specialist SA

Luiz Yanai é arquiteto especialista sênior em Data & AI na AWS atuando com clientes nativos na nuvem e empresas do ramo financeiro em suas jornadas para se tornarem data-driven. Possui 20 anos de experiência em arquitetura e desenvolvimento de soluções envolvendo sistemas empresariais e de missão crítica sendo que os últimos 5 anos estão focados na nuvem AWS.