O blog da AWS
Saiba como a Akad Seguros vem inovando no setor de seguros usando seu Data Lake na AWS
Daniel da Costa, Engenheiro de Dados Akad Seguros,
Rodrigo Zamagno, Engenheiro de Dados Akad Seguros,
Iris Ferreira, Arquiteta de Soluções AWS,
Allex Lima, Arquiteto de Soluções AWS
Desafio
Diante de uma nova diretriz na gestão da empresa em 2022, o acesso a dados para tomada de decisões foi repensado e a Akad decidiu pela construção de um Data Lake. Já possuindo experiência em arquitetar soluções na AWS, o time de dados da empresa continuou confiando na capacidade do provedor para oferecer escalabilidade, segurança e inovação.
Construção do data lake transacional na AWS
Assim, o Lake foi projetado para armazenar os 10 anos de dados de atuação da empresa, além de processar novos dados incrementais, realizando a captura de dados de alteração (CDC) dos bancos de dados relacionais. Para isso, foram utilizados o Amazon S3 e o AWS Data Migration Service (DMS), o qual, através de configuração simples e intuitiva, consegue lidar tanto com ingestão de bases históricas como replicação contínua de inserções, edições e remoções no Lake. Tudo isso arquitetado para oferecer uma visão consistente e performática dos dados, e com atenção para o cumprimento dos regulamentos vigentes.
No entanto, executar operações como inserir, atualizar e excluir (conhecidas também como upserts) a nível de registro no armazenamento do Data Lake exige que o mecanismo de processamento leia todos os objetos (arquivos), faça as alterações e reescreva conjuntos de dados inteiros como novos arquivos. Além disso, disponibilizar os dados no Data Lake quase em tempo real geralmente leva à fragmentação dos dados em muitos arquivos pequenos, resultando em baixo desempenho de consulta e manutenção de compactação.
Para endereçar essas questões, a Akad optou por implementar o Delta Lake, uma solução open-source que suporta transações ACID (atômicas, consistentes, isoladas, duráveis), evolução de esquema e viagem no tempo, a qual permite consultar o histórico de edições de um registro e reverter dados, caso necessário. Executando o Delta Lake no Apache Spark usando o Amazon EMR e o AWS Step Functions para orquestração das pipelines de dados, a Akad consegue processar mais de 100 GB de dados de forma eficiente e escalável, lidar com upserts na camada do S3 e manter a integridade da base de dados.
Baseado no AWS Prescriptive Guidance para data lakes, a Akad utiliza três camadas de dados para garantir governança e observabilidade adequadas – Raw, Staging e Curated. Na camada Raw, os dados são armazenados no formato bruto, sem transformação ou limpeza, para preservar a integridade e autenticidade das informações originais. Na camada Staging, é feito o tratamento dos upserts e encontram-se, portanto, os dados consolidados. Finalmente, na zona Curated, os dados estão transformados, processados, otimizados para consumo e agregados de acordo com os requisitos da organização. Em todas as zonas, os dados são catalogados por meio do AWS Glue, a fim de gerenciar e capacitar o uso rápido e efetivo dos dados para análises e insights.
Usando os dados em Curated, a Akad cria painéis de inteligência de negócios, utilizando uma ferramenta de business intelligence (BI); faz queries ad-hoc usando o Amazon Athena; treina e testa modelos de machine learning; oferece acesso a dados de qualidade para diferentes áreas da empresa e constrói soluções automatizadas para processos internos, sempre com o objetivo de impulsionar vendas e gerir proativamente sua carteira de clientes.
Resultados
Com a utilização do Data Lake, a Akad hoje é capaz de entender e gerar insights sobre a operação de cada produto, aprimorando o conhecimento e processo de tomada de decisão das equipes, resultando em melhorias significativas em suas operações, como na redução da sinistralidade do seguro de transporte de cargas
Para o futuro, a empresa busca a integração de novas fontes de dados no seu Data Lake, incluindo novos bancos de dados, APIs e arquivos de fontes diversas, com o objetivo de melhorar a democratização de dados dentro da organização, permitindo que cada área tenha autonomia para fazer todas as análises que julguem adequadas e a empresa caminhe rumo a um cenário de “data-as-a-service”. Com essa abordagem e investindo em tecnologia, a Akad se destaca no mercado de seguros ao agregar inteligência competitiva aos seus produtos, melhorando assim a experiência de seus clientes.
Sobre os autores
Rafael Siqueira é gerente de Engenharia e Ciência de Dados na Akad Seguros e lidera a criação do ambiente e das soluções de dados da empresa. Fora do trabalho, gosta de ler livros sobre espiritualidade e evolução da cultura, assistir séries e produzir música eletrônica
Daniel da Costa atuou com engenheiro de dados na Akad Seguros, liderando o desenvolvimento inicial do Data Lake. Hoje em dia, realiza um Mestrado em Data Science na University of Southern California, com interesse voltado para a área de Engenharia de Dados. Em seu tempo livre, gosta de praticar atividades físicas e ir à praia.
Rodrigo Zamagno é engenheiro de dados na Akad Seguros, onde é responsável por aprimorar o Data Lake e construir o novo Data Warehouse da empresa. Fora do trabalho, é um entusiasta de robótica, esportes e viagens, sempre buscando aprender e explorar novas áreas de interesse.
Iris Ferreira é arquiteta de soluções na AWS, apoiando clientes em suas jornadas de inovação e transformação digital na nuvem. Em seu tempo livre, gosta de velejar e estar sempre em contato com a natureza.
Allex Lima é arquiteto de soluções na AWS com experiência na modelagem e implantação de modelos de aprendizado de máquina profundo voltados principalmente para o setor de agricultura e serviços financeiros. Atualmente trabalha principalmente com otimização de workloads em nuvem, e estuda principalmente sobre diversidade de inferência e técnicas de ensemble em deep learning.