O blog da AWS

Como a Natura&Co usa IA Generativa na AWS para aumentar a eficiência na resolução de problemas

Por Gidalti Lopes, Site Reliability Engineer (SRE) em Natura &Co; Luís Gustavo Borges Sanoani, líder de equipes como Cloud SRE, Monitoramento, Middleware e FinOps na Natura &Co; Maykon de Salvi, Mentor Técnico da equipe SRE Natura &Co; Breno Silva, Arquiteto de Soluções na AWS e Caio Monteiro, Principal Customer Solutions Manager.

Introdução
Natura &Co é uma das líderes do setor de beleza e cosméticos, com uma presença significativa e impactante na região. Com marcas renomadas como Natura e Avon, o grupo abrange uma ampla gama de produtos e serviços, que vão desde cuidados com a pele e cabelos até fragrâncias e maquiagem. Hoje Natura &Co conta com cerca de 22 mil colaboradores distribuídos em mais de 50 países.

A empresa vem inovando com a Amazon Web Services (AWS) desde 2016 e, desde 2020, conta com um Centro de Excelência em Cloud e DevOps (CCoE), criado com o objetivo de viabilizar a estratégia de negócios definida para o longo prazo e reduzir o lead time de entregas dos times de produtos/engenharia, garantindo sempre qualidade e segurança através da adoção de serviços de nuvem. Ao longo dos últimos anos, a busca pela excelência operacional em nuvem trouxe um desafio relacionado à escala e à complexidade das aplicações.

A resolução de problemas (troubleshooting) requeria domínio de diferentes tecnologias e demandava tempo. Procurando uma resposta de como simplificar a complexidade da nuvem, buscando troubleshootings mais rápidos e permitindo que até mesmo pessoas não técnicas participem da resolução de problemas em tempo real, o TroubOps promove uma centralização de informações cruciais de todas as contas AWS em um único local.

Solução
O time de Engenharia de Confiabilidade de Sistemas (SRE) Natura &Co, integrou inteligência artificial para oferecer diagnósticos e resoluções de problemas de forma rápida e inteligente.

Assistente com Amazon Bedrock
Com um foco incansável na simplificação e na eficiência, o TroubOps é alimentado por uma análise avançada dos serviços fundamentais da AWS incluindo métricas de funções AWS Lambda, Amazon API Gateway, Amazon EKS, Amazon Relational Database Service, Amazon ElastiCache, Amazon CloudWatch, Amazon VPC, AWS CloudTrail e outros serviços que estão por vir. Ao integrar esses dados em uma única plataforma, o TroubOps oferece insights claros, orgânicos e recomendações acionáveis, mesmo para usuários não técnicos, graças à sua integração com modelos de inteligência artificial generativa (LLMs) no Amazon Bedrock. As métricas resgatadas a respeito de uma carga de trabalho são enviadas junto com o prompt para o modelo, e os insights são retornados em linguagem natural.

Além disso, também existe a possibilidade do usuário interagir com imagens de gráficos e dashboards usando IA generativa, por meio do modelo multimodal Claude v3 Sonnet.

Inventário AWS
Uma das características mais empolgantes do TroubOps é sua capacidade de construir automaticamente um inventário completo dos serviços e aplicações na AWS, ao mesmo tempo que filtra automaticamente problemas conhecidos, evitando assim que se tornem obstáculos no caminho da operação fluida. Ao promover a colaboração e o acesso ao feedback das resoluções anteriores, o TroubOps oferece um histórico persistente de incidentes e resoluções, facilitando a aprendizagem e aprimoramento contínuo da equipe.

Integrações
Integrando com ferramentas essenciais como Kibana, Grafana e ArgoCD, o TroubOps se torna uma peça central na gestão eficaz da infraestrutura na nuvem Natura &Co.
Também é possível realizar consultas via API REST aos módulos do TroubOps, promovendo a integração com outras aplicações. É possível automatizar o troubleshooting e capacitar diversas equipes com os insights da ferramenta, otimizando a operação diária, ao mesmo tempo que impulsiona a inovação e a excelência em toda a organização.

Arquitetura simplificada da solução

Tela da aplicação – exibindo informações sobre uma aplicação de teste

Resultados
A implementação do TroubOps resultou em uma redução no tempo de troubleshooting das aplicações nos ambientes EKS e Lambda. Anteriormente, as consultas a esses serviços envolviam a execução de algumas linhas de comando e acesso ao console AWS. Com o TroubOps, esse processo foi simplificado e otimizado, permitindo uma resolução de problemas mais rápida e centralizada.
Ainda, houve uma redução significativa, de aproximadamente 50%, no tempo de consulta de recursos e serviços da AWS devido à centralização das informações de inventário. Esta abordagem tem sido particularmente benéfica em ambientes mais complexos e que envolvam muitos serviços.

“Com a consolidação das informações de inventário, agora é muito mais rápido e eficiente encontrar e gerenciar recursos tendo uma visão 360 de todas as dependências de uma aplicação, resultando em uma melhoria notável na produtividade e na capacidade de resposta às demandas operacionais.” – Gidalti Lopes, Site Reliability Engineer (SRE) na Natura &Co.

O histórico de troubleshooting fornece insights e recomendações para futuras resoluções de problemas. Ao analisar os casos anteriores, conseguimos identificar padrões e tendências, o que permite antecipar e prevenir problemas semelhantes no futuro. Isso não só reduz o tempo de inatividade, mas também aumenta a eficiência operacional e a confiabilidade dos sistemas.
O TroubOps tem sido adotado por equipes como Monitoring, Middleware, Central de Comando, SRE e DevOps. Também unindo forças e compartilhando práticas recomendadas, estão fortalecendo a resiliência do ambiente e melhorando a experiência geral do usuário.

Considerações
O TroubOps representa não apenas uma evolução na forma como Natura &Co está gerenciando sua infraestrutura na nuvem, mas também um salto significativo em direção a um futuro em que a inteligência artificial e a automação são peças chave na busca pela excelência operacional.

Implementações Futuras
Os próximos passos incluem:

  • Criação de imagens de fluxogramas de aplicações utilizando o Amazon Bedrock.
  • Integrações com ferramentas de monitoramento, como Dynatrace.
  • Integrações com ferramentas de Middleware, como Akamai.
  • Mapeamento de endereços públicos.

Autores

Gidalti Lopes possui 10 anos de experiência na área de tecnologia, atuando como analista de infraestrutura, sysadmin, DevOps e, atualmente, no mundo cloud. Hoje, ocupa o cargo de Site Reliability Engineer (SRE) em Natura &Co, onde também é mentor e criador da plataforma TroubOps.
Fã de automação e inteligência artificial, Gidalti atualmente integra o time de Inovação SRE, contribuindo significativamente para a evolução e a eficiência dos processos tecnológicos em Natura &Co.
Luís Gustavo Borges Sanoani: Com mais de 17 anos de experiência em TI, desenvolvendo e executando projetos de arquitetura e infraestrutura tanto on premise quanto em cloud. Em Natura &Co, Sanoani lidera equipes como Cloud SRE, Monitoramento, Middleware e FinOps, demonstrando habilidades em gestão e inovação tecnológica. Além disso, Sanoani é um entusiasta de inteligência artificial, incentivando todas as equipes a adotarem automações alimentadas por IA para aprimorar processos e resultados.
Maykon de Salvi tem 20 anos de experiência e tem atuado como Arquiteto e Líder Técnico, sendo responsável por projetar, implantar, operar e monitorar todas as camadas de middleware e cloud. Como Mentor Técnico da equipe SRE Natura &Co, Maykon define as tecnologias e arquiteturas dos projetos, além de prever e solucionar problemas técnicos em cloud computing.
Breno Silva é Arquiteto de Soluções na AWS, atendendo o setor Enterprise. Atuou com soluções para clientes de CPG, varejo, manufatura e automotivo. Faz parte de comunidades de Cyber-Security e de IoT. No tempo livre gosta de automatizar sua casa, tocar guitarra e praticar esportes ao ar livre.
Caio Monteiro é Principal Customer Solutions Manager, atentendo o setor de Enterprise e o segmento de varejo.