Aprenda
Adaptive ML e CCS aceleram o suporte aos pacientes com o Llama da Meta e a AWS

Adaptive ML e CCS aceleram o suporte aos pacientes com o Llama da Meta e a AWS

Como estava esse conteúdo?

A Adaptive ML, uma empresa que desenvolve software de aprendizado por reforço para IA corporativa, decidiu ajudar a CCS, fornecedora líder de soluções clínicas e suprimentos médicos entregues em domicílio, a melhorar os tempos de resposta e a confiabilidade em suas operações de atendimento ao paciente para pessoas que convivem com condições crônicas. A equipe da Adaptive ML testou um agente de IA projetado para executar tarefas operacionais reais em sistemas internos usando modelos Llama da Meta na Amazon Web Services (AWS). Uma prova de conceito demonstrou uma abordagem mais rápida e eficiente aos fluxos de trabalho de suporte de IA empresarial que reduziu a latência de resposta em mais de 90%.

Melhora nos tempos de resposta de suporte ao paciente

As organizações de saúde que apoiam pacientes com doenças crônicas devem responder de forma rápida e confiável às solicitações sobre suprimentos, remessas e gerenciamento de cuidados, mesmo durante picos de demanda. Quando os pacientes confiam em dispositivos como monitores contínuos de glicose ou bombas de insulina, atrasos na resolução de problemas podem interromper o tratamento e criar tensão operacional para as equipes de suporte. A CCS fornece serviços de apoio ao paciente que ajudam as pessoas a gerenciar as necessidades contínuas de cuidados, incluindo a logística e a coordenação necessárias para manter suprimentos médicos essenciais. Essas interações geralmente exigem que os agentes acessem vários sistemas internos para recuperar informações, verificar pedidos ou orientar os pacientes nas etapas seguintes. À medida que os volumes de suporte flutuam, a IA está se tornando um componente cada vez mais importante para melhorar os tempos de resposta.

Para enfrentar esse desafio, a CCS começou a explorar como os agentes de IA poderiam ajudar a otimizar os fluxos de trabalho de suporte ao paciente. O objetivo era habilitar sistemas automatizados que pudessem interagir diretamente com as ferramentas corporativas, recuperar informações dos sistemas internos e concluir tarefas operacionais em nome das equipes de suporte. Conseguir isso requer mais do que uma IA conversacional. Os agentes de suporte corporativo devem executar chamadas de função de forma confiável, permitindo que os modelos invoquem APIs em sistemas como CRMs, bases de conhecimentos e plataformas de gerenciamento de pedidos. Se essas chamadas falharem devido a parâmetros incorretos ou saídas malformadas, o fluxo de trabalho será interrompido. A solicitação deve então ser entregue a um agente humano, aumentando os tempos de espera e a sobrecarga operacional. As abordagens tradicionais geralmente dependem de grandes modelos proprietários acessados por meio de APIs externas. Embora sejam generalistas capazes, esses modelos podem introduzir latência e limitar o controle sobre o treinamento ou a otimização de fluxos de trabalho corporativos especializados. A Adaptive ML fez parceria com a CCS para explorar uma abordagem diferente: usar modelos abertos otimizados de aprendizado por reforço para alimentar agentes de IA confiáveis que poderiam operar de forma rápida e eficiente em ambientes reais de suporte de saúde.

Implantação de uma arquitetura especializada de agentes de IA

A Adaptive ML implementou a prova de conceito usando o Adaptive Engine, uma plataforma de operações de aprendizado por reforço (RLOps) projetada para ajudar as empresas a treinar, avaliar e implantar modelos de linguagem especializados. Para o caso de uso da CCS, a Adaptive ML selecionou o modelo Meta Llama 3.2 3B, um modelo compacto de código aberto adequado para aplicações corporativas em tempo real. Modelos menores oferecem vantagens significativas para fluxos de trabalho operacionais: tempos de inferência mais rápidos, menores requisitos de infraestrutura e a capacidade de iterar rapidamente durante o desenvolvimento. “Assim que testamos os modelos Llama, a diferença de latência foi significativa”, afirmou Olivier Cruchant, cofundador da Adaptive ML. “Com um modelo compacto, você pode responder quase em tempo real, o que é exatamente o que você precisa para interações de suporte ao paciente.”

Esses agentes de IA empresarial exigem um alto nível de precisão na chamada de funções para interagir de forma confiável com os sistemas empresariais. Para atender a esse requisito, a Adaptive ML aplicou o ajuste fino baseado em aprendizado por reforço por meio do Adaptive Engine. O processo treinou o modelo Llama para gerar de forma confiável os resultados estruturados necessários para interagir com APIs e sistemas empresariais. O sistema foi implantado nas instâncias p5.4xlarge do Amazon Elastic Compute Cloud (Amazon EC2) equipadas com GPUs NVIDIA H100, fornecendo os recursos computacionais necessários para executar o modelo com eficiência.

A Adaptive ML também usou Blocos de Capacidade do Amazon EC2, que permitem que os recursos da GPU sejam reservados para janelas de tempo específicas. Isso permitiu que a equipe garantisse a disponibilidade da GPU para benchmarking e testes, mantendo a flexibilidade no provisionamento. “Poder reservar capacidade para uma janela específica foi extremamente útil”, afirmou Olivier. “Isso nos permitiu executar benchmarks em grande escala com a confiança de que a infraestrutura estaria disponível.” A infraestrutura da AWS também ajudou a reduzir a latência do sistema ao colocar os recursos computacionais e os bancos de dados de suporte na mesma zona de disponibilidade. Do ponto de vista da CCS, a integração permaneceu simples. A Adaptive ML hospedou o ambiente modelo na AWS e o expôs por meio de um endpoint de API HTTPS, permitindo que as aplicações da CCS chamassem o agente de IA diretamente sem grandes mudanças na arquitetura.

Demonstração do desempenho escalável da IA na área de saúde

A prova de conceito demonstrou que um modelo compacto e especializado poderia oferecer desempenho de nível empresarial para fluxos de trabalho de suporte ao paciente baseados em IA. O sistema alcançou uma latência de inferência do lado do cliente de aproximadamente 230 milissegundos, representando uma redução de mais de 90% em comparação com a linha de base de um modelo proprietário. Esse tempo de resposta de ponta a ponta inclui todo o ciclo de solicitação, enquanto a latência de inferência do modelo é em média de aproximadamente 160 milissegundos no lado do servidor. Isso significava que o agente de IA poderia responder rapidamente mesmo durante fluxos de trabalho de várias etapas. “Para fluxos de trabalho em tempo real, a latência é tudo”, afirmou Olivier. “Quando as respostas retornam em algumas centenas de milissegundos em vez de vários segundos, a experiência torna-se útil tanto para pacientes quanto para as equipes de suporte.”

A menor latência também melhora a confiabilidade dos fluxos de trabalho automatizados. Como o modelo pode gerar chamadas de função precisas rapidamente, ele pode recuperar dados de sistemas corporativos e concluir tarefas sem exigir intervenção humana. Isso reduz os atrasos nas interações com os pacientes e permite que as equipes de suporte se concentrem em casos mais complexos. A arquitetura também demonstrou um novo modelo econômico para implantações de IA empresarial. “Modelos pequenos revelam algo poderoso: a capacidade de integrar o conhecimento e os fluxos de trabalho exclusivos da CCS ao suporte ao paciente, aumentando a velocidade e a confiabilidade”, afirmou Richard Mackey, diretor de tecnologia da CCS.

A prova de conceito da CCS destaca como as organizações de saúde podem começar a integrar agentes de IA aos fluxos de trabalho operacionais, mantendo a capacidade de resposta e a confiabilidade necessárias para os serviços voltados ao paciente. Ao combinar os modelos Llama da Meta com a plataforma de aprendizado por reforço da Adaptive ML e a infraestrutura da AWS, a colaboração demonstra um caminho em direção a sistemas de suporte de IA escaláveis projetados para ambientes empresariais do mundo real.

Como estava esse conteúdo?