Passer au contenu principalAWS Startups
  1. Apprendre
  2. Adaptive ML et CCS accélèrent l’assistance aux patients grâce à Meta Llama et AWS

Adaptive ML et CCS accélèrent l’assistance aux patients grâce à Meta Llama et AWS

Comment a été ce contenu ?

Adaptive ML, une entreprise qui développe des logiciels d’apprentissage par renforcement pour l’IA d’entreprise, a entrepris d’aider CCS, l’un des principaux fournisseurs de solutions cliniques et de fournitures médicales livrées à domicile, à améliorer les temps de réponse et la fiabilité de ses opérations de service aux patients atteints de maladies chroniques. L’équipe d’Adaptive ML a testé un agent d’IA conçu pour exécuter de vraies tâches opérationnelles au sein de systèmes internes à l’aide de modèles Llama de Meta sur Amazon Web Services (AWS). Une preuve de concept a démontré une approche plus rapide et plus efficace des flux d’assistance basés sur l’IA d’entreprise, réduisant la latence de réponse de plus de 90 %.

Amélioration des temps de réponse de l’assistance aux patients

Les organisations de santé qui accompagnent des patients atteints de maladies chroniques doivent répondre rapidement et de manière fiable aux demandes concernant les fournitures, les expéditions et la coordination des soins, même lors des pics d’activité. Lorsque les patients dépendent d’appareils comme les glucomètres en continu ou les pompes à insuline, tout retard dans la résolution des problèmes peut perturber le traitement et mettre les équipes d’assistance sous pression. CCS fournit des services d’accompagnement des patients qui les aident à gérer leurs besoins de soins continus, y compris la logistique et la coordination nécessaires pourmaintenir les fournitures médicales essentielles. Ces interactions obligent souvent les agents à consulter plusieurs systèmes internes pour récupérer des informations, vérifier des commandes ou guider les patients dans les étapes suivantes. Alors que les volumes d’assistance fluctuent, l’IA devient un  élément de plus en plus important pour améliorer les temps de réponse. 

Pour relever ce défi, CCS a commencé à explorer la façon dont des agents d’IA pouvaient contribuer à fluidifier les flux d’assistance aux patients. L’objectif était de mettre en place des systèmes automatisés capables d’interagir directement avec les outils de l’entreprise, de récupérer des informations depuis les systèmes internes et d’exécuter des tâches opérationnelles pour le compte des équipes d’assistance. Pour y parvenir, l’IA conversationnelle ne suffit pas. Les agents d’assistance en entreprise doivent exécuter de manière fiable des appels de fonctions, afin que les modèles puissent invoquer des API dans des systèmes comme les CRM, les bases de connaissances et les plateformes de gestion des commandes. Si ces appels échouent en raison de paramètres erronés ou de sorties mal formées, le flux de travail s’interrompt. La demande doit alors être transmise à un agent humain, ce qui augmente les temps d’attente et la charge opérationnelle. Les approches traditionnelles s’appuient souvent sur de grands modèles propriétaires accessibles via des API externes. Bien qu’efficaces en tant que généralistes, ces modèles peuvent introduire de la latence et limiter le contrôle sur l’entraînement ou l’optimisation de flux spécialisés. Adaptive ML s’est associée à CCS pour explorer une autre voie : utiliser des modèles ouverts par apprentissage par renforcement, optimisés pour alimenter des agents d’IA fiables capables de fonctionner rapidement et efficacement dans des environnements réels d’assistance en santé.

Déploiement d’une architecture d’agent d’IA spécialisée

Adaptive ML a mis en œuvre la preuve de concept à l’aide d’Adaptive Engine, une plateforme d’opérations d’apprentissage par renforcement (RLOps) conçue pour aider les entreprises à entraîner, évaluer et déployer des modèles de langage spécialisés. Pour le cas d’usage de CCS, Adaptive ML a choisi le modèle Meta Llama 3.2 3B, un modèle open source compact bien adapté aux applications d’entreprise en temps réel. Les modèles plus petits offrent des avantages importants pour les flux opérationnels : des temps d’inférence plus rapides, des besoins d’infrastructure plus faibles et la possibilité d’itérer rapidement pendant le développement. « Dès que nous avons testé les modèles Llama, la différence de latence a été spectaculaire », a déclaré Olivier Cruchant, cofondateur d’Adaptive ML. « Avec un modèle compact, vous pouvez répondre quasiment en temps réel, ce qui est exactement ce qu’il faut pour les interactions de soutien aux patients. » 

Ces agents d’IA d’entreprise nécessitent un haut niveau de précision dans les appels de fonction pour interagir de manière fiable avec les systèmes métier. Pour répondre à cette exigence, Adaptive ML a appliqué un peaufinage fondé sur l’apprentissage par renforcement via Adaptive Engine. Le processus a entraîné le modèle Llama à générer de façon fiable les sorties structurées nécessaires pour interagir avec les API d’entreprise et les systèmes métier. Le système a été déployé sur des instances Amazon Elastic Compute Cloud (Amazon EC2) p5.4xlarge équipées du GPU NVIDIA H100, fournissant les ressources de calcul nécessaires pour exécuter efficacement le modèle. 

Adaptive ML a également utilisé des blocs de capacité Amazon  EC2, qui permettent de réserver des ressources GPU sur des créneaux précis. Cela a permis à l’équipe de sécuriser la disponibilité des GPU pour les benchmarks et les tests tout en préservant une flexibilité de provisionnement. « La possibilité de réserver de la capacité sur une fenêtre précise nous a été extrêmement utile », a déclaré Olivier Cruchant. « Cela nous a permis d’exécuter des benchmarks à grande échelle avec la certitude que l’infrastructure serait disponible. » L’infrastructure AWS a également contribué à réduire la latence du système en plaçant les ressources de calcul et les bases de données associées dans la même zone de disponibilité. Du point de vue de CCS, l’intégration est restée simple. Adaptive ML a hébergé l’environnement du modèle sur AWS et l’a exposé via un point de terminaison d’API HTTPS, permettant aux applications CCS d’appeler directement l’agent d’IA sans changements architecturaux majeurs.

Démonstration de performances d’IA de soins de santé à l’échelle

La preuve de concept a démontré qu’un modèle spécialisé et compact pouvait offrir des performances de niveau professionnel pour des flux d’assistance aux patients alimentés par l’IA. Le système a atteint une latence d’inférence côté client d’environ 230 millisecondes, soit plus de 90 % de réduction par rapport à la référence d’un modèle propriétaire. Ce temps de réponse de bout en bout inclut le cycle complet de la requête, tandis que la latence d’inférence du modèle s’élevait en moyenne à environ 160 millisecondes côté serveur. L’agent d’IA pouvait donc répondre rapidement, même dans des flux en plusieurs étapes. « Pour les flux en temps réel, la latence fait tout », a déclaré Olivier Cruchant. « Quand les réponses reviennent en quelques centaines de millisecondes au lieu de plusieurs secondes, l’expérience devient exploitable aussi bien pour les patients que pour les équipes d’assistance. » 

Une latence plus faible améliore aussi la fiabilité des flux automatisés. Le modèle pouvant générer des appels de fonction précis rapidement, il peut récupérer des données depuis les systèmes de l’entreprise et effectuer des tâches sans intervention humaine. Cela réduit les délais dans les interactions avec les patients et permet aux équipes d’assistance de se concentrer sur les cas plus complexes. L’architecture a également démontré un nouveau modèle économique pour les déploiements d’IA d’entreprise. « Les petits modèles offrent quelque chose de puissant : la possibilité d’intégrer les connaissances propriétaires et les flux de travail de CCS dans l’assistance aux patients, en renforçant à la fois la rapidité et la fiabilité », a déclaré Richard Mackey, directeur technique de CCS. 

La preuve de concept menée avec CCS montre comment les organisations de santé peuvent commencer à intégrer des agents d’IA dans leurs flux opérationnels tout en préservant la réactivité et la fiabilité requises pour des services en contact direct avec les patients. En combinant les modèles Llama de Meta, la plateforme d’apprentissage par renforcement d’Adaptive ML et l’infrastructure AWS, cette collaboration montre une voie vers des systèmes d’assistance IA à l’échelle conçus pour des environnements d’entreprise réels. 

Comment a été ce contenu ?