Scopri
Adaptive ML e CCS accelerano l'assistenza ai pazienti con Meta Llama e AWS

Adaptive ML e CCS accelerano l'assistenza ai pazienti con Meta Llama e AWS

Come ti è sembrato il contenuto?

Adaptive ML, una società che sviluppa software di apprendimento per rinforzo per l'IA per le aziende, ha deciso di aiutare CCS, fornitore leader di soluzioni cliniche e forniture mediche consegnate a domicilio, a migliorare i tempi di risposta e l'affidabilità delle sue operazioni di assistenza ai pazienti per le persone gestione delle condizioni croniche. Il team di Adaptive ML ha testato un agente IA progettato per eseguire attività operative reali su sistemi interni utilizzando i modelli Llama di Meta su Amazon Web Services (AWS). Un proof of concept ha evidenziato un approccio più rapido ed efficiente ai flussi di lavoro di supporto all'IA aziendale, riducendo la latenza di risposta di oltre il 90%.

Miglioramento dei tempi di risposta dell'assistenza ai pazienti

Le organizzazioni sanitarie che assistono pazienti con patologie croniche devono rispondere in modo rapido e affidabile alle richieste relative a forniture, spedizioni e gestione dell'assistenza, anche durante i picchi di domanda. Quando i pazienti dipendono da dispositivi come monitor continui del glucosio o pompe per insulina, i ritardi nella risoluzione dei problemi possono interrompere il trattamento e creare stress operativo per i team di supporto. CCS fornisce servizi di supporto ai pazienti che aiutano le persone a gestire le esigenze di assistenza continua, compresi la logistica e il coordinamento necessari a mantenere le forniture mediche essenziali. Queste interazioni spesso richiedono agli agenti di accedere a più sistemi interni per recuperare informazioni, controllare gli ordini o guidare i pazienti nelle fasi successive. Con la fluttuazione dei volumi di assistenza, l'intelligenza artificiale sta diventando una componente sempre più importante per migliorare i tempi di risposta.

Per affrontare questa sfida, CCS ha iniziato a esplorare come gli agenti di intelligenza artificiale potessero contribuire a semplificare i flussi di lavoro di supporto ai pazienti. L'obiettivo era quello di abilitare sistemi automatizzati in grado di interagire direttamente con gli strumenti aziendali, recuperare informazioni dai sistemi interni e completare attività operative per conto dei team di supporto. Raggiungere questo obiettivo richiede più di una semplice intelligenza artificiale conversazionale. Gli agenti di supporto aziendali devono eseguire in modo affidabile le chiamate di funzione, consentendo ai modelli di richiamare le API di sistemi come CRM, knowledge base e piattaforme di gestione degli ordini. Se queste chiamate falliscono a causa di parametri errati o output non validi, il flusso di lavoro si interrompe. La richiesta deve quindi essere affidata a un operatore umano, aumentando i tempi di attesa e i costi operativi. Gli approcci tradizionali si basano spesso su grandi modelli proprietari accessibili tramite API esterne. Pur essendo generalisti capaci, questi modelli possono introdurre latenza e limitare il controllo sull'addestramento o sull'ottimizzazione per flussi di lavoro aziendali specializzati. Adaptive ML ha collaborato con CCS per esplorare un approccio diverso: utilizzare modelli aperti ottimizzati per l'apprendimento per rinforzo per alimentare agenti IA affidabili in grado di operare in modo rapido ed efficiente in ambienti di supporto sanitario reali.

Distribuzione di un'architettura di agenti IA specializzata

Adaptive ML ha implementato il proof of concept utilizzando Adaptive Engine, un'operazione di apprendimento per rinforzo (RLOps) progettata per aiutare le aziende a formare, valutare e implementare modelli linguistici specializzati. Per il caso d'uso CCS, Adaptive ML ha selezionato il modello Meta Llama 3.2 3B, un modello open source compatto adatto alle applicazioni aziendali in tempo reale. I modelli più piccoli offrono vantaggi significativi per i flussi di lavoro operativi: tempi di inferenza più rapidi, requisiti infrastrutturali inferiori e capacità di iterazione rapida durante lo sviluppo. "Non appena abbiamo testato i modelli Llama, la differenza di latenza è stata notevole", ha dichiarato Olivier Cruchant, co-fondatore di Adaptive ML. "Con un modello compatto puoi rispondere quasi in tempo reale, che è esattamente ciò di cui hai bisogno per le interazioni di supporto ai pazienti".

Questi agenti IA per le aziende richiedono un elevato livello di precisione nelle chiamate di funzione per interagire in modo affidabile con i sistemi aziendali. Per soddisfare questo requisito, Adaptive ML ha applicato la messa a punto basata sull'apprendimento per rinforzo tramite Adaptive Engine. Il processo ha addestrato il modello Llama a generare in modo affidabile gli output strutturati necessari per interagire con le API e i sistemi aziendali. Il sistema è stato distribuito su istanze p5.4xlarge di Amazon Elastic Compute Cloud (Amazon EC2) dotate di GPU NVIDIA H100, che forniscono le risorse di calcolo necessarie per eseguire il modello in modo efficiente.

Adaptive ML ha utilizzato anche i blocchi di capacità di Amazon EC2, che consentono di riservare le risorse GPU per finestre temporali specifiche. Ciò ha consentito al team di garantire la disponibilità delle GPU per analisi comparative e test, mantenendo la flessibilità nel provisioning. "Poter riservare la capacità per una finestra specifica è stato estremamente utile", ha affermato Olivier. "Ci ha permesso di eseguire benchmark su larga scala con la certezza che l'infrastruttura sarebbe stata disponibile". L'infrastruttura AWS ha inoltre contribuito a ridurre la latenza del sistema collocando sia le risorse di calcolo che i database di supporto all'interno della stessa zona di disponibilità. Dal punto di vista di CCS, l'integrazione è rimasta semplice. Adaptive ML ha ospitato l'ambiente del modello su AWS e lo ha esposto tramite un endpoint API HTTPS, consentendo alle applicazioni CCS di chiamare direttamente l'agente IA senza importanti modifiche all'architettura.

Dimostrazione di prestazioni scalabili di intelligenza artificiale nel settore sanitario

Il proof of concept ha dimostrato che un modello specializzato e compatto potrebbe offrire prestazioni di livello aziendale per flussi di lavoro di supporto ai pazienti basati sull'intelligenza artificiale. Il sistema ha raggiunto una latenza di inferenza lato client di circa 230 millisecondi, con una riduzione di oltre il 90% rispetto a un modello di base proprietario. Questo tempo di risposta end-to-end include l'intero ciclo di richiesta, mentre la latenza di inferenza del modello è stata in media di circa 160 millisecondi sul lato server. Ciò significava che l'agente IA poteva rispondere rapidamente anche durante flussi di lavoro in più fasi. "Per i flussi di lavoro in tempo reale, la latenza è tutto", ha affermato Olivier. "Quando le risposte arrivano in poche centinaia di millisecondi anziché in diversi secondi, l'esperienza diventa utilizzabile sia per i pazienti che per i team di supporto".

Una latenza inferiore migliora anche l'affidabilità dei flussi di lavoro automatizzati. Poiché il modello è in grado di generare rapidamente accurate chiamate di funzione, può recuperare dati dai sistemi aziendali e completare le attività senza richiedere l'intervento umano. Ciò riduce i ritardi nelle interazioni con i pazienti e consente ai team di supporto di concentrarsi su casi più complessi. L'architettura ha inoltre dimostrato un nuovo modello economico per le distribuzioni di IA per le aziende. "I modelli di piccole dimensioni sbloccano qualcosa di potente: la capacità di integrare le conoscenze e i flussi di lavoro proprietari di CCS nel supporto ai pazienti, aumentando sia la velocità che l'affidabilità", ha dichiarato Richard Mackey, CTO di CCS.

Il proof of concept CCS evidenzia come le organizzazioni sanitarie possono iniziare a integrare gli agenti di intelligenza artificiale nei flussi di lavoro operativi mantenendo la reattività e l'affidabilità richieste per i servizi rivolti ai pazienti. Combinando i modelli Llama di Meta con la piattaforma di apprendimento per rinforzo e l'infrastruttura AWS di Adaptive ML, la collaborazione dimostra un percorso verso sistemi di supporto IA scalabili progettati per ambienti aziendali reali.

Come ti è sembrato il contenuto?