¿Qué le pareció este contenido?
- Aprender
- El Adaptive ML y CCS aceleran la asistencia a los pacientes con Meta Llama y AWS
El Adaptive ML y CCS aceleran la asistencia a los pacientes con Meta Llama y AWS

Adaptive ML, una empresa que desarrolla software de reinforcement learning para IA empresarial, se propuso ayudar a CCS, un proveedor líder de soluciones clínicas y suministros médicos a domicilio, a mejorar los tiempos de respuesta y la fiabilidad en todas sus operaciones de servicio de pacientes para personas con enfermedades crónicas. El equipo de Adaptive ML probó un agente de IA diseñado para ejecutar tareas operativas reales en sistemas internos utilizando modelos de Llama de Meta en Amazon Web Services (AWS). Una prueba de concepto demostró un enfoque más rápido y eficiente para los flujos de trabajo de soporte de la IA empresarial, que redujo la latencia de respuesta en más de un 90 por ciento.
Mejora de los tiempos de respuesta de asistencia a los pacientes
Las organizaciones de atención médica que brindan apoyo a los pacientes con enfermedades crónicas deben responder de manera rápida y fiable a las solicitudes sobre suministros, envíos y administración de la atención, incluso durante los picos de demanda. Cuando los pacientes confían en dispositivos como los monitores continuos de glucosa o las bombas de insulina, las demoras en la resolución de los problemas pueden interrumpir el tratamiento y generar una carga operativa para los equipos de apoyo. CCS proporciona servicios de apoyo a los pacientes que ayudan a las personas a gestionar sus necesidades de atención continua, incluida la logística y la coordinación necesarias para mantener los suministros médicos críticos. Estas interacciones suelen requerir que los agentes accedan a varios sistemas internos para recuperar información, comprobar los pedidos o guiar a los pacientes sobre los pasos a seguir. Puesto que los volúmenes de soporte fluctúan, la IA se está convirtiendo en un componente cada vez más importante para mejorar los tiempos de respuesta.
Para abordar este desafío, CCS comenzó a explorar cómo los agentes de IA podrían ayudar a optimizar los flujos de trabajo de apoyo a los pacientes. El objetivo era habilitar sistemas automatizados que pudieran interactuar directamente con las herramientas empresariales, recuperar información de los sistemas internos y completar las tareas operativas en nombre de los equipos de soporte. Lograr esto requiere más que una IA conversacional. Los agentes de soporte empresarial deben ejecutar las llamadas a funciones de forma fiable, lo que permite a los modelos invocar las API en todos los sistemas, como CRM, bases de conocimiento y plataformas de gestión de pedidos. Si esas llamadas fallan debido a parámetros incorrectos o resultados mal formados, el flujo de trabajo se detiene. Luego, la solicitud debe entregarse a un agente humano, lo que aumenta los tiempos de espera y los gastos operativos. Los enfoques tradicionales suelen basarse en grandes modelos propietarios a los que se accede a través de API externas. Si bien son generalistas, estos modelos pueden introducir latencia y limitar el control sobre el entrenamiento o la optimización para flujos de trabajo empresariales especializados. Adaptive ML se asoció con CCS para explorar un enfoque diferente: utilizar modelos abiertos optimizados de reinforcement learning para impulsar agentes de IA fiables que pudieran operar de manera rápida y eficiente en entornos reales de asistencia sanitaria.
Implementación de una arquitectura de agentes de IA especializada
Adaptive ML implementó la prueba de concepto con Adaptive Engine, una plataforma de operaciones de reinforcement learning (RLOps) diseñada para ayudar a las empresas a entrenar, evaluar e implementar modelos lingüísticos especializados. Para el caso práctico de CCS, Adaptive ML seleccionó el modelo Meta Llama 3.2 3B, un modelo compacto de código abierto muy adecuado para aplicaciones empresariales en tiempo real. Los modelos más pequeños ofrecen ventajas significativas para los flujos de trabajo operativos: tiempos de inferencia más rápidos, menores requisitos de infraestructura y la capacidad de iterar rápidamente durante el desarrollo. “En cuanto probamos los modelos de Llama, la diferencia de latencia fue enorme”, afirma Olivier Cruchant, cofundador de Adaptive ML. “Con un modelo compacto, puedes responder casi en tiempo real, que es exactamente lo que necesitas para interactuar con el paciente y brindar asistencia”.
Estos agentes de IA empresarial requieren un alto nivel de precisión en las llamadas a funciones para interactuar de forma fiable con los sistemas empresariales. Para cumplir con este requisito, Adaptive ML aplicó ajustes precisos basados en el reinforcement learning a través de Adaptive Engine. El proceso entrenó al modelo de Llama para generar de manera fiable los resultados estructurados necesarios para interactuar con las API y los sistemas empresariales de la empresa. El sistema se implementó en instancias p5.4xlarge de Amazon Elastic Compute Cloud (Amazon EC2) equipadas con GPU NVIDIA H100, lo que proporcionó los recursos informáticos necesarios para ejecutar el modelo de manera eficiente.
Adaptive ML también utilizó bloques de capacidad de Amazon EC2, que permiten reservar los recursos de la GPU para intervalos de tiempo específicos. Esto permitió al equipo garantizar la disponibilidad de la GPU para la evaluación comparativa y las pruebas, a la vez que mantuvo la flexibilidad en el aprovisionamiento. “Poder reservar capacidad para un período específico fue extremadamente útil”, asegura Olivier. “Nos permitió realizar pruebas comparativas a gran escala con la confianza de que la infraestructura estaría disponible”. La infraestructura de AWS también ayudó a reducir la latencia del sistema al colocar los recursos informáticos y las bases de datos compatibles en la misma zona de disponibilidad. Desde la perspectiva de CCS, la integración siguió siendo sencilla. Adaptive ML alojó el entorno del modelo en AWS y lo expuso a través de un punto de enlace de API HTTPS, lo que permitió a las aplicaciones de CCS llamar directamente al agente de IA sin realizar cambios importantes en la arquitectura.
Demostración del rendimiento escalable de la IA sanitaria
La prueba de concepto demostró que un modelo compacto y especializado podía ofrecer un rendimiento de nivel empresarial para los flujos de trabajo de asistencia a los pacientes impulsados por la IA. El sistema logró una latencia de inferencia del lado del cliente de aproximadamente 230 milisegundos, lo que representa una reducción de más del 90 por ciento en comparación con la referencia de un modelo propietario. Este tiempo de respuesta integral incluye todo el ciclo de solicitud, mientras que la latencia de inferencia del modelo fue, en promedio, de aproximadamente 160 milisegundos en el lado del servidor. Esto significa que el agente de IA podía responder con rapidez incluso durante flujos de trabajo de varios pasos. “Para los flujos de trabajo en tiempo real, la latencia lo es todo”, afirma Olivier. “Cuando las respuestas llegan en unos pocos cientos de milisegundos en lugar de varios segundos, la experiencia resulta útil tanto para los pacientes como para los equipos de apoyo”.
Una latencia más baja también mejora la fiabilidad de los flujos de trabajo automatizados. Dado que el modelo puede generar llamadas de funciones precisas con rapidez, puede recuperar datos de los sistemas empresariales y completar tareas sin necesidad de intervención humana. Esto reduce las demoras en las interacciones con los pacientes y permite a los equipos de soporte centrarse en los casos más complejos. La arquitectura también demostró un nuevo modelo económico para las implementaciones de IA empresarial. “Los modelos pequeños ofrecen algo poderoso: la capacidad de integrar los conocimientos y los flujos de trabajo propios de CCS en la asistencia a los pacientes, lo que aumenta la velocidad y la fiabilidad”, afirma Richard Mackey, director de tecnología de CCS.
La prueba de concepto del CCS destaca cómo las organizaciones sanitarias pueden empezar a integrar los agentes de IA en los flujos de trabajo operativos y, al mismo tiempo, mantener la capacidad de respuesta y la fiabilidad necesarias para los servicios de atención al paciente. Al combinar los modelos de Llama de Meta con la plataforma de reinforcement learning de Adaptive ML y la infraestructura de AWS, la colaboración muestra el camino hacia sistemas de soporte de IA escalables diseñados para entornos empresariales reales.
¿Qué le pareció este contenido?