학습
Meta Llama와 AWS를 통해 환자 지원을 가속화하는 Adaptive ML과 CCS

Meta Llama와 AWS를 통해 환자 지원을 가속화하는 Adaptive ML과 CCS

이 콘텐츠는 어떠셨나요?

엔터프라이즈 AI용 강화 학습 소프트웨어를 개발하는 회사인 Adaptive ML은 임상 솔루션 및 자택 배송 의료 용품을 제공하는 선도적인 공급업체인 CCS가 만성 질환 관리 환자를 위한 환자 서비스 운영 전반에서 응답 시간과 신뢰성을 개선할 수 있도록 지원하기 시작했습니다. Adaptive ML 팀은 Meta on Amazon Web Services(AWS)의 Llama 모델을 사용하여 내부 시스템 전반에서 실제 운영 작업을 실행하도록 설계된 AI 에이전트를 테스트했습니다. 개념 증명에서는 엔터프라이즈 AI 지원 워크플로에 대한 더 빠르고 효율적인 접근 방식을 통해 응답 지연 시간이 90% 이상 단축되는 것을 입증했습니다.

환자 지원 응답 시간 개선

만성 질환자를 지원하는 의료 기관은 수요가 급증하는 상황에서도 물품 공급, 배송 및 의료 관리에 대한 요청에 신속하고 안정적으로 대응해야 합니다. 환자가 연속식 혈당 측정기나 인슐린 펌프와 같은 기기를 사용하는 경우, 문제 해결이 지연되면 치료가 중단되고 지원 팀의 운영상 부담이 발생할 수 있습니다. CCS는 중요한 의료 용품의 공급을 유지하는 데 필요한 물류 및 조정을 포함하여 개인이 지속적인 치료 요구 사항을 관리할 수 있도록 지원하는 환자 지원 서비스를 제공합니다. 이러한 상호 작용을 위해서는 에이전트가 여러 내부 시스템에 액세스하여 정보를 검색하거나, 주문을 확인하거나, 환자에게 다음 단계를 안내해야 하는 경우가 많습니다. 지원 규모의 변화에 따라 AI는 응답 시간을 개선하는 데 있어 갈수록 더 중요한 구성 요소가 되고 있습니다.

이 문제를 해결하기 위해 CCS는 AI 에이전트가 환자 지원 워크플로를 간소화하는 데 어떻게 도움이 될 수 있는지 알아보기 시작했습니다. 엔터프라이즈 도구와 직접 상호 작용하고, 내부 시스템에서 정보를 검색하고, 지원 팀을 대신하여 운영 작업을 완료할 수 있는 자동화 시스템을 구현하는 것이 목표였습니다. 이를 위해서는 대화형 AI 이상의 것이 필요합니다. 엔터프라이즈 지원 에이전트는 모델이 CRM, 지식 기반, 주문 관리 플랫폼 등, 시스템 전반에서 API를 간접적으로 호출할 수 있도록 함수 직접 호출을 높은 신뢰성으로 실행해야 합니다. 잘못된 파라미터나 잘못된 출력으로 인해 이러한 직접 호출이 실패하면 워크플로가 중지됩니다. 그런 다음 요청을 에이전트에게 전달해야 하므로 대기 시간과 운영 오버헤드가 증가합니다. 기존 접근 방식은 외부 API를 통해 액세스하는 대규모 독점 모델에 의존하는 경우가 많습니다. 전반적으로는 능력이 뛰어나긴 하지만, 이러한 모델은 지연 시간을 초래하고 특수 엔터프라이즈 워크플로의 훈련 또는 최적화에 대한 제어를 제한할 수 있습니다. Adaptive ML은 CCS와 파트너십을 맺고 다른 접근 방식을 모색했습니다. 바로 강화 학습에 최적화된 개방형 모델을 사용하여 실제 의료 지원 환경에서 빠르고 효율적으로 작동할 수 있는 신뢰할 수 있는 AI 에이전트를 구동하는 것입니다.

전문 AI 에이전트 아키텍처 배포

Adaptive ML은 기업이 특수 언어 모델을 훈련, 평가, 배포할 수 있도록 설계된 강화 학습 운영(RLOps) 플랫폼인 Adaptive Engine을 사용하여 개념 증명을 구현했습니다. Adaptive ML은 CCS 사용 사례의 경우 실시간 엔터프라이즈 애플리케이션에 매우 적합한 소규모 오픈 소스 모델인 Meta Llama 3.2 3B 모델을 선택했습니다. 모델이 작을수록 추론 시간이 단축되고 인프라 요구 사항이 낮아지며 개발 중에 빠르게 반복할 수 있는 등 운영 워크플로에 상당한 이점이 있습니다. Adaptive ML의 공동 설립자인 Olivier Cruchant는 “Llama 모델을 테스트하자마자 지연 시간이 크게 달라졌습니다. 컴팩트한 모델을 사용하여 거의 실시간으로 대응할 수 있는데, 이것이 바로 환자 지원 상호 작용에 필요한 능력입니다”라고 말합니다.

이러한 엔터프라이즈 AI 에이전트가 비즈니스 시스템과 안정적으로 상호 작용하려면 높은 수준의 함수 호출 정확도가 요구됩니다. Adaptive ML은 이러한 요구 사항을 충족하기 위해 Adaptive Engine을 통한 강화 학습 기반 미세 조정을 적용했습니다. 이 프로세스는 Lama 모델을 학습하여 엔터프라이즈 API 및 비즈니스 시스템과 상호 작용하는 데 필요한 정형 출력 데이터를 안정적으로 생성했습니다. 이 시스템은 NVIDIA H100 GPU가 탑재된 Amazon Elastic Compute Cloud(Amazon EC2) p5.4xlarge 인스턴스에 배포되어 모델을 효율적으로 실행하는 데 필요한 컴퓨팅 리소스를 제공합니다.

또한 Adaptive ML은 Amazon EC2 Capacity Blocks를 사용했는데, 이를 통해 GPU 리소스를 특정 기간 동안 예약할 수 있습니다. 이를 통해 팀은 프로비저닝의 유연성을 유지하면서 벤치마킹 및 테스트를 위한 GPU 가용성을 확보할 수 있었습니다. Olivier는 “특정 창에 사용할 용량을 예약할 수 있어서 매우 유용했습니다. 이를 통해 인프라를 사용할 수 있다는 확신을 갖고 대규모 벤치마크를 실행할 수 있었습니다”라고 말합니다. 또한 AWS 인프라는 컴퓨팅 리소스와 지원 데이터베이스를 동일한 가용 영역 내에 배치하여 시스템 지연 시간을 줄이는 데도 도움이 되었습니다. CCS의 관점에서 보면 통합은 간단했습니다. Adaptive ML은 AWS에서 모델 환경을 호스팅하고 HTTPS API 엔드포인트를 통해 제공했습니다. 이를 통해 CCS 애플리케이션은 주요 아키텍처 변경 없이 AI 에이전트를 직접적으로 호출할 수 있었습니다.

확장 가능한 의료 AI 성능 입증

개념 증명을 통해 전문적이고 컴팩트한 모델이 AI 기반 환자 지원 워크플로에 엔터프라이즈급 성능을 제공할 수 있다는 것이 입증되었습니다. 이 시스템은 약 230밀리초의 클라이언트 측 추론 지연 시간을 달성했으며, 이는 전용 모델 기준 대비 90% 이상 단축된 수치입니다. 이 엔드 투 엔드 응답 시간에는 전체 요청 주기가 포함되며, 모델 추론 지연 시간은 서버 측에서 평균 약 160밀리초입니다. 즉, AI 에이전트는 다단계 워크플로를 실행하는 중에도 빠르게 응답할 수 있었습니다. Olivier는 “실시간 워크플로의 경우 지연 시간이 가장 중요합니다. 몇 초가 아닌 수백 밀리초 만에 응답이 돌아오면 환자와 지원 팀 모두에게 유용한 경험이 됩니다”라고 말합니다.

지연 시간이 짧을수록 자동화된 워크플로의 신뢰성도 향상됩니다. 이 모델은 정확한 함수 호출을 빠르게 생성할 수 있으므로, 사람의 개입 없이 엔터프라이즈 시스템에서 데이터를 검색하고 작업을 완료할 수 있습니다. 이를 통해 환자 상호 작용의 지연이 줄어들고 지원 팀이 더 복잡한 사례에 집중할 수 있게 됩니다. 또한 이 아키텍처는 엔터프라이즈 AI 배포를 위한 새로운 경제 모델을 보여주었습니다. CCS의 CTO인 Richard Mackey는 “소규모 모델은 CCS의 독점 지식과 워크플로를 환자 지원에 통합하여 속도와 신뢰성을 모두 높이는 강력한 기능을 제공합니다”라고 말합니다.

이 CCS 개념 증명은 의료 기관이 환자를 대상으로 한 서비스에 요구되는 응답성과 신뢰성을 유지하면서 AI 에이전트를 운영 워크플로에 통합하기 시작할 수 있는 방법을 잘 보여줍니다. 이번 협업은 Meta의 Lama 모델을 Adaptive ML의 강화 학습 플랫폼 및 AWS 인프라와 결합하여 실제 기업 환경을 위해 설계된 확장 가능한 AI 지원 시스템을 구현하는 경로를 보여줍니다.

이 콘텐츠는 어떠셨나요?