학습
Aterior, Amazon Bedrock과 Lama를 사용하여 임상 검토 시간을 75% 단축

Aterior, Amazon Bedrock과 Lama를 사용하여 임상 검토 시간을 75% 단축

이 콘텐츠는 어떠셨나요?

의사들이 주축이 되어 의료 보험사(보험 회사)를 위한 자동화 솔루션을 구축하는 AI 기업인 Anterior는 의료 분야의 가장 까다로운 데이터 관련 문제 중 하나를 해결하기 시작했습니다. 바로 수백 페이지에 달하는 비정형 기록 데이터로 전달되는 임상 문서를 식별하고 정형화하는 것입니다. 고객의 Amazon Web Services(AWS) 환경 내에서 문서 식별을 강화하기 위해 Meta on Amazon Bedrock에서 Llama 모델을 구현한 후, Anterior는 엄격한 의료 데이터 거버넌스 요구 사항을 충족하는 동시에 프로덕션급 성능을 달성했습니다. Anterior는 이러한 접근 방식을 사용하여 완전한 문서 추출 기능을 제공하고, 메타데이터 정확도를 높이고, 다운스트림 자동화를 구현하여 수동 임상 검토를 75% 줄였습니다.

의료 분야의 문서 식별 문제 해결

5조 USD 규모의 미국 의료 산업에서 소비되는 의료 관리 비용은 연간 9,500억 USD를 넘습니다. 이 비용의 대부분은 의사와 간호사가 치료를 승인하고, 보장 범위를 확인하고, 환자 치료를 관리하기 위해 대량의 의료 기록을 수작업으로 검토하는 의료 보험 내부의 임상 검토 워크플로에서 비롯됩니다. Anterior는 의료 서비스 제공자와 환자의 가운데에 있는 조직인 의료 보험사를 위해 이러한 워크플로를 자동화하는 데 주력하는 의사 중심의 AI 회사입니다.

이러한 워크플로는 믿을 수 없을 정도로 간단해 보이는 작업을 중심으로 이루어져 있습니다. AI가 임상 사례를 추론하기 전에 먼저 조사 대상을 파악해야 합니다. 문서 식별은 모든 다운스트림 자동화의 전제 조건입니다. Anterior는 들어오는 각 임상 패킷을 구성 문서로 분류하고, 각 패킷의 시작 위치와 종료 위치를 식별하고, 문서 유형, 제목, 작성자, 생성 날짜 등의 정형 메타데이터를 추출해야 합니다. 그래야만 MRI 보고서를 올바른 사전 승인 검토 단계로 전달하거나, 의사들이 활용할 수 있도록 최근 영상을 공개하거나, 문서가 권장 치료 과정을 뒷받침하는지 검증하는 등의 임상 자동화를 진행할 수 있습니다. 하지만 임상 패킷은 수백 페이지에 달할 수 있으며 팩스, 스캔한 PDF, 병합된 여러 문서 파일 형태로 수신될 수 있습니다. 기존 AI 및 ML 접근 방식으로는 프로덕션 규모에서 장기간 안정적으로 처리하기 어려웠던 방식으로 이미지, 표, 양식, 심지어 손으로 쓴 메모까지 결합할 수 있습니다.

이 작업을 잘못 수행할 경우의 위험은 매우 큽니다. Anterior의 임상 과학자인 Khadija Mahmoud 박사는 “문서 식별 과정에서 작은 오류라도 발생하면, 불완전하거나 부정확한 정보에 입각해 임상 결정을 내리게 되므로 연쇄적으로 영향을 미칠 수 있습니다”라고 말합니다. 문서 경계를 잘못 식별하면 환자 기록의 잘못된 부분에서 임상 정보를 가져오게 될 수 있고, 페이지를 삭제하면 규정 준수 문제가 발생할 수 있습니다. 프로덕션 수준의 문서 식별을 처리할 수 있는 모든 모델은 엄격한 의료 데이터 거버넌스 요건도 충족해야 합니다. Anterior의 대규모 고객 중 상당수는 보호 대상 의료 정보(PHI)에 대한 LLM 추론을 비롯한 모든 AI 작업을 전적으로 AWS 환경 내에서 처리하도록 요구하는데, 외부 API나 서드 파티 인프라에게 이는 수용할 수 없는 조건입니다.

임상 자동화를 위한 확장 가능한 파이프라인 구축

Anterior는 Amazon Bedrock에서 실행되는 Meta Llama 모델을 기반으로 하는 문서 식별 워크플로를 구현했습니다. 이 아키텍처는 고객의 AWS 환경 내에서 복잡한 임상 문서 패킷을 처음부터 엔드 투 엔드로 처리하므로 환자 데이터가 그 경계를 벗어나지 않습니다. 워크플로는 2단계 파이프라인으로 작동합니다. 첫 단계에서는 광학 문자 인식(OCR) 및 레이아웃 인식 파싱을 사용하여 대규모 임상 PDF를 처리합니다. 각 페이지는 페이지 참조와 고유 식별자를 유지한 상태로 정형 텍스트 추출 데이터로 변환됩니다. 두 번째 단계에서는 언어 모델이 파싱된 추출 데이터를 분석하여 문서 경계를 결정하고, 문서 유형을 분류하고, 제목, 작성자, 작성일, 임상 설명과 같은 메타데이터를 추출합니다. 이 단계에서는 Amazon Bedrock의 Llama 모델이 작업을 수행합니다.

Anterior는 동일한 프롬프트, 데이터세트, 평가 기준을 사용하여 프론티어 규모의 독점 멀티모달 모델을 기준으로 Llama Maverick 17B와 Llama Scout 17B를 평가했습니다. 평가는 전적으로 AWS 인프라 내에서 진행되었으며 정확성, 완전성, 일관성 및 지연 시간 전반에 걸쳐 프로덕션 준비 상태를 측정했습니다. 데이터세트는 Anterior의 합성 데이터 파이프라인을 통해 생성되었으며, 임상 과학자들이 모호한 형식, 다중 문서 패킷, 예외 사례 등 실제 세계의 복잡성을 반영하도록 큐레이팅했습니다. 임상 데이터의 고유한 멀티모달 특성에 맞춰 멀티모달 입력을 지원하고, 처리량이 많은 워크로드에 대한 효율적인 추론을 지원하며, 긴 임상 패킷을 편안하게 처리할 수 있는 대규모 컨텍스트 창을 제공하는 등, 여러 가지 이유로 Llama가 유력한 후보로 떠올랐습니다. 또한 Llama는 현재 나와 있는 모델 중 튜닝이 가장 자유로운 개방형 모델 중 하나인 만큼, Anterior가 프론티어 스케일 모델에만 의존하지 않고 프롬프트 및 시스템 수준 제약 조건을 통해 모델 동작을 조정하고 특정 임상 작업에 맞게 조정된 작고 특화된 모델을 탐색할 수 있습니다.

Amazon Bedrock에서 Llama를 운영함으로써 회사의 의사와 엔지니어 팀은 인프라 관리보다는 임상 문제 해결에 집중할 수 있게 되었습니다. Bedrock은 AWS 환경과 직접 통합하면서 파운데이션 모델을 평가하고 배포할 수 있는 통합 인터페이스를 제공합니다. Anterior의 응용 AI 부문 리드인 Anuj Iravane은 “저희와 협력하고 있는 많은 주요 건강 보험사들도 저희와 같은 궁금증을 가지고 있었습니다. 'AWS 환경 내에서 PHI에서 AI를 실행할 수 있을까?'라는 거죠. Bedrock에서 호스팅되는 Llama 모델을 사용하면 성능 저하 없이 실행할 수 있습니다”라고 말합니다. Bedrock은 유연성도 유지합니다. Anterior는 아키텍처를 재구축하지 않고도 임상 요구 사항의 변화에 따라 추가로 모델을 평가하거나 맞춤형 미세 조정 버전을 배포할 수 있게 되었습니다.

의사의 임상 결정 및 운영 효율성 지원

Lama Maverick 17B와 Lama Scout 17B는 의사가 선별한 합성 임상 사례 데이터세트에서 임상 문서 식별을 위한 프로덕션 수준의 성능을 제공했습니다. 이 모델은 대규모 모델 아키텍처에서 170억 개의 활성 파라미터를 사용했음에도, 더 효율적으로 실행하면서 수천억 개의 파라미터를 갖춘 프론티어 스케일 모델과 일치했습니다. 전체 페이지 커버리지를 달성했는데, 이는 콘텐츠 삭제나 중복 없이 임상 패킷의 모든 페이지가 정확히 한 번 할당되었음을 의미합니다. 메타데이터 추출에서 특히 뛰어난 성과를 보였습니다. Llama 모델은 문서 작성자, 설명 등의 주요 정보를 식별할 때 프론티어 기준선과 일치하거나 초과했습니다. 작성자 식별 정확도는 프론티어 모델의 93.5%보다 높은 97%에 달했고 설명 충실도는 98.4%에 달했습니다. Iravane는 “정말 인상적이었습니다. Bedrock을 기반으로 한 Llama 모델은 비용의 극히 일부만으로 저희의 프론티어 기준에 부합했으며 메타데이터 추출 측면에서는 실제로 더 높은 성능을 보였습니다. 의료 분야의 가장 어려운 문제를 해결하는 데 가장 큰 모델이 필요한 것은 아닙니다”라고 말합니다.

모델 간의 지연 시간은 비슷했지만 Bedrock 컴파운드에서 대규모로 실행되는 소형 Llama 모델의 효율성 이점이 있었습니다. 문서 볼륨이 증가하는 와중에도 Anterior는 정확도를 유지하면서 더 낮은 문서당 비용으로 컴퓨팅 단위당 더 많은 사례를 처리할 수 있습니다. 다운스트림이 의료 워크플로에 미치는 영향은 상당합니다. 사전 승인 검토에서 Anterior 플랫폼은 99.24%의 임상 정확도를 유지하면서 수동 임상 검토 시간을 75% 단축합니다. KLAS Research 사례 연구에 따르면 이 시스템은 암 치료 승인을 받기 위한 환자 대기 시간을 며칠 또는 몇 주에서 단 155초로 단축했습니다. 약 100만 명의 보험 혜택을 받는 환자에게 의료 서비스를 제공하는 지역 의료 기관의 경우 이러한 개선을 통해 연간 약 3,000만 USD의 운영 비용을 절감할 수 있습니다. 문서 이해가 빨라지면 궁극적으로 임상 의사 결정이 빨라지고 문서에 더 빨리 액세스하여 환자를 진료할 수 있습니다.

Aterior는 6주 만에 초기 통합 단계에서 배포 단계로 전환했습니다. Llama 모델은 이제 여러 기업 고객에게 서비스를 제공하는 회사의 프로덕션 문서 식별 워크플로의 일부입니다. 그 결과 Amazon Bedrock에 호스팅되는 소형 개방형 모델이 의료 워크플로 전반에서 프론티어 규모의 범용 모델과 경쟁할 수 있다는 보다 광범위한 아키텍처 접근 방식이 검증되었습니다. Iravane은 “미국 의료 서비스 대다수가 AWS를 기반으로 운영되고 있습니다. Bedrock 기반의 Llama 모델이 프론티어 성능에 필적할 수 있다는 것을 증명한다는 것은 고객이 더 빠르게 배포하고 비용을 더 효과적으로 제어하고 요구되는 보안 태세를 유지할 수 있다는 것을 의미합니다”라고 말합니다.

이 콘텐츠는 어떠셨나요?