Amazon SageMaker AI, 이제 EAGLE 예측 디코딩을 지원

게시된 날짜: 2025년 11월 25일

Amazon SageMaker AI는 이제 EAGLE (언어 모델 효율성 향상을 위한 추론 알고리즘) 추론 디코딩을 지원하여 대규모 언어 모델 추론 처리량을 최대 2.5배까지 개선합니다. 이 기능은 모델이 토큰 하나가 아닌 여러 토큰을 동시에 예측하고 검증할 수 있게 하여, AI 애플리케이션의 응답 시간을 개선합니다.

AI 애플리케이션을 프로덕션에 배포하는 고객은 응답성이 뛰어난 사용자 경험을 제공하려면 지연 시간이 짧고 처리량이 높은 모델을 제공할 수 있어야 합니다. 데이터 사이언티스트와 기계 학습 엔지니어에게는 출력 품질 저하나 복잡한 모델 재설계를 요구하지 않으면서도 토큰 생성을 가속화할 수 있는 효율적인 방법이 없으며, 그 결과 실제 트래픽에서 성능 기대치를 충족하기가 어렵습니다. 팀은 AI 애플리케이션 개선이 아닌 인프라 최적화에 상당한 시간을 할애합니다. EAGLE 예측 디코딩을 이용하면, SageMaker AI는 모델이 한 번에 토큰 하나가 아닌 여러 토큰을 병렬로 생성 및 검증할 수 있게 하여 추론 처리량을 가속화합니다. 따라서 동일한 출력 품질을 유지하면서도 처리량을 대폭 높일 수 있습니다. SageMaker AI는 모델 아키텍처에 따라 EAGLE 2와 EAGLE 3 중 하나를 자동으로 선택하고, 선별된 데이터세트나 자체 애플리케이션 데이터를 사용하여 특수 예측 헤드를 훈련하는 내장형 최적화 작업을 제공합니다. 사용자는 기존 SageMaker AI 추론 워크플로를 통해 인프라 변경 없이 최적화된 모델을 배포하여, 예측 가능한 성능을 선사하는 더 빠른 AI 애플리케이션을 제공할 수 있습니다.

EAGLE 예측 디코딩은 미국 동부(버지니아 북부), 미국 서부(오리건), 미국 동부(오하이오), 아시아 태평양(도쿄), 유럽(아일랜드), 아시아 태평양(싱가포르) 및 유럽(프랑크푸르트) AWS 리전에서 사용할 수 있습니다


EAGLE 예측 디코딩에 대해 자세히 알아보려면 여기에서 AWS 뉴스 블로그를, 그리고 여기에서 SageMaker AI 설명서를 참조하세요.