Amazon SageMaker Inference용 스티키 세션 라우팅 기능 발표

게시된 날짜: 2024년 9월 12일

Amazon SageMaker Inference의 스티키 세션 라우팅 기능 정식 버전 제공이 오늘 발표되었습니다. 이에 따라 고객은 이전에 처리했던 정보를 활용하여 사용하여 생성형 AI 애플리케이션의 성능과 사용자 경험을 개선할 수 있습니다. Amazon SageMaker를 사용하면 모든 사용 사례에서 최상의 가격 대비 성능으로 파운데이션 모델(FM)을 비롯한 ML 모델을 손쉽게 배포하여 추론 요청을 수행할 수 있습니다.

스티키 세션을 활성화하면 동일 세션으로 전송되는 모든 요청이 같은 인스턴스로 라우팅되므로 ML 애플리케이션이 이전에 처리된 정보를 재사용할 수 있습니다. 그러면 지연 시간은 단축되고 사용자 경험은 개선됩니다. 따라서 대규모 데이터 페이로드를 사용하고자 하거나 원활한 대화형 경험을 사용해야 하는 고객에게 특히 유용합니다. 고객은 이제 이 기능을 통해 이전 추론 요청을 활용하여 SageMaker에서 상태 인식 AI 애플리케이션을 구축할 수 있습니다. 이렇게 하려는 고객은 첫 번째 요청으로 세션 ID를 생성한 다음 해당 세션 ID를 사용하여 SageMaker가 모든 후속 요청을 같은 인스턴스로 라우팅해야 함을 지정할 수 있습니다. 완료된 세션을 삭제하여 새 세션에 사용 가능하도록 리소스를 확보할 수도 있습니다.

이 기능은 SageMaker가 제공되는 모든 리전에서 사용할 수 있습니다. 여기서 SageMaker에 모델 배포 방법을 자세히 알아볼 수 있으며 AWS 설명서에서 이 기능에 대한 추가 정보를 확인할 수 있습니다.