Amazon SageMaker Inference용 스티키 세션 라우팅 기능 발표
Amazon SageMaker Inference의 스티키 세션 라우팅 기능 정식 버전 제공이 오늘 발표되었습니다. 이에 따라 고객은 이전에 처리했던 정보를 활용하여 사용하여 생성형 AI 애플리케이션의 성능과 사용자 경험을 개선할 수 있습니다. Amazon SageMaker를 사용하면 모든 사용 사례에서 최상의 가격 대비 성능으로 파운데이션 모델(FM)을 비롯한 ML 모델을 손쉽게 배포하여 추론 요청을 수행할 수 있습니다.
스티키 세션을 활성화하면 동일 세션으로 전송되는 모든 요청이 같은 인스턴스로 라우팅되므로 ML 애플리케이션이 이전에 처리된 정보를 재사용할 수 있습니다. 그러면 지연 시간은 단축되고 사용자 경험은 개선됩니다. 따라서 대규모 데이터 페이로드를 사용하고자 하거나 원활한 대화형 경험을 사용해야 하는 고객에게 특히 유용합니다. 고객은 이제 이 기능을 통해 이전 추론 요청을 활용하여 SageMaker에서 상태 인식 AI 애플리케이션을 구축할 수 있습니다. 이렇게 하려는 고객은 첫 번째 요청으로 세션 ID를 생성한 다음 해당 세션 ID를 사용하여 SageMaker가 모든 후속 요청을 같은 인스턴스로 라우팅해야 함을 지정할 수 있습니다. 완료된 세션을 삭제하여 새 세션에 사용 가능하도록 리소스를 확보할 수도 있습니다.
이 기능은 SageMaker가 제공되는 모든 리전에서 사용할 수 있습니다. 여기서 SageMaker에 모델 배포 방법을 자세히 알아볼 수 있으며 AWS 설명서에서 이 기능에 대한 추가 정보를 확인할 수 있습니다.