게시된 날짜: Mar 16, 2021
Amazon SageMaker는 이제 짧은 지연 시간 추론을 위해 실시간 엔드포인트에 여러 컨테이너를 배포하고 각 요청에 대해 독립적으로 호출할 수 있도록 지원합니다. 이 새로운 기능을 사용하면 단일 엔드포인트에서 최대 5개의 서로 다른 기계 학습(ML) 모델 및 프레임워크를 실행하고 최대 80%의 비용을 절감할 수 있습니다. 이 옵션은 리소스 요구 사항이 유사한 여러 ML 모델이 있고, 개별 모델에 엔드포인트 인스턴스의 전체 용량을 활용하기에 충분한 트래픽이 없을 때 이상적입니다. 예를 들어, 드물게 또는 다른 시간에 호출되는 ML 모델 세트가 있거나 개발/테스트 엔드포인트가 있는 경우가 이에 해당합니다.
이 기능을 사용하려면 엔드포인트에 배포해야 하는 훈련된 모델과 함께 컨테이너 목록을 지정하고 모델이 독립적으로 액세스될 것임을 SageMaker에 지시하는 "직접" 추론 실행 모드를 선택해야 합니다. 특정 모델에 대해 추론하려면 엔드포인트를 호출하고 요청 헤더에 컨테이너 이름을 지정하십시오. 조건 키를 지정하여 직접 호출 모드에서 각 컨테이너에 대한 추론 요청을 보호하고, Amazon CloudWatch에서 컨테이너별 지표를 가져올 수도 있습니다.
또한 추론할 때 요청을 사전/사후 처리하거나 ML 모델 세트를 순차적으로 실행하려는 경우, 각 추론에 대해 다중 컨테이너 엔드포인트에서 컨테이너를 순차적으로(즉, 추론 파이프라인) 실행할 수 있습니다. 이 기능은 이미 다중 컨테이너 체크포인트의 기본 동작으로 지원되거나 추론 실행 모드를 "Serial"로 설정하여 활성화할 수 있습니다.