게시된 날짜: Dec 1, 2021
Amazon SageMaker Serverless Inference는 기본 인프라를 구성하거나 관리할 필요 없이 추론용 기계 학습 모델을 간편하게 배포할 수 있는 새로운 추론 옵션입니다. 기계 학습 모델 배포 시에 서버리스 옵션을 선택하기만 하면 Amazon SageMaker가 추론 요청 볼륨에 기반한 컴퓨팅 용량을 자동으로 프로비저닝하고 크기를 조정하고 비활성화합니다. SageMaker Serverless Inference를 사용하면 유휴 시간이 아닌 추론 코드를 실행하는 기간과 처리된 데이터 양에 대해서만 비용을 지불합니다.
Amazon SageMaker Serverless Inference는 트래픽이 간헐적이거나 예측할 수 없는 애플리케이션에 이상적인 서비스입니다. 예를 들어 급여 처리 회사의 chatbot 서비스는 월말에 문의가 증가하지만 나머지 월에는 트래픽이 간헐적입니다. 이러한 상황에서 전체 달에 대한 인스턴스를 프로비저닝하는 것은 유휴 기간의 비용을 지불하게 되므로 비용 효율적이지 않습니다. Amazon SageMaker Serverless Inference는 트래픽 수요를 예상하거나 크기 조정 정책 관리의 필요성 없이 추론 요청 볼륨에 근거한 컴퓨팅 용량의 크기를 자동으로 조정하여 이러한 유형의 사용 사례를 처리하는 데 도움이 됩니다. 또한 추론 코드를 실행하는 컴퓨팅 시간(밀리초 단위로 청구)과 처리된 데이터 양에 대해서만 비용을 지불하면 트래픽이 간헐적으로 발생하는 워크로드에 비용 효율적인 옵션이 됩니다. SageMaker Serverless Inference의 도입으로 SageMaker는 이제 4가지 추론 옵션을 제공하여 광범위한 사용 사례에 사용할 수 있는 배포 선택을 확장합니다. 다른 세 옵션은 대기 시간 요구 사항이 밀리초 단위로 낮은 워크로드를 위한 SageMaker Time Inference, 데이터 배치에 대한 예측을 실행하는 SageMaker Batch Transform, 페이로드 크기가 크거나 오랜 처리 시간을 필요로 하는 SageMaker Asynchronous Inference입니다. 자세한 내용은 Amazon SageMaker 배포 웹페이지를 참조하세요.
콘솔, AWS SDK 또는 AWS 명령줄 인터페이스(CLI)에서 SageMaker Inference 엔드포인트를 쉽게 생성할 수 있습니다. 시작하는 방법에 대한 자세한 단계는 샘플 노트북도 포함하는 SageMaker Serverless Inference 설명서를 참조하십시오. 요금 정보는 SageMaker 요금 페이지를 참조하세요. SageMaker Serverless Inference는 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤), EU(아일랜드), 아시아 태평양(도쿄), 아시아 태평양(시드니) 리전에서 평가판으로 사용할 수 있습니다.