Amazon SageMaker, 고객이 비용을 절감할 수 있도록 AI 추론을 위한 Scale Down to Zero 출시
사용하지 않는 기간 동안 엔드포인트의 인스턴스 규모를 0으로 조정할 수 있는 Amazon SageMaker Inference의 새로운 기능인 Scale Down to Zero가 출시되었습니다. 이 기능은 AI 모델을 사용하여 추론을 실행하는 데 드는 비용을 크게 줄일 수 있으므로 챗봇, 콘텐츠 조정 시스템 및 기타 생성형 AI 사용 사례와 같이 다양한 트래픽 패턴이 있는 애플리케이션에 특히 유용합니다.
Scale Down to Zero를 사용하면 고객이 사용하지 않을 때는 인스턴스 규모 0으로 자동 조정하고 트래픽이 재개되면 신속하게 다시 스케일 업하도록 SageMaker 추론 엔드포인트를 구성할 수 있습니다. 이 기능은 예측 가능한 트래픽 패턴, 간헐적인 추론 트래픽, 개발/테스트 환경이 있는 시나리오에 효과적입니다. SageMaker Inference 구성 요소를 사용하면 Scale Down to Zero를 간단하게 구현할 수 있습니다. 고객은 AWS SDK for Python(Boto3), SageMaker Python SDK 또는 AWS Command Line Interface(AWS CLI)를 통해 자동 크기 조정 정책을 구성할 수 있습니다. 이 프로세스에는 관리형 인스턴스 크기 조정이 활성화된 엔드포인트를 설정하고, 크기 조정 정책을 구성하고, 크기 조정 작업을 트리거하는 CloudWatch 경보를 생성하는 작업이 포함됩니다.
Scale Down to Zero는 이제 Amazon SageMaker가 지원되는 모든 AWS 리전에서 정식 버전으로 제공됩니다. Scale Down to Zero 구현 및 생성형 AI 배포의 비용 최적화에 대해 자세히 알아보려면 설명서 페이지를 참조하세요.