Amazon SageMaker AI, 자동 인스턴스 폴백을 통한 용량 인지 추론 기능 지원
이제 Amazon SageMaker AI 추론 엔드포인트에서 우선순위가 지정된 인스턴스 유형 목록을 바탕으로 유연한 프로비저닝을 지원합니다. 선호하는 인스턴스 유형의 용량이 부족할 경우, SageMaker AI는 목록에 있는 다음 사용 가능한 옵션으로 자동 프로비저닝하여 수동 개입 없이도 엔드포인트 생성 및 오토스케일링이 원활하게 진행되도록 합니다. 덕분에 프로덕션 환경에서 AI/ML 모델을 배포하는 팀은 용량 제약 상황에서도 복원력을 확보하고, 엔드포인트 가동 및 필요에 따른 규모 조정을 안정적으로 수행할 수 있습니다.
인스턴스 풀 지원 기능을 통해 우선순위가 지정된 인스턴스 유형 목록을 정의하면, SageMaker AI가 해당 목록의 순서에 따라 자동으로 용량을 프로비저닝합니다. 이 기능은 엔드포인트 생성, 업데이트, 규모 조정 전반에 적용됩니다. 스케일 다운 시, SageMaker AI는 우선순위가 가장 낮은 인스턴스부터 먼저 제거하여 플릿이 축소될 때 사용자가 선호하는 인프라가 최대한 유지되도록 합니다. 이는 단일 모델 엔드포인트, 추론 구성 요소 기반 엔드포인트, 비동기 추론 엔드포인트에 적용되며, 엔드포인트가 0으로 축소되었다가 다시 확장될 때도 SageMaker AI가 사용 가능한 풀 중 우선순위가 가장 높은 풀부터 리소스를 프로비저닝합니다.
폴백 인스턴스 유형은 GPU 메모리와 컴퓨팅 성능이 서로 다르므로, 우선순위 목록의 각 인스턴스 유형에 맞게 최적화된 모델을 별도로 지정할 수 있습니다. 이러한 아티팩트를 직접 준비하거나, 인스턴스 유형별로 하드웨어별 최적화 구성을 자동으로 생성해 주는 SageMaker AI 추론 추천 기능을 활용할 수도 있습니다. 아울러 인스턴스별 CloudWatch 지표를 통해 단일 엔드포인트 내에서 하드웨어 유형별로 지연 시간, 처리량, GPU 사용률, 인스턴스 수를 파악할 수 있습니다.
이 기능은 현재 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오리건), 캐나다(중부), 남아메리카(상파울루), 유럽(아일랜드), 유럽(런던), 유럽(프랑크푸르트), 유럽(스톡홀름), 유럽(취리히), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(뭄바이), 아시아 태평양(자카르타) 리전에서 사용할 수 있습니다. 자세한 내용은 Amazon SageMaker AI 설명서를 참조하세요.