게시된 날짜: Apr 10, 2023

Amazon SageMaker Inference Recommender(IR)는 고객이 SageMaker에서 ML 모델을 배포하는 데 가장 적합한 인스턴스 유형 및 구성(예: 인스턴스 개수, 컨테이너 파라미터, 모델 최적화)을 선택하는 데 도움이 됩니다. 오늘 AWS는 로그 및 지표에 대해 Amazon CloudWatch와의 심화된 통합, IR 작업 실행을 위한 Python SDK 지원, 고객이 선택한 VPC 서브넷 내에서 IR 작업을 실행할 수 있도록 지원, 새로운 API를 통해 기존 엔드포인트에서 부하 테스트를 실행할 수 있도록 지원, IR을 보다 쉽게 시작할 수 있도록 여러 가지 사용성을 개선했습니다.

CloudWatch 통합은 새로운 로그 그룹에서 IR 로그를 제공하여 IR 실행 시 발생하는 오류를 식별합니다. 이제 IR은 처리량 및 지연 시간 외에도 P99 지연 시 동시 사용자, CPU 및 메모리 사용률과 같은 주요 지표도 게시합니다. Python SDK 지원을 통해 고객은 Jupyter Notebook에서 IR 작업을 트리거하여 인스턴스 유형 권장 사항을 받을 수 있습니다. 또한 IR 작업의 모든 실행 단계를 상세히 확인할 수 있는 새로운 API와 기존 엔드포인트에서 모델을 로드 테스트할 수 있는 옵션을 출시했습니다. 사용성을 개선하기 위해 몇 가지 필수 입력 파라미터를 선택 사항으로 설정했으며 고객은 더 이상 IR 작업을 실행하기 위해 모델을 등록하거나 도메인과 같은 입력을 제공할 필요가 없습니다.

SageMaker Inference를 사용할 수 있는 AWS 리전에 대한 자세한 내용은 AWS 리전 표를 참조하세요. 

자세히 알아보려면 Inference Recommender 설명서를 참조하세요. Amazon SageMaker Inference Recommender는 사용한 기본 리소스에 대한 비용만 부과합니다. SageMaker로 모델을 배포하는 방법에 대한 자세히 알아보려면 설명서를 참조하세요.