게시된 날짜: Apr 10, 2023
Amazon SageMaker Inference Recommender(IR)는 고객이 SageMaker에서 ML 모델을 배포하는 데 가장 적합한 인스턴스 유형 및 구성(예: 인스턴스 개수, 컨테이너 파라미터, 모델 최적화)을 선택하는 데 도움이 됩니다. 오늘 AWS는 로그 및 지표에 대해 Amazon CloudWatch와의 심화된 통합, IR 작업 실행을 위한 Python SDK 지원, 고객이 선택한 VPC 서브넷 내에서 IR 작업을 실행할 수 있도록 지원, 새로운 API를 통해 기존 엔드포인트에서 부하 테스트를 실행할 수 있도록 지원, IR을 보다 쉽게 시작할 수 있도록 여러 가지 사용성을 개선했습니다.
CloudWatch 통합은 새로운 로그 그룹에서 IR 로그를 제공하여 IR 실행 시 발생하는 오류를 식별합니다. 이제 IR은 처리량 및 지연 시간 외에도 P99 지연 시 동시 사용자, CPU 및 메모리 사용률과 같은 주요 지표도 게시합니다. Python SDK 지원을 통해 고객은 Jupyter Notebook에서 IR 작업을 트리거하여 인스턴스 유형 권장 사항을 받을 수 있습니다. 또한 IR 작업의 모든 실행 단계를 상세히 확인할 수 있는 새로운 API와 기존 엔드포인트에서 모델을 로드 테스트할 수 있는 옵션을 출시했습니다. 사용성을 개선하기 위해 몇 가지 필수 입력 파라미터를 선택 사항으로 설정했으며 고객은 더 이상 IR 작업을 실행하기 위해 모델을 등록하거나 도메인과 같은 입력을 제공할 필요가 없습니다.
SageMaker Inference를 사용할 수 있는 AWS 리전에 대한 자세한 내용은 AWS 리전 표를 참조하세요.