게시된 날짜: Sep 9, 2022
Amazon SageMaker에서는 고객이 모든 사용 사례에 맞게 예측(추론이라고도 함)을 생성하여 ML 모델을 배포할 수 있습니다. 이제 최대 EBS 볼륨 크기 및 제한 시간 할당량으로 구성된 Amazon SageMaker의 실시간 및 비동기식 추론 옵션으로 추론을 위해 대규모 모델(최대 500GB)을 배포할 수 있습니다. 이번 출시를 통해 고객은 GPT 및 OPT 변형 같은 대규모 ML 모델을 배포 및 관리하는 SageMaker의 완전관리형 실시간 및 비동기식 추론 기능을 활용할 수 있게 되었습니다.
이전에는 SageMaker에서 최대 30GB 크기까지의 EBS 볼륨을 SageMaker 엔드포인트에 연결했는데, 이는 배포할 수 있는 모델의 최대 크기가 제한되어 있었습니다. 이제 EBS 볼륨 크기는 최대 500GB까지 구성 가능하며, 그에 따라 더 큰 모델을 사용할 수 있고 추론 요구에 맞게 더 많은 리소스를 패키지할 수 있습니다. 게다가 컨테이너 상태 확인 및 다운로드 제한 시간 할당량을 최대 60분까지 만들 수도 있어 다운로드하고 모델 및 관련 리소스를 로드하는 데 더 많은 시간을 할애할 수 있게 되었습니다. 이와 함께 이러한 변경 사항을 통해 SageMaker를 사용하여 크기가 더 큰 경향이 있는 고급 딥 러닝 모델을 배포할 수 있습니다. 예를 들어 최근 출시된 ml.p4d 및 ml.g5 인스턴스로 이러한 변경 사항을 고성능 추론에 위해 여러 GPU에서 메모리를 활용할 수 있는 대규모 모델을 배포하는 데 사용할 수 있습니다.
이러한 새로운 구성 옵션은 SagaMaker를 사용할 수 있는 모든 상용 리전에서 제공됩니다.