게시된 날짜: Sep 9, 2022

Amazon SageMaker에서는 고객이 모든 사용 사례에 맞게 예측(추론이라고도 함)을 생성하여 ML 모델을 배포할 수 있습니다. 이제 최대 EBS 볼륨 크기 및 제한 시간 할당량으로 구성된 Amazon SageMaker의 실시간 및 비동기식 추론 옵션으로 추론을 위해 대규모 모델(최대 500GB)을 배포할 수 있습니다. 이번 출시를 통해 고객은 GPT 및 OPT 변형 같은 대규모 ML 모델을 배포 및 관리하는 SageMaker의 완전관리형 실시간 및 비동기식 추론 기능을 활용할 수 있게 되었습니다.

이전에는 SageMaker에서 최대 30GB 크기까지의 EBS 볼륨을 SageMaker 엔드포인트에 연결했는데, 이는 배포할 수 있는 모델의 최대 크기가 제한되어 있었습니다. 이제 EBS 볼륨 크기는 최대 500GB까지 구성 가능하며, 그에 따라 더 큰 모델을 사용할 수 있고 추론 요구에 맞게 더 많은 리소스를 패키지할 수 있습니다. 게다가 컨테이너 상태 확인 및 다운로드 제한 시간 할당량을 최대 60분까지 만들 수도 있어 다운로드하고 모델 및 관련 리소스를 로드하는 데 더 많은 시간을 할애할 수 있게 되었습니다. 이와 함께 이러한 변경 사항을 통해 SageMaker를 사용하여 크기가 더 큰 경향이 있는 고급 딥 러닝 모델을 배포할 수 있습니다. 예를 들어 최근 출시된 ml.p4d 및 ml.g5 인스턴스로 이러한 변경 사항을 고성능 추론에 위해 여러 GPU에서 메모리를 활용할 수 있는 대규모 모델을 배포하는 데 사용할 수 있습니다.

이러한 새로운 구성 옵션은 SagaMaker를 사용할 수 있는 모든 상용 리전에서 제공됩니다.

시작하려면 여기에서 설명서를 참조하세요. 사용 사례의 예를 확인하려면 SageMaker에서 DeepSpeed와 이러한 변경 사항을 함께 활용하여 고성능 추론을 위해 여러 GPU 디바이스에서 대규모 모델을 배포하는 방법에 대해 설명하는 당사의 블로그 게시물을 읽어 보세요.