게시된 날짜: May 4, 2023

실시간 및 비동기식 추론을 위한 기계 학습(ML) 모델을 배포하는 데 적합한 ml.inf2 및 ml.trn1 인스턴스 패밀리를 Amazon SageMaker에서 사용할 수 있게 되었음을 발표하게 되어 기쁩니다. SageMaker에서 이러한 인스턴스를 사용하면 대규모 언어 모델(LLM) 및 비전 트랜스포머를 비롯한 생성형 인공 지능(AI) 모델에서 낮은 비용으로 높은 성능을 실현할 수 있습니다. 또한 SageMaker Inference Recommender를 사용하여 로드 테스트를 실행하고 이러한 인스턴스에 모델을 배포할 때의 가격 대비 성능 이점을 평가할 수 있습니다.

ml.inf2 및 ml.trn1 인스턴스는 각각 AWS Inferentia2와 Trainium 액셀러레이터로 구동됩니다.

  • ml.inf2 인스턴스를 사용하여 텍스트 요약, 코드 생성, 비디오 및 이미지 생성, 음성 인식 등을 위한 ML 애플리케이션을 SageMaker에서 실행할 수 있습니다. ml.inf2 인스턴스는 고성능 생성형 AI 추론을 위해 최대 384GB의 공유 액셀러레이터 메모리를 제공합니다.
  • ml.trn1 인스턴스는 ml.inf2 인스턴스와 비슷하지만, 512GB의 공유 액셀러레이터 메모리를 제공합니다. 이러한 인스턴스를 사용하여 SageMaker에서 더 큰 모델을 배포할 수 있습니다. 또한 이러한 인스턴스에는 최대 8TB의 로컬 NVMe SSD(Solid State Drive) 스토리지가 있어 대규모 데이터 세트 및 모델의 워크로드에 빠르게 액세스할 수 있습니다.

ml.inf2 인스턴스는 미국 동부(오하이오)의 SageMaker에서, ml.trn1 인스턴스는 미국 동부(버지니아 북부)의 SageMaker에서 모델 배포에 사용할 수 있습니다.

엔드포인트를 배포할 때 PyTorch, Tensorflow, HuggingFace 및 Large Model Inference(LMI)를 위한 ml.trn1 및 ml.inf2 호환 AWS Deep Learning Containers(AWS DL Containers)를 사용하여 손쉽게 시작할 수 있습니다(세부 정보). 요금은 요금 페이지를 참조하세요.