게시된 날짜: Nov 12, 2021
오늘 Amazon SageMaker에서 NVIDIA Triton™ Inference Server를 발표함으로써, NVIDIA Triton을 모델 서버로 선택한 고객이 컨테이너를 가져와 SageMaker에서 대규모로 배포할 수 있게 되었습니다.
NVIDIA Triton은 PyTorch, TensorFlow, XGBoost 및 ONNX를 포함한 여러 기계 학습 프레임워크의 훈련된 기계 학습 모델을 실행하는 오픈 소스 모델 서버입니다. Triton은 개발자가 특정 형식의 요청을 수신할 수 있는 새로운 프런트엔드와 추가 모델 실행 런타임을 처리할 수 있는 새로운 백엔드를 추가할 수 있는 확장 가능한 서버입니다. AWS는 NVIDIA와 긴밀히 협력하여 SageMaker 호스팅 컨테이너와 호환되는 새로운 Triton 프런트엔드와 SageMaker Neo-compiled 모델과 호환되는 새로운 백엔드를 추가했습니다. 따라서 고객은 Triton을 통해 모델을 포함하는 맞춤형 컨테이너를 쉽게 구축하고 SageMaker로 가져올 수 있습니다. SageMaker Inference는 요청을 처리하고 사용량이 증가함에 따라 컨테이너를 자동으로 확장하므로 AWS에서 Triton을 사용하여 모델을 더 쉽게 배포할 수 있습니다.