게시된 날짜: Nov 27, 2023
오늘 Amazon SageMaker는 NVIDIA의 TensorRT-LLM 라이브러리를 지원하는 대규모 모델 추론(LMI) 딥 러닝 컨테이너(DLC)의 새 버전(0.25.0)을 출시했습니다. 이러한 업그레이드를 통해 고객은 최신 도구에 손쉽게 액세스하여 SageMaker에서 대규모 언어 모델(LLM)을 최적화할 수 있습니다. Amazon SageMaker LMI TensorRT-LLM DLC는 이전 버전에 비해 Llama2-70B, Falcon-40B 및 CodeLlama-34B 모델의 지연 시간을 평균 33% 줄이고 처리량을 평균 60% 개선합니다.
LLM은 최근 다양한 애플리케이션에서 전례 없는 인기를 누리고 있습니다. 그러나 이러한 모델은 크기가 너무 커서 단일 액셀러레이터 또는 GPU 디바이스에 맞지 않는 경우가 많기 때문에 지연 시간이 짧은 추론과 확장성을 달성하기가 어렵습니다. Amazon SageMaker는 고객이 사용 가능한 리소스의 활용도를 극대화하고 성능을 개선할 수 있도록 LMI 딥 러닝 컨테이너(DLC)를 제공합니다. 최신 LMI DLC는 처리량 개선을 위한 추론 요청, 지연 시간 개선을 위한 효율적인 추론 집합 작업, GPU 성능 극대화를 위한 NVIDIA의 최신 TensorRT-LLM 라이브러리에 대한 지속적인 일괄 처리를 제공합니다. LMI TensorRT-LLM DLC는 모델 ID와 선택적 모델 파라미터만 요구하여 TensorRT-LLM을 통해 컴파일을 간소화하는 로우 코드 인터페이스를 제공합니다. TensorRT-LLM 최적화된 모델을 구축하는 데 필요한 번거로운 모든 작업은 LMI DLC에서 관리합니다. 고객은 LMI DLC를 통해 GPTQ, AWQ, SmoothQuant 같은 최신 양자화 기술을 활용할 수도 있습니다.
이러한 새로운 LMI DLC는 SageMaker가 제공되는 모든 AWS 리전에서 지원됩니다. 시작하는 방법에 대한 자세한 단계는 AWS ML 블로그, 대규모 모델 추론 DLC 설명서 및 샘플 노트북을 참조하세요.