게시된 날짜: Mar 18, 2024
이제 Amazon SageMaker를 새롭게 통합된 NVIDIA NIM 추론 마이크로서비스와 함께 사용하면 NVIDIA 가속 컴퓨팅 인프라에서 실행되는 대규모 언어 모델(LLM)의 가격 대비 성능을 더욱 향상시킬 수 있습니다. SageMaker는 기계 학습과 LLM을 손쉽게 구축, 훈련 및 배포할 수 있는 완전관리형 서비스이며, NVIDIA AI Enterprise 소프트웨어 플랫폼의 일부인 NIM은 LLM의 추론을 위한 고성능 AI 컨테이너를 제공합니다.
대규모 생성형 AI 사용 사례를 위해 LLM을 배포할 때 고객은 NVIDIA GPU 가속 인스턴스와 NVIDIA Triton 추론 서버 및 NVIDIA TensorRT-LLM과 같은 고급 프레임워크를 사용하여 LLM의 성능을 가속화하고 최적화하는 경우가 많습니다. 이제 Amazon SageMaker와 NVIDIA NIM를 함께 사용하는 고객은 최적화된 LLM을 SageMaker에 신속하게 배포하고 배포 시간을 며칠에서 몇 분으로 단축할 수 있습니다.
NIM은 추론에 최적화된 다양한 인기 LLM용 컨테이너를 제공합니다. 기본 제공되는 LLM에는 사전 구축된 NVIDIA TensorRT™ 엔진을 사용하는 Llama 2(7B, 13B, 70B), Mistral-7b-Instruct, Mixtral-8x7b, NVIDIA Nemotron-3 8B 및 43B, StarCoder, StarCoderPlus가 포함됩니다. 이러한 모델은 가장 최적의 하이퍼 파라미터로 큐레이션되어 NVIDIA GPU에서 고성능 배포를 보장합니다. 다른 모델의 경우 NIM은 GPU 최적화 버전을 생성할 수 있는 도구도 제공합니다. 시작하려면 NVIDIA API 카탈로그를 통해 제공되는 NIM 컨테이너를 사용하고 추론 엔드포인트를 생성하여 Amazon SageMaker에 배포하시기 바랍니다.
NIM 컨테이너는 Amazon SageMaker가 제공되는 모든 AWS 리전에서 액세스할 수 있습니다. 자세한 내용은 출시 블로그를 참조하세요.