Publié le: Nov 27, 2023

Amazon SageMaker a lancé aujourd'hui une nouvelle version (0.25.0) du DLC (Deep Learning Container) LMI (Large Model Inference) qui prend en charge la bibliothèque TensorRT-LLM de NVIDIA. Grâce à ces mises à niveau, les clients peuvent facilement accéder à des outils de pointe pour optimiser les grands modèles de langage (LLM) sur SageMaker. Le DLC TensorRT-LLM LMI Amazon SageMaker réduit la latence de 33 % en moyenne et améliore le débit de 60 % en moyenne pour les modèles Llama2-70B, Falcon-40B et CodeLlama-34B par rapport à la version précédente.

La popularité des LLM a récemment connu une croissance sans précédent dans un large éventail d'applications. Cependant, ces modèles sont souvent trop volumineux pour tenir sur un seul accélérateur ou un seul appareil GPU, ce qui complique l'obtention d'une inférence à faible latence et la mise à l'échelle. Amazon SageMaker propose des conteneurs de deep learning (DLC) LMI pour aider les clients à optimiser l'utilisation des ressources disponibles et à améliorer les performances. Les DLC LMI les plus récents offrent une prise en charge continue par lots pour les demandes d'inférence afin d'améliorer le débit, des opérations collectives d'inférence efficaces pour améliorer la latence et la toute dernière bibliothèque TensorRT-LLM de NVIDIA pour optimiser les performances des GPU. Le DLC LMI TensorRT-LLM propose une interface à faible quantité de code qui simplifie la compilation avec TensorRT-LLM en demandant simplement l'identifiant du modèle et les paramètres facultatifs du modèle. Toutes les tâches exigeantes requises pour créer un modèle optimisé pour TensorRT-LLM sont gérées par le DLC LMI. Les clients peuvent également tirer parti des dernières techniques de quantification (GPTQ, AWQ, SmoothQuant) avec les DLC LMI. 

Ces nouveaux DLC LMI sont pris en charge dans toutes les régions AWS où SageMaker est disponible. Pour savoir de manière détaillée comment démarrer, consultez le blog AWS ML, la documentation du DLC Large Model Inference et un exemple de bloc-notes.