Publicado: Nov 27, 2023
Hoje, o Amazon SageMaker lançou uma nova versão (0.25.0) do contêiner de deep learning (DLC) de Large Model Inference (LMI), com suporte para a biblioteca TensorRT-LLM da NVIDIA. Com essas atualizações, os clientes podem acessar facilmente ferramentas de última geração para otimizar grandes modelos de linguagem (LLMs) no SageMaker. O DLC de LMI TensorRT-LLM do Amazon SageMaker reduz a latência em 33% e melhora o throughput em 60%, em média, para os modelos Llama2-70B, Falcon-40B e CodeLlama-34b, em comparação com a versão anterior.
Recentemente, os LLMs tiveram um crescimento sem precedentes em popularidade em um amplo espectro de aplicações. No entanto, esses modelos geralmente são grandes demais para caber em um único acelerador ou dispositivo de GPU, o que dificulta a inferência de baixa latência e a obtenção de escala. O Amazon SageMaker oferece contêineres de deep learning (DLCs) de LMI para ajudar os clientes a maximizar a utilização dos recursos disponíveis e melhorar a performance. Os DLCs de LMI mais recentes oferecem suporte contínuo em lote para as solicitações de inferência para melhorar o throughput, as operações coletivas de inferência eficientes para melhorar a latência e a mais recente biblioteca TensorRT-LLM da NVIDIA para maximizar a performance em GPUs. O DLC de LMI TensorRT-LLM oferece uma interface de baixo código que simplifica a compilação com o TensorRT-LLM exigindo apenas o ID do modelo e os parâmetros opcionais do modelo; todo o trabalho pesado necessário para criar um modelo otimizado para o TensorRT-LLM é gerenciado pelo DLC de LMI. Os clientes também podem aproveitar as técnicas de quantização mais recentes — GPTQ, AWQ, SmoothQuant — com DLCs de LMI.
Esses novos DLCs de LMI têm suporte em todas as regiões da AWS nas quais o SageMaker está disponível. Para obter etapas detalhadas sobre como começar, consulte o blog sobre machine learning da AWS, a documentação do DLC de Large Model Inference e um exemplo de caderno.