Publicado: Mar 18, 2024

Agora você pode obter uma relação preço-performance ainda melhor de grandes modelos de linguagem (LLMs) executados na infraestrutura de computação acelerada da NVIDIA ao usar o Amazon SageMaker com os microsserviços de inferência do NVIDIA NIM recém-integrados. O SageMaker é um serviço totalmente gerenciado que facilita a criação, o treinamento e a implantação de machine learning e LLMs, e o NIM, parte da plataforma de software NVIDIA AI Enterprise, fornece contêineres de IA de alta performance para inferência com LLMs.

Ao implantar LLMs para casos de uso de IA generativa em grande escala, os clientes geralmente usam instâncias aceleradas por GPU da NVIDIA e estruturas avançadas, como o NVIDIA Triton Inference Server e o NVIDIA TensorRT-LLM, para acelerar e otimizar a performance dos LLMs. Agora, os clientes que usam o Amazon SageMaker com o NVIDIA NIM podem implantar LLMs otimizados no SageMaker rapidamente e reduzir o tempo de implantação de dias para minutos.

O NIM oferece contêineres para uma variedade de LLMs populares que são otimizados para inferência. Os LLMs compatíveis prontos para uso incluem Llama 2 (7B, 13B e 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 8B e 43B, StarCoder e StarCoderPlus, que usam os mecanismos NVIDIA TensorRT™ pré-integrados. Esses modelos são selecionados com os hiperparâmetros mais ideais para garantir uma implantação eficiente em GPUs da NVIDIA. Para outros modelos, o NIM também oferece ferramentas para criar versões otimizadas para GPU. Para começar a usá-lo, use o contêiner do NIM disponível no catálogo de APIs da NVIDIA e implante-o no Amazon SageMaker criando um endpoint de inferência.

Os contêineres do NIM estão acessíveis em todas as regiões da AWS nas quais o Amazon SageMaker está disponível. Para saber mais, consulte nosso blog de lançamento.