Publicado en: Mar 18, 2024

Ahora puede lograr una relación precio-rendimiento aún mejor con los modelos de lenguaje de gran tamaño (LLM) que se ejecutan en la infraestructura de computación acelerada de NVIDIA al utilizar Amazon SageMaker con los microservicios de inferencia NIM de NVIDIA recientemente integrados. SageMaker es un servicio completamente administrado que facilita la creación, el entrenamiento y la implementación de machine learning y los LLM y NIM, que forma parte de la plataforma de software NVIDIA AI Enterprise, proporciona contenedores de IA de alto rendimiento para la inferencia con los LLM.

Al implementar los LLM para casos de uso de IA generativa a escala, los clientes suelen utilizar instancias aceleradas por GPU de NVIDIA y marcos avanzados como NVIDIA Triton Inference Server y NVIDIA TensorRT-LLM para acelerar y optimizar el rendimiento de estos modelos. Ahora, los clientes que utilizan Amazon SageMaker con NIM de NVIDIA pueden implementar rápidamente LLM optimizados en SageMaker y reducir el tiempo de implementación de días a minutos.

NIM ofrece contenedores para una variedad de LLM populares que están optimizados para la inferencia. Los LLM compatibles de fábrica incluyen Llama 2 (7B, 13B y 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 8B y 43B, StarCoder y StarCoderPlus, que utilizan motores NVIDIA TensorRT™ prediseñados. Estos modelos se seleccionan con los hiperparámetros más óptimos para garantizar una implementación eficiente en las GPU de NVIDIA. Para otros modelos, NIM también le ofrece herramientas para crear versiones optimizadas para la GPU. Para empezar, utilice el contenedor NIM disponible en el catálogo de API de NVIDIA e impleméntelo en Amazon SageMaker creando un punto de enlace de inferencia.

Los contenedores NIM están disponibles en todas las regiones de AWS en las que Amazon SageMaker está disponible. Para obtener más información, consulte nuestro blog de lanzamiento.