Publicado en: Nov 27, 2023
Amazon SageMaker lanzó hoy una nueva versión (0.25.0) del contenedor de aprendizaje profundo (DLC) de inferencia de modelos de gran tamaño (LMI), compatible con la biblioteca TensorRT-LLM de NVIDIA. Con estas actualizaciones, los clientes pueden acceder fácilmente a herramientas de última generación para optimizar los modelos de lenguaje de gran tamaño (LLM) en SageMaker. El DLC LMI TensorRT-LLM de Amazon SageMaker reduce la latencia en un 33 % en promedio y mejora el rendimiento en un 60 % en promedio para los modelos Llama2-70B, Falcon-40B y CodeLlama-34B, en comparación con la versión anterior.
Últimamente, los modelos de lenguaje de gran tamaño (LLM) han experimentado un crecimiento sin precedentes en popularidad en un amplio espectro de aplicaciones. Sin embargo, estos modelos suelen ser demasiado grandes para caber en un solo acelerador o dispositivo GPU, lo que dificulta la inferencia de baja latencia y la escalabilidad. Amazon SageMaker ofrece contenedores de aprendizaje profundo (DLC) de inferencia de modelos de gran tamaño (LMI) para ayudar a los clientes a maximizar la utilización de los recursos disponibles y mejorar el rendimiento. Los DLC de LMI más recientes ofrecen soporte continuo por lotes para solicitudes de inferencia a fin de mejorar el rendimiento, operaciones colectivas de inferencia eficientes para mejorar la latencia y la última biblioteca TensorRT-LLM de NVIDIA para maximizar el rendimiento de las GPU. El DLC TensorRT-LLM de LMI ofrece una interfaz de bajo código que simplifica la compilación con TensorRT-LLM al solo requerir el identificador del modelo y los parámetros opcionales del modelo; todo el trabajo pesado que se requiere para crear un modelo optimizado para TensorRT-LLM lo gestiona el DLC de LMI. Los clientes también pueden aprovechar las técnicas de cuantificación más recientes (GPTQ, AWQ, SmoothQuant) con los DLC de LMI.
Estos nuevos DLC de LMI son compatibles en todas las regiones de AWS en las que está disponible SageMaker. Para obtener instrucciones detalladas sobre cómo empezar, consulte el blog de ML de AWS, la documentación del DLC de inferencia de modelos de gran tamaño y el cuaderno de muestra.