Amazon SageMaker presenta una nueva capacidad de optimización de inferencias de IA generativa
Hoy, Amazon SageMaker anunció la disponibilidad general de una nueva capacidad de inferencia que ofrece un rendimiento casi 2 veces mejor y, a la vez, reduce los costos hasta en un 50 % para los modelos de IA generativa, como los modelos Llama 3, Mistral y Mixtral. Por ejemplo, con un modelo Llama 3-70B, puede lograr hasta aproximadamente 2400 tokens/seg en una instancia ml.p5.48xlarge frente a aproximadamente 1200 tokens/seg anteriormente sin ninguna optimización.
Con esta nueva capacidad, los clientes pueden elegir entre un menú con las últimas técnicas de optimización de modelos, como la decodificación especulativa, la cuantificación y la compilación, y aplicarlas a sus modelos de IA generativa. SageMaker se encargará de aprovisionar el hardware necesario para ejecutar la receta de optimización, junto con las bibliotecas y los marcos de aprendizaje profundo. Los clientes obtienen soporte inmediato para una solución de decodificación especulativa de SageMaker cuyo rendimiento ha sido probado a escala para varios modelos conocidos de código abierto, o pueden usar su propia solución de decodificación especulativa. Para la cuantificación, SageMaker garantiza la compatibilidad y el soporte para los tipos de precisión en diferentes arquitecturas de modelos. Para la compilación, la infraestructura del tiempo de ejecución de SageMaker garantiza la carga y el almacenamiento en caché eficientes de los modelos optimizados para reducir el tiempo de escalado automático.
Los clientes pueden aprovechar esta nueva capacidad en AWS SDK para Python (Boto3), SageMaker Python SDK o la interfaz de la línea de comandos de AWS (AWS CLI). Esta capacidad se encuentra disponible de forma general en las regiones Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón), Asia-Pacífico (Bombay), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Tokio), Canadá (centro), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Estocolmo) y América del Sur (São Paulo).
Para obtener más información, visite la página de nuestra documentación y nuestro blog de AWS ML.