Amazon SageMaker AI ahora admite la decodificación especulativa de EAGLE
Amazon SageMaker AI ahora admite la decodificación especulativa EAGLE (algoritmo de extrapolación para una mayor eficiencia de los modelos de lenguaje) para mejorar el rendimiento de la inferencia de modelos de lenguaje de gran tamaño hasta 2,5 veces. Esta capacidad permite a los modelos predecir y validar varios tokens simultáneamente en lugar de uno a la vez, lo que mejora los tiempos de respuesta de las aplicaciones de IA.
A medida que los clientes implementan aplicaciones de IA en la producción, necesitan capacidades para atender modelos con baja latencia y alto rendimiento a fin de ofrecer experiencias de usuario con capacidad de respuesta. Los científicos de datos y los ingenieros de ML carecen de métodos eficientes para acelerar la generación de tokens sin sacrificar la calidad de los resultados ni necesitar volver a hacer un diseño complejo de la arquitectura de modelos. Esto dificulta cumplir con las expectativas de rendimiento en el tráfico real. Los equipos dedican mucho tiempo a optimizar la infraestructura en lugar de a mejorar sus aplicaciones de IA. Con la decodificación especulativa de EAGLE, la IA de SageMaker permite a los clientes acelerar el rendimiento de las inferencias al permitir que los modelos generen y verifiquen varios tokens en paralelo en lugar de uno a la vez, manteniendo la misma calidad de salida y aumentando drásticamente el rendimiento. SageMaker AI selecciona automáticamente entre EAGLE 2 y EAGLE 3 en función de la arquitectura de su modelo y proporciona trabajos de optimización integrados que utilizan conjuntos de datos seleccionados o datos de su propia aplicación para entrenar cabezas de predicción especializadas. A continuación, puede implementar modelos optimizados a través de su flujo de trabajo de inferencia de IA de SageMaker existente sin cambios en la infraestructura. Esto permite ofrecer aplicaciones de IA más rápidas con un rendimiento predecible.
Puede utilizar la decodificación especulativa de EAGLE en las siguientes regiones de AWS: este de EE. UU. (norte de Virginia), oeste de EE. UU. (Oregón), este de EE. UU. (Ohio), Asia-Pacífico (Tokio), Europa (Irlanda), Asia-Pacífico (Singapur) y Europa (Fráncfort)
Para obtener más información sobre la decodificación especulativa de EAGLE, visite el blog de noticias de AWS aquí y la documentación de SageMaker AI aquí.