Amazon SageMaker AI prend désormais en charge le décodage spéculatif EAGLE
Amazon SageMaker AI prend désormais en charge le décodage spéculatif EAGLE (Extrapolation Algorithm for Greater Language-Model Efficiency) afin d'améliorer le débit d'inférence des grands modèles de langage jusqu'à 2,5 fois. Cette fonctionnalité permet aux modèles de prédire et de valider plusieurs jetons simultanément plutôt qu'un à la fois, améliorant ainsi les temps de réponse pour les applications d'IA.
Lorsque les clients déploient des applications d'IA en production, ils ont besoin de fonctionnalités pour proposer des modèles à faible latence et à haut débit afin de proposer des expériences utilisateur réactives. Les scientifiques des données et les ingénieurs ML ne disposent pas de méthodes efficaces pour accélérer la génération de jetons sans sacrifier la qualité de sortie ou nécessiter une recréation complexe de l'architecture des modèles, ce qui rend difficile la réalisation des attentes en matière de performances dans un trafic réel. Les équipes passent beaucoup de temps à optimiser l'infrastructure plutôt qu'à améliorer leurs applications d'IA. Grâce au décodage spéculatif EAGLE, SageMaker AI permet aux clients d'accélérer le débit d'inférence en permettant aux modèles de générer et de vérifier plusieurs jetons en parallèle plutôt qu'un par un, tout en conservant la même qualité de sortie et en augmentant considérablement le débit. SageMaker AI fait automatiquement le choix entre EAGLE 2 et EAGLE 3 en fonction de l'architecture de votre modèle, et fournit des tâches d'optimisation intégrées qui utilisent soit des jeux de données sélectionnés, soit les données de vos propres applications pour former des responsables de prévision spécialisés. Vous pouvez ensuite déployer des modèles optimisés via votre flux de travail d'inférence SageMaker AI existant sans modifier l'infrastructure, ce qui vous permet de fournir des applications d'IA plus rapides avec des performances prévisibles.
Vous pouvez utiliser le décodage spéculatif EAGLE dans les régions AWS USA Est (Virginie du Nord), USA Ouest (Oregon), USA Est (Ohio), Asie-Pacifique (Singapour), Asie-Pacifique (Tokyo), Europe (Francfort) et Europe (Irlande).
Pour en savoir plus sur le décodage spéculatif EAGLE, consultez le blog AWS News ici et la documentation relative à SageMaker AI ici.