Amazon SageMaker présente une nouvelle fonctionnalité d'optimisation de l'inférence basée sur l'IA générative

Publié le: 9 juil. 2024

Amazon SageMaker a annoncé aujourd'hui la disponibilité générale d'une nouvelle fonctionnalité d'inférence qui fournit un débit jusqu'à deux fois plus élevé tout en réduisant les coûts d'environ 50 % pour les modèles d'IA générative tels que Llama 3, Mistral et Mixtral. Par exemple, avec un modèle Llama 3-70B, vous pouvez obtenir jusqu’à environ 2 400 jetons/sec sur une instance ml.p5.48xlarge contre environ 1 200 jetons/s auparavant sans aucune optimisation.

Grâce à cette nouvelle fonctionnalité, les clients peuvent choisir parmi une sélection des dernières techniques d'optimisation de modèles, telles que le décodage spéculatif, la quantification et la compilation, et les appliquer à leurs modèles d'IA générative. SageMaker fera la plus grosse part du travail en fournissant le matériel nécessaire pour exécuter la recette d'optimisation, ainsi que des frameworks et des bibliothèques de deep learning. Les clients bénéficient d'une assistance prête à l'emploi pour une solution de décodage spéculatif de SageMaker dont les performances ont été testées à grande échelle pour différents modèles open source populaires, ou ils peuvent apporter leur propre solution de décodage spéculatif. Concernant la quantification, SageMaker garantit la compatibilité et la prise en charge des types de précision sur différentes architectures de modèles. Pour la compilation, l'infrastructure d'exécution de SageMaker garantit un chargement et une mise en cache efficaces des modèles optimisés afin de réduire le temps de mise à l'échelle automatique.

Les clients peuvent tirer parti de cette nouvelle fonctionnalité à partir du kit SDK AWS for Python (Boto3), du kit SDK SageMaker Python ou de l'interface de ligne de commande AWS (AWS CLI). Cette fonctionnalité est désormais disponible généralement dans les régions USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), Asie-Pacifique (Mumbai), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande), Europe (Londres), Europe (Paris), Europe (Stockholm) et Amérique du Sud (São Paulo).

Pour en savoir plus, consultez notre page de documentation et notre blog AWS ML.