Amazon SageMaker introduit de nouvelles fonctionnalités pour accélérer la mise à l'échelle de l'inférence d’IA générative

Publié le: 6 déc. 2024

Nous sommes ravis d'annoncer deux nouvelles fonctionnalités de SageMaker Inference qui améliorent considérablement le déploiement et la mise à l'échelle des modèles d'IA générative : la mise en cache des conteneurs et le chargeur de modèles rapides. Ces innovations répondent aux défis critiques liés à la mise à l'échelle efficace des grands modèles de langage (LLM), permettant des temps de réponse plus rapides aux pics de trafic et une mise à l'échelle plus rentable. En réduisant les temps de chargement des modèles et en accélérant la mise à l'échelle automatique, ces fonctionnalités permettent aux clients d'améliorer la réactivité de leurs applications d'IA générative lorsque la demande fluctue, en particulier pour les services présentant des modèles de trafic dynamiques.

La mise en cache des conteneurs réduit considérablement le temps nécessaire à la mise à l'échelle des modèles d'IA générative à des fins d'inférence en mettant les images de conteneurs en cache préalable. Il n'est donc pas nécessaire de les télécharger lors de la mise à l'échelle, ce qui se traduit par une réduction significative du temps de mise à l'échelle pour les points de terminaison des modèles d'IA générative. Le chargeur de modèles rapides transmet les poids des modèles directement depuis Amazon S3 vers l'accélérateur, chargeant ainsi les modèles beaucoup plus rapidement qu'avec les méthodes traditionnelles. Ces fonctionnalités permettent aux clients de créer des politiques de mise à l’échelle automatique plus réactives, permettant à SageMaker d'ajouter rapidement de nouvelles instances ou de copier des modèles lorsque les seuils définis sont atteints, maintenant ainsi des performances optimales pendant les pics de trafic tout en gérant les coûts de manière efficace.

Ces nouvelles fonctionnalités sont accessibles dans toutes les régions AWS où Amazon SageMaker Inference est disponible. Pour en savoir plus, consultez notre documentation pour obtenir des conseils de mise en œuvre détaillés.