Amazon SageMaker lance Scale Down to Zero pour l'inférence basée sur l'IA afin d'aider les clients à réduire leurs coûts
Nous sommes ravis d'annoncer la mise à l'échelle vers zéro, une nouvelle fonctionnalité d'Amazon SageMaker Inference qui permet aux terminaux de passer à zéro instance pendant les périodes d'inactivité. Cette fonctionnalité peut réduire considérablement les coûts liés à l'exécution de l'inférence à l'aide de modèles d'IA, ce qui la rend particulièrement avantageuse pour les applications présentant des modèles de trafic variables, telles que les chatbots, les systèmes de modération de contenu et autres cas d'utilisation de l'IA générative.
Grâce à Scale Down to Zero, les clients peuvent configurer leurs points de terminaison d'inférence SageMaker pour passer automatiquement à zéro instance lorsqu'ils ne sont pas utilisés, puis les redimensionner rapidement lorsque le trafic reprend. Cette fonctionnalité est efficace pour les scénarios comportant des modèles de trafic prévisibles, un trafic d'inférence intermittent et des environnements de développement/test. La mise en œuvre de Scale Down to Zero est simple grâce aux composants d'inférence de SageMaker. Les clients peuvent configurer des stratégies de dimensionnement automatique via le kit SDK AWS pour Python (Boto3), le SDK SageMaker Python ou l'interface de ligne de commande AWS (AWS CLI). Le processus implique la configuration d'un terminal avec la mise à l'échelle des instances gérées activée, la configuration des stratégies de dimensionnement et la création d'alarmes CloudWatch pour déclencher des actions de dimensionnement.
Scale Down to Zero est désormais disponible dans toutes les régions AWS où Amazon SageMaker est pris en charge. Pour en savoir plus sur la mise en œuvre de Scale Down to Zero et l'optimisation des coûts pour les déploiements d'IA générative, consultez notre page de documentation.