Publié le: Dec 1, 2021

Amazon SageMaker Serverless Inference est un nouveau type d'inférence qui vous permet de déployer facilement des modèles de machine learning pour l'inférence, sans avoir à configurer ou à gérer l'infrastructure sous-jacente. Contentez-vous de sélectionner l'option sans serveur lors du déploiement de votre modèle de machine learning, puis laissez Amazon SageMaker allouer, mettre à l'échelle et désactiver automatiquement la capacité de calcul en fonction du volume de demandes d'inférence. Avec SageMaker Serverless Inference, vous ne payez que la durée d'exécution du code d'inférence et la quantité de données traitées, pas la durée d'inactivité.

Amazon SageMaker Serverless Inference est idéal pour les applications au trafic intermittent ou imprévisible. Par exemple, un service de chatbot utilisé par une entreprise de traitement de la paie connaît une augmentation des demandes à la fin du mois, tandis que le trafic est intermittent le reste du mois. Allouer des instances pour le mois entier dans de tels scénarios n'est pas rentable, car vous finissez par payer les périodes d'inactivité. Amazon SageMaker Serverless Inference permet de traiter ces types de cas d'utilisation en mettant automatiquement à l'échelle la capacité de calcul en fonction du volume de demandes d'inférence, sans que vous ayez besoin de prévoir la demande de trafic à l'avance ou de gérer des politiques de mise à l'échelle. De plus, vous ne payez que le temps de calcul nécessaire en vue d'exécuter votre code d'inférence (facturé en millisecondes) et la quantité de données traitées, ce qui en fait une option rentable pour les charges de travail à trafic intermittent. Avec l'introduction de SageMaker Serverless Inference, SageMaker propose désormais quatre options d'inférence, ce qui étend les choix de déploiement disponibles à un large éventail de cas d'utilisation. Les trois autres options sont les suivantes : SageMaker Real-Time Inference pour les charges de travail ayant des exigences de faible latence de l'ordre de quelques millisecondes, SageMaker Batch Transform pour exécuter des prédictions sur des lots de données et SageMaker Asynchronous Inference pour les inférences ayant des tailles de charge utile importantes ou nécessitant de longs temps de traitement. Pour en savoir plus, visitez la page web de déploiement d'Amazon SageMaker.

Vous pouvez facilement créer un point de terminaison d'inférence SageMaker à partir de la console, des kits AWS SDK ou de l'AWS Command Line Interface (CLI). Pour obtenir des instructions détaillées sur la mise en route, consultez la documentation SageMaker Serverless Inference, qui comprend également un exemple de bloc-notes. Pour obtenir des informations sur la tarification, consultez la page de tarification de SageMaker. SageMaker Serverless Inference est disponible en version de prévisualisation dans les régions USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), Europe (Irlande), Asie-Pacifique (Tokyo) et Asie-Pacifique (Sydney).