Publié le: Aug 20, 2021

Nous vous présentons l'inférence asynchrone d'Amazon SageMaker, un nouveau type d'inférence d'Amazon SageMaker qui met en file d'attente les demandes et les traite de façon asynchrone. Cette fonctionnalité s'avère idéale pour les inférences avec de grandes tailles de charges utiles (jusqu'à 1 Go) et/ou de longs temps de traitement (jusqu'à 15 minutes) à mesure que les demandes arrivent. L'inférence asynchrone vous permet de réaliser des économies en mettant à zéro le nombre d'instances lorsqu'il n'y a aucune requête à traiter. Ainsi, vous ne payez que lorsque votre point de terminaison traite des demandes.

Avec le lancement de l'inférence asynchrone, Amazon SageMaker offre désormais trois options pour déployer des modèles de machine learning entraînés pour la génération d'inférence sur de nouvelles données. L'inférence en temps réel convient aux applications dont les tailles de charges utiles ne dépassent pas 6 Mo et le traitement s'effectue avec de faibles latences en millisecondes ou secondes. La transformation par lots est idéale pour les prédictions hors ligne sur des grands lots de données qui sont disponibles à l'avance. Le nouveau type d'inférence asynchrone est parfaitement conçu pour les applications dont les tailles des demandes sont volumineuses (jusqu'à 1 Go) et les temps de traitement d'inférence prennent des minutes (jusqu'à 15 minutes). Les exemples d'applications pour l'inférence asynchrone comprennent l'exécution de prédictions sur des images à haute résolution générées depuis un appareil mobile à plusieurs intervalles durant la journée et l'envoi de réponses en quelques minutes après la réception de la demande. Pour les cas d'utilisation pouvant tolérer une pénalité de démarrage à froid de quelques minutes, vous avez la possibilité de réduire le nombre d'instances à zéro lorsqu'il n'y a pas de demandes en attente, puis de le réaugmenter à mesure que de nouvelles demandes arrivent. Ainsi, vous ne payez que la durée pendant laquelle les points de terminaison traitent activement les demandes.

La création d'un point de terminaison d'inférence asynchrone s'apparente à celle d'un point de terminaison en temps réel. Vous pouvez utiliser vos modèles Amazon SageMaker existants et n'avez qu'à indiquer les paramètres de configuration supplémentaires spécifiques à l'inférence asynchrone lors de la réalisation de la configuration de votre point de terminaison. Pour invoquer le point de terminaison, vous devez placer la charge utile de la demande dans Amazon S3 et fournir un pointeur vers la charge utile dans la requête d'invocation. Lors de l'invocation, Amazon SageMaker met la demande en file d'attente de traitement et renvoie un emplacement de sortie comme réponse. Lors du traitement, Amazon SageMaker place la réponse d'inférence dans l'emplacement Amazon S3 précédemment renvoyé. Vous avez la possibilité de choisir de recevoir des notifications de réussite ou d'erreur via Simple Notification Service (SNS).

Pour obtenir une description détaillée de la création, l'invocation et du contrôle des points de terminaison d'inférence asynchrone, veuillez lire notre documentation qui comprend également un exemple de bloc-notes pour vous aider à démarrer. Pour plus d'informations sur la tarification, consultez la page relative à la tarification d'Amazon SageMaker. L'inférence asynchrone d'Amazon SageMaker est publiquement disponible dans toutes les régions commerciales AWS où Amazon SageMaker est proposé, excepté en Asie-Pacifique (Osaka), EU (Milan) et Afrique (Le Cap).