Inférence Amazon SageMaker

Déployez et gérez facilement des modèles de machine learning (ML) à des fins d'inférence.

Qu’est-ce qu’Amazon SageMaker Inference ?

Amazon SageMaker AI simplifie le déploiement de modèles de ML, y compris des modèles de fondation (FM), afin de répondre aux demandes d’inférence au meilleur rapport prix/performances, quel que soit le cas d’utilisation. Que ce soit pour une inférence à faible latence, à débit élevé ou de longue durée, vous pouvez utiliser SageMaker AI pour tous vos besoins. SageMaker AI est un service entièrement géré qui s’intègre aux outils MLOps. Vous pouvez ainsi mettre à l’échelle votre modèle de déploiement, réduire les coûts d’inférence, gérer les modèles plus efficacement en production et réduire la charge opérationnelle.

Avantages de SageMaker Inference

Large gamme d’options d’inférence

Inférence en temps réel

Prévisions en temps réel, interactives et à faible latence pour les cas d’utilisation avec des modèles de trafic réguliers. Vous pouvez déployer votre modèle sur un point de terminaison entièrement géré et prenant en charge la mise à l’échelle automatique.

Inférence sans serveur

Faible latence et débit élevé pour les cas d'utilisation avec des modèles de trafic intermittents. Les points de terminaison sans serveur lancent automatiquement des ressources de calcul et les mettent à l’échelle en fonction du trafic, éliminant ainsi le besoin de choisir des types d’instances ou de gérer des politiques de dimensionnement.

Inférence asynchrone

Faible latence pour les cas d’utilisation impliquant des données utiles importantes (jusqu’à 1 Go) ou des temps de traitement longs (jusqu’à une heure), et des exigences de latence en temps quasi réel. L’inférence asynchrone permet de réduire les coûts en réduisant automatiquement le nombre d’instances à zéro lorsqu’il n’y a aucune demande à traiter.

Batch Transform

Inférence hors ligne sur des lots de données pour les cas d'utilisation comportant des jeux de données volumineux. Avec Batch Transform, vous pouvez prétraiter des jeux de données pour supprimer le bruit ou les biais, et associer les enregistrements d’entrée à des inférences pour faciliter l’interprétation des résultats.

Options d’inférence évolutives et économiques

Points de terminaison à modèle unique

Un modèle sur un conteneur hébergé sur des instances dédiées ou sans serveur pour une faible latence et un débit élevé.

En savoir plus

Points de terminaison à modèle unique

Plusieurs modèles sur un même point de terminaison

Hébergez plusieurs modèles sur la même instance afin de mieux utiliser les accélérateurs sous-jacents et de réduire les coûts de déploiement jusqu’à 50 %. Vous pouvez contrôler les politiques de dimensionnement pour chaque FM séparément, ce qui facilite l'adaptation aux modèles d'utilisation tout en optimisant les coûts d'infrastructure.

En savoir plus

Points de terminaison multi-modèles

Pipelines d'inférence en série

Plusieurs conteneurs partagent des instances dédiées et s'exécutent dans l'ordre. Vous pouvez utiliser un pipeline d'inférence pour combiner des tâches de science des données de prétraitement, de prédiction et de post-traitement.

En savoir plus

Pipelines d'inférence en série

Prise en charge de la plupart des cadres de machine learning et des serveurs de modèles

L’inférence Amazon SageMaker prend en charge les algorithmes intégrés et les images Docker prédéfinies pour certains des cadres de machine learning les plus courants tels que TensorFlow, PyTorch, ONNX et XGBoost. Si aucune des images Docker prédéfinies ne répond à vos besoins, vous pouvez créer votre propre conteneur à utiliser avec des points de terminaison multimodèles soutenus par le processeur. L’inférence SageMaker prend en charge les modèles de serveurs les plus populaires tels que TensorFlow Serving, TorchServe, NVIDIA Triton et les serveurs multimodèles AWS.

Amazon SageMaker AI propose des conteneurs de deep learning (DLC), des bibliothèques et des outils spécialisés pour le parallélisme des modèles et l’inférence de grands modèles (LMI), afin de vous aider à améliorer les performances des modèles de fondation. Grâce à ces options, vous pouvez déployer rapidement des modèles, y compris des modèles de fondation (FM), pour pratiquement tous les cas d’utilisation.


En savoir plus
 

TensorFlow
PyTorch
mxnet
Logo Hugging Face
TensorFlow

Obtenez des performances d’inférence élevées à faible coût

Obtenez des performances d’inférence élevées à faible coût

La nouvelle boîte à outils d’optimisation d’inférence d’Amazon SageMaker AI offre un débit jusqu’à 2 fois plus élevé tout en réduisant les coûts d’environ 50 % pour les modèles d’IA générative tels que les modèles Llama 3, Mistral et Mixtral. Par exemple, avec un modèle Llama 3-70B, vous pouvez obtenir jusqu’à environ 2 400 jetons/sec sur une instance ml.p5.48xlarge contre environ 1 200 jetons/s auparavant sans aucune optimisation. Vous pouvez sélectionner une technique d’optimisation de modèle telle que le décodage spéculatif, la quantification et la compilation ou combiner plusieurs techniques, les appliquer à vos modèles, exécuter des tests de référence pour évaluer l’impact des techniques sur la qualité de sortie et les performances d’inférence, et déployer des modèles en quelques clics.

Une image présentant les indicateurs d’évaluation en un coup d’œil

Déployer des modèles sur l'infrastructure la plus performante ou passer au sans serveur

Amazon SageMaker AI propose plus de 70 types d’instances avec différents niveaux de calcul et de mémoire, notamment des instances Amazon EC2 basées Inf1 sur AWS Inferentia, des puces d’inférence de ML hautes performances conçues et créées par AWS et des instances GPU telles qu’Amazon EC2 G4dn. Vous pouvez également choisir l'inférence sans serveur Amazon SageMaker pour mettre facilement à l'échelle des milliers de modèles par point de terminaison, un débit de millions de transactions par seconde (TPS) et des temps de latence inférieurs à 10 millisecondes.

Une image présentant les fonctionnalités des puces d'inférence de ML

Essai miroirs pour valider la performance des modèles de ML

Amazon SageMaker AI vous aide à évaluer un nouveau modèle en effectuant des essais miroirs de ses performances par rapport au modèle SageMaker actuellement déployé à l’aide de requêtes d’inférence en direct. Le shadow testing peut vous aider à repérer les erreurs de configuration et les problèmes de performances potentiels avant que ceux-ci n'affectent les utilisateurs finaux. Avec SageMaker AI, vous n’avez pas besoin de consacrer des semaines à la création de votre propre infrastructure d’essai miroirs. Il vous suffit de sélectionner le modèle de production que vous souhaitez tester, et SageMaker AI déploie automatiquement le nouveau modèle en mode miroirs et achemine une copie des demandes d’inférence reçues par le modèle de production vers le nouveau modèle en temps réel.

Une image illustrant le processus d'essai miroirs

Mise à l'échelle automatique pour plus d'élasticité

Vous pouvez utiliser des stratégies de mise à l'échelle pour mettre automatiquement à l'échelle les ressources de calcul sous-jacentes afin de tenir compte des fluctuations des demandes d'inférence. Vous pouvez contrôler les stratégies de mise à l'échelle pour chaque modèle de machine learning séparément afin de gérer facilement les changements d'utilisation du modèle, tout en optimisant les coûts d'infrastructure.

Image montrant des groupes de mise à l'échelle automatique

Amélioration de la latence et routage intelligent

Vous pouvez réduire la latence d’inférence pour les modèles de ML en acheminant intelligemment les nouvelles demandes d'inférence vers des instances disponibles au lieu de les acheminer de manière aléatoire vers des instances déjà occupées à traiter des demandes d'inférence, ce qui vous permet de réduire la latence d’inférence de 20 % en moyenne.

Réduisez la charge opérationnelle et accélérez le délai de rentabilisation

Hébergement et gestion de modèles entièrement gérés

En tant que service entièrement géré, Amazon SageMaker AI se charge de la configuration et de la gestion des instances, de la compatibilité des versions logicielles et de l’application de correctifs aux versions. Il fournit également des métriques et des journaux intégrés pour les points de terminaison que vous pouvez utiliser pour surveiller et recevoir des alertes.

Une image illustrant le flux de gestion des modèles

Intégration native avec les fonctionnalités MLOps

Les fonctionnalités de déploiement du modèle Amazon SageMaker AI sont intégrées de manière native aux fonctionnalités MLOps, notamment SageMaker Pipelines (automatisation et orchestration des flux de travail), SageMaker Projects (CI/CD pour le ML), SageMaker Feature Store (gestion des fonctionnalités), SageMaker Model Registry (catalogue de modèles et d’artefacts pour suivre le lignage et prendre en charge les flux d’approbation automatisés), SageMaker Clarify (détection des biais) et SageMaker Model Monitor (détection de la dérive des modèles et des concepts). Ainsi, que vous effectuiez un déploiement d’un seul modèle ou de dizaines de milliers, SageMaker AI vous aide à réduire les coûts opérationnels liés au déploiement, à la mise à l’échelle et à la gestion des modèles de ML, tout en accélérant leur mise en production.

Image montrant l'organigramme du modèle d'entraînement