Amazon SageMaker AI lance des recommandations d’inférence optimisées pour l’IA générative
Amazon SageMaker AI prend désormais en charge les recommandations d’inférence, une nouvelle fonctionnalité qui élimine l’optimisation manuelle et l’analyse comparative pour fournir des performances d’inférence optimales. En fournissant des configurations de déploiement validées et optimales avec des indicateurs de performance, SageMaker AI accélère le passage à la production et permet à vos développeurs de modèles de se concentrer sur la création de modèles précis, et non sur la gestion de l’infrastructure.
Les clients proposent leurs propres modèles d’IA générative, définissent les modèles de trafic attendus et spécifient un objectif de performance (optimisation des coûts, minimisation de la latence ou maximisation du débit). SageMaker AI analyse ensuite l’architecture du modèle et applique des optimisations adaptées à cet objectif sur plusieurs types d’instances, en analysant chaque configuration sur une infrastructure GPU réelle à l’aide de NVIDIA AIPerf. En évaluant plusieurs types d’instances, les clients peuvent sélectionner l’option la plus rentable pour leur charge de travail. Il en résulte des configurations prêtes au déploiement avec des métriques validées, notamment le délai d’obtention du premier jeton, la latence entre les jetons, les percentiles de latence des demandes, le débit et les prévisions de coûts.
Cette fonctionnalité est disponible aujourd’hui dans sept Régions AWS, à savoir USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Singapour), Asie-Pacifique (Tokyo), Europe (Francfort) et Europe (Irlande). Pour en savoir plus, consultez la documentation relative à SageMaker AI.