Amazon Bedrock introduit les niveaux de service d'inférence Priority et Flex
Amazon Bedrock présente aujourd'hui deux nouveaux niveaux de service d'inférence afin d'optimiser les coûts et les performances des différentes charges de travail d'IA. Le nouveau niveau Flex propose une tarification rentable pour les applications non urgentes, telles que l’évaluation des modèles et la synthèse de contenu tandis que le niveau Priority offre des performances optimales et un traitement préférentiel pour les applications critiques. Pour la plupart des modèles prenant en charge le niveau Priority, les clients peuvent bénéficier d'une latence des jetons de sortie par seconde (OTPS) jusqu'à 25 % supérieure à celle du niveau standard. Ils rejoignent le niveau Standard existant pour les applications d'IA quotidiennes offrant des performances fiables.
Ces niveaux de service répondent aux principaux défis auxquels les entreprises sont confrontées lorsqu'elles déploient l'IA à grande échelle. Le niveau Flex est conçu pour les charges de travail non interactives, qui peuvent tolérer des latences plus longues. Il est donc idéal pour l’évaluation des modèles, la synthèse du contenu, l'étiquetage et l'annotation, ainsi que pour les flux de travail agentiques en plusieurs étapes. Son prix est inférieur à celui du niveau Standard. Pendant les périodes de forte demande, les demandes Flex reçoivent une priorité inférieure par rapport au niveau Standard. Le niveau Priority convient parfaitement aux applications critiques, aux interactions en temps réel avec les utilisateurs finaux et aux expériences interactives où des réponses cohérentes et rapides sont essentielles. Pendant les périodes de forte demande, les demandes Priority sont traitées en priorité, à un prix supérieur, par rapport aux autres niveaux de service. Ces nouveaux niveaux de service sont disponibles dès aujourd'hui pour une gamme de modèles de base de premier plan, notamment OpenAI (gpt-oss-20b, gpt-oss-120b), DeepSeek (DeepSeek V3.1), Qwen3 (Coder-480B-A35B-Instruct, Coder-30B-A3B-Instruct, 32B dense, Qwen3-235B-A22B-2507) et Amazon Nova (Nova Pro et Nova Premier). Grâce à ces nouvelles options, Amazon Bedrock aide les clients à mieux contrôler l'équilibre entre rentabilité et exigences de performances, leur permettant de mettre à l’échelle les charges de travail d'IA de manière économique tout en garantissant des expériences utilisateur optimales pour leurs applications les plus critiques.
Pour en savoir plus sur les régions AWS dans lesquelles les niveaux de service d'inférence Amazon Bedrock Priority et Flex sont disponibles, consultez le tableau des régions AWS.
Pour en savoir plus sur les niveaux de service, consultez notre blog d'actualités et notre documentation.