Le peaufinage par renforcement d'Amazon Bedrock permet de prendre en charge les modèles open-weight grâce à des API compatibles avec OpenAI
Amazon Bedrock étend désormais la prise en charge du peaufinage par renforcement (RFT) aux modèles open-weight les plus populaires, notamment les modèles OpenAI GPT-OSS et Qwen, et introduit des API de peaufinage compatibles avec OpenAI. Ces fonctionnalités permettent aux développeurs d'améliorer plus facilement la précision des modèles open-weight sans avoir besoin d'une expertise approfondie en matière de machine learning ou de grands volumes de données étiquetées. Le peaufinage par renforcement dans Amazon Bedrock automatise le flux de personnalisation de bout en bout, ce qui permet aux modèles de tirer des enseignements des commentaires sur les multiples réponses possibles à l'aide d'un petit ensemble d'instructions, au lieu des grands jeux de données d'entraînement traditionnels. Le peaufinage par renforcement permet aux clients d'utiliser des variantes de modèles plus petites, plus rapides et plus économiques tout en maintenant une qualité élevée.
Les organisations ont souvent du mal à adapter les modèles de base à leurs besoins commerciaux uniques, ce qui les oblige à faire des compromis entre des modèles génériques aux performances limitées et des pipelines de personnalisation complexes et coûteux qui nécessitent une infrastructure et une expertise spécialisées. Amazon Bedrock élimine cette complexité en proposant une expérience de peaufinage par renforcement entièrement gérée et sécurisée. Les clients définissent les fonctions de récompense à l'aide d'évaluateurs vérifiables basés sur des règles ou de juges basés sur l'IA, y compris des modèles intégrés pour les tâches objectives telles que la génération de code et le raisonnement mathématique, et les tâches subjectives telles que le suivi des instructions ou la qualité de conversation. Pendant l’entraînement, les clients peuvent utiliser les fonctions AWS Lambda pour une logique de notation personnalisée et accéder à des points de contrôle intermédiaires afin d’évaluer, de déboguer et de sélectionner le modèle le plus performant, améliorant ainsi la vitesse d'itération et l'efficacité de l’entraînement. Toutes les données propriétaires restent dans l'environnement sécurisé et régi d'AWS tout au long du processus de personnalisation.
Les modèles pris en charge lors de ce lancement sont qwen.qwen3-32b et openai.gpt-oss-20b. Une fois le peaufinage terminé, les clients peuvent immédiatement utiliser le modèle affiné qui en résulte pour l'inférence à la demande via les API compatibles OpenAI d'Amazon Bedrock, à savoir les API Responses et Chat Completions, sans aucune étape de déploiement supplémentaire. Pour en savoir plus, consultez la documentation relative à Amazon Bedrock.