Amazon Bedrock の強化学習によるファインチューニングが OpenAI 互換 API を備えたオープンウェイトモデルのサポートを追加

投稿日: 2026年2月17日

Amazon Bedrock では、強化学習によるファインチューニング (RFT) のサポートが OpenAI GPT-OSS や Qwen モデルなどの一般的なオープンウェイトモデルに拡張され、OpenAI 互換のファインチューニング API が導入されました。これらの機能により、デベロッパーは機械学習の深い専門知識や大量のラベル付きデータを必要とせずにオープンウェイトモデルの精度を簡単に向上させることができます。Amazon Bedrock の強化学習によるファインチューニングにより、エンドツーエンドのカスタマイズワークフローが自動化され、従来の大規模なトレーニングデータセットではなく少数のプロンプトセットを使用して、実行可能な複数の応答に関するフィードバックからモデルが学習できるようになります。強化学習によるファインチューニングにより、お客様は高品質を維持しながら、より小さくて高速で費用対効果の高いモデルバリアントを使用できます。

多くの場合、組織は基盤モデルを独自のビジネス要件に適合させることに苦労し、パフォーマンスが制限される一般的なモデルと、特殊なインフラストラクチャおよび専門知識を必要とする複雑で高価なカスタマイズパイプラインとの間でトレードオフを余儀なくされます。Amazon Bedrock はフルマネージドの安全な強化学習によるファインチューニングエクスペリエンスを提供することで、この複雑さを解消します。お客様は、検証可能なルールベースの採点器または AI ベースのジャッジを使用して報酬関数を定義します。これには、コード生成や数学推論などの客観的なタスクと、指示の実行や会話の質といった主観的タスクの両方に対応する組み込みのテンプレートが含まれます。トレーニング中、お客様は AWS Lambda 関数を使用してカスタム評価ロジックを作成したり、中間モデルチェックポイントにアクセスして最もパフォーマンスの高いモデルを評価、デバッグ、選択したりできるため、イテレーション速度とトレーニング効率が向上します。すべての所有データは、カスタマイズプロセス全体をとおして AWS の安全で管理された環境内に保持されます。

今回のリリースでサポートされるモデルは、qwen.qwen3-32b と openai.gpt-oss-20b です。ファインチューニングが完了すると、お客様は追加のデプロイ手順なしで、Amazon Bedrock の OpenAI 互換 API (Responses API と Chat Completions API) を使用して、オンデマンド推論のファインチューニングされたモデルをすぐに使用できます。詳細については、Amazon Bedrock の ドキュメントを参照してください。