Amazon Bedrock で強化学習によるファインチューニングのサポートを開始: ベースモデルと比較して平均で 66% の精度向上を実現可能

投稿日: 2025年12月3日

Amazon Bedrock で、強化学習によるファインチューニングのサポートを開始しました。これにより、機械学習に関する深い専門知識や大量のラベル付きデータがなくても、モデルの精度を向上させることが可能になりました。強化学習によるファインチューニングのワークフローは Amazon Bedrock によって自動化されるため、開発者は日常的にこの高度なモデルカスタマイズ手法を利用できます。従来のファインチューニング手法では大量のデータが必要でしたが、モデルは大量のデータではなく少数のプロンプトを使用して、ユーザーの特定の要件を満たすよう学習します。そのため、チームはすぐにファインチューニングを開始できます。この機能は、同じプロンプトに対する複数の応答候補に関するフィードバックによってモデルに学習させ、どのような応答が適切かをモデルがより適切に判断できるようにします。Amazon Bedrock の強化学習によるファインチューニングでは、基本モデルと比較して平均で 66% の精度向上を実現できます。そのため、高品質を維持しながら、より小規模で高速な、費用対効果の高いモデルバリアントを使用できます。

組織は、AI モデルを独自のビジネスニーズに適応させるのに苦労しており、平均的なパフォーマンスを備えた汎用モデルか、専門的な人材、インフラストラクチャ、リスクの高いデータ移動が必要な高価で複雑なカスタマイズのどちらかを選択せざるを得ません。Amazon Bedrock の強化学習によるファインチューニングを使用すると、高度なモデルのカスタマイズを自動化して迅速かつ安全に実行できるため、この複雑さが解消されます。モデルをトレーニングするには、コンピュータからトレーニングデータを直接アップロードするか、Amazon S3 に既に保存されているデータセットから選択します。ラベル付けされたデータセットは不要です。報酬関数の定義には、検証可能なルールベースの採点器または AI ベースのジャッジを使用できます。また、組み込みのテンプレートを使用すれば、コード生成や数学推論などの客観的タスクと、指示の実行やチャットボットとの対話といった主観的タスクの両方に対応するようにモデルを最適化できます。お客様の所有データはカスタマイズプロセス全体を通して安全で管理された AWS 環境内に留まるため、セキュリティとコンプライアンスの懸念を軽減できます。

Amazon Bedrock の強化学習によるファインチューニングは、Amazon Bedrock コンソールおよび Amazon Bedrock API を使用して開始できます。リリース時点では、Amazon Nova 2 Lite で強化学習によるファインチューニングをご利用いただけます。その他のモデルも今後サポートされる予定です。Amazon Bedrock の強化学習によるファインチューニングの詳細については、リリースブログ料金ページドキュメントをご覧ください。