Amazon Bedrock

Amazon Bedrock Model Distillation

概要

Amazon Bedrock Model Distillation では、さらに小規模かつ高速で、費用対効果の高いモデルを使用して、Amazon Bedrock の最も高度なモデルに匹敵するユースケース固有の精度を実現できます。Amazon Bedrock の蒸留モデルは、元のモデルよりも最大 500% 高速で、最大 75% 安価で、RAG などのユースケースでの精度の低下は 2% 未満です。

より小さく、より費用対効果の高いモデルを活用

Model Distillation を使用すると、顧客はユースケースに合った精度を達成したい「教師」モデルを選択し、次にファインチューニングしたい「学生」モデルを選択できます。また、お客様はユースケースのプロンプトも提供します。Model Distillation は、教師からの回答を生成し、その回答を使用して学生モデルをファインチューニングするプロセスを自動化します。そうすれば、学生モデルも同様の精度で教師モデルのように動作し、コストも削減できます。Model Distillation は、Amazon Nova Premier (教師) と Nova Pro (生徒)、Claude 3.5 Sonnet v2 (教師)、Llama 3.3 70B (教師)、Llama 3.2 1B/3B (生徒) など、さまざまなモデルプロバイダーのさまざまなモデルをサポートしています。特定のカスタムモデルをオンデマンドで推論して呼び出すことができるため、常時稼働のインフラストラクチャの必要性を減らすことができます。こちらのモデルリストをご覧ください。

Screenshot of a user interface for selecting teacher and student models for distillation, featuring Llama 3.1 models. The teacher model Llama 3.1 405B is selected, and student model options include Llama 3.1 70B and Llama 3.1 8B.

独自のデータ合成で抽出モデルのパフォーマンスを最大化

小規模でコスト効率の高いモデルをファインチューニングして、特定のユースケースに合わせて大規模モデルと同等の精度を実現するには、反復プロセスが必要です。より良い結果を得るために必要なイテレーションの負担をいくらか取り除くために、Model Distillation はユースケースに最も適したさまざまなデータ合成方法を適用することを選択することがあります。例えば、Bedrock では、同様のプロンプトを生成してトレーニングデータセットを拡張したり、顧客が提供したプロンプトとレスポンスのペアをゴールデンサンプルとして使用して高品質の合成応答を生成したりすることがあります。

Screenshot of the AWS Synthetic Data Generation and Model Distillation user interface. The UI enables users to set the maximum response length, choose a distillation input dataset from an S3 location or invocation logs, and provides options to upload data or browse S3 buckets to generate synthetic responses for fine-tuning machine learning models.

生産データを簡単に持ち込むことでコストを削減

従来の微調整では、お客様はプロンプトとレスポンスを作成する必要がありました。Model Distillation では、顧客はプロンプトを入力するだけでよく、Model Distilation はそれを使用して合成応答を生成し、学生モデルをファインチューニングします。お客様は呼び出しログに誘導したり、特定のメタデータフィールドに基づいてログをフィルタリングしたりできます。Model Distillation では、呼び出しログを介してプロンプトとレスポンスの両方を読み取ることができ、Model Distillation ワークフローでの合成応答の生成をスキップできます。これにより、教師モデルから応答を再度生成する必要がなくなるため、コストが削減されます。コードサンプルから始めましょう。

Screenshot of the AWS Synthetic Data Generation interface showing options for model distillation, including setting response length, selecting distillation input dataset, configuring S3 log access, adding metadata, and managing access to input data such as prompts or prompt-response pairs.

エージェントのブースト関数呼び出し予測精度

エージェント関数呼び出しは現代の AI アプリケーションにとって重要な機能であり、特定の関数をいつどのように呼び出すかを正確に判断することで、モデルが外部ツール、データベース、API と対話できるようにします。大規模なモデルは通常、呼び出す適切な関数を特定し、適切なパラメータを構築するのに長けていますが、通常、コストとレイテンシーが高くなります。Amazon Bedrock Model Distillation を使用すると、小規模なモデルでも関数呼び出しを正確に予測できるようになり、応答時間を大幅に短縮し、運用コストを削減できます。