メインコンテンツに移動

生成 AI モデルとは

生成 AI モデルには長所と制約があります。ユースケースの複雑さ、パフォーマンス、プライバシー、コスト要件によっては、他のモデルより適しているモデルが存在する場合があります。このガイドでは、生成 AI モデルを選択する際に考慮すべき要素とベストプラクティスについて説明します。

生成人工知能モデルは、ユーザーからの自然言語入力に基づいて、オリジナルで意味のあるテキスト、画像、音声、およびビデオコンテンツを作成できます。組織では、チャットボットの強化からデザインテンプレートの作成、生物学の複雑な問題の解決まで、あらゆることに活用されています。何千ものプロプライエタリおよびオープンソースの AI モデルが存在し、新しいモデルや改良バージョンが日々リリースされています。

生成 AI モデルは、柔軟で汎用的であるにもかかわらず、すべてのユースケースに対応する包括的なソリューションではありません。AI チームは、コストとパフォーマンスを最適化できるモデルを慎重に選択して評価する必要があります。モデルの評価は複雑です。Helm や Hugging Face リーダーボードなどの一般的なベンチマークでは、特定の AI モデルが一般的な自然言語タスクでどのように機能するかについての概要しか得られません。AI チームは、さまざまな戦略を採用してカスタムデータ入力のモデル出力を評価し、要件に最適なものを選択する必要があります。

さまざまなユースケースの生成 AI モデルを評価する方法

ユースケースに適した AI モデルを選択する際に考慮すべき要素は次のとおりです。

モダリティ

モダリティとは、モデルが処理するデータタイプ、すなわち埋め込み、画像 (ビジョン)、テキストを指します。一部のモデルは単一モーダルで、単一のデータタイプを効率的に処理できます。また、マルチモーダルで複数のデータタイプを統合できるものもありますが、あるタイプが他のタイプよりも適している場合があります。たとえば、Claude、Llama 3.1、Titan Text G1 などのモデルはテキストベースのタスクに適していますが、Stable Diffusion XL と Titan Image Generator v2 は画像タスクに適しています。同様に、任意の入力画像またはテキストを、同じセマンティック空間内の画像とテキストの両方のセマンティックな意味を含む埋め込みに変換するには、Titan Multimodal Embeddings G1 モデルが適しています。

モデルサイズ

モデルサイズとは、モデル内部のパラメータや設定変数の数のことです。数 100 万から 1,000 億以上までさまざまであり、モデルのほとんどに 100 億から1,000 億のパラメータがあります。モデルサイズは、データから学習するモデルの能力を直接定義します。パラメータが多いモデルは、新しいデータを深く理解できるため、パフォーマンスが向上します。ただし、カスタマイズと運用にはコストがかかります。

推論のレイテンシー

一般に、AI アプリケーションユーザーが即時のレスポンスを期待するリアルタイムシナリオでは、推論のレイテンシーが問題になります。これは、モデルが入力を処理し、入力の長さに基づいて出力を返すのにかかる合計時間です。複雑なアーキテクチャの生成 AI モデルは、小さなモデルよりも推論速度が遅くなりがちです。ただし、推論のレイテンシーは、予想されるプロンプトとモデルのパフォーマンスの両方の影響を受けます。エンドユーザー入力のトークン (文字、句読点など) の数が増えることでレイテンシーが長くなることもあります。

コンテキストウィンドウ

生成 AI モデルのコンテキストウィンドウは、一度にコンテキストとして「記憶」できるトークンの数です。コンテキストウィンドウが大きいモデルほど、保持される以前の会話も多くなり、より適切なレスポンスが得られます。したがって、長い文書の要約や複数回にわたる会話の強化などの複雑なタスクには、より大きなコンテキストウィンドウが適しています。

料金についての検討事項

モデルのランニングコストには、プロプライエタリモデルの使用コストと計算コストとメモリコストが含まれます。運用コストは、ワークロードに応じてモデルごとに異なる場合があります。コストとメリットを比較検討することで、投資から最大の価値を引き出すことができます。たとえば、Claude 2 や Command R+ はプロプライエタリモデルであるため使用量に応じた料金が発生しますが、Llama 2 7B をデプロイした場合は計算コストが低くなります。ただし、プロプライエタリモデルによってタスクの精度や効率が大幅に向上する場合は、追加コストを正当化する根拠になる可能性があります。

レスポンスの品質

AI モデルのレスポンスの品質は、次のようないくつかの指標を使用して評価できます。

  • 精度 - モデルで正しいレスポンスが得られる頻度。
  • 妥当性 - 特定の入力に対するレスポンスの妥当性の程度。 
  • 堅牢性 - 混乱を招くことを目的として意図的に誤解を招くような入力をモデルがどの程度の成績で処理できるか。
  • 毒性 - モデルの出力に含まれる不適切な内容や偏りの割合。

指標は通常、事前に設定されたベースラインを基準にして測定されます。ベストプラクティスでは、同じ入力データセットで数種類のモデルのレスポンスの品質を評価し、レスポンスの品質が最も高いモデルを選択します。

生成 AI モデルの選択プロセス

生成 AI モデルを選択するには、まず使用する AI アプリケーションに固有の要件を決定する必要があります。ユーザーの期待、データ処理要件、デプロイに関する考慮事項、およびビジネスや業界におけるその他の微妙な点を必ず理解してください。その後、要件に合った最適なモデルが見つかるまで品質テストを実施することで、排除すべきさまざまな AI モデルを特定できます。

ステップ 1 - 候補リストの初期モデル選択

まず、要件を満たす数千のモデルの中から、約 20 のモデルを絞って候補リストに登録します。オープンソースモデルとプロプライエタリモデルのどちらかを選択するかで、作業の半分が終わります。それが決まったら、前のセクションで説明したモダリティ、モデルサイズ、コンテキストウィンドウなどの主な基準に基づいてモデルを評価することで、さらに候補リストを絞り込みます。

オープンソースの生成 AI モデルとプロプライエタリの生成 AI モデル

オープンソースモデルには柔軟性があり、チームが独自のデータに基づいてモデルをファインチューニングしたり、所有データを使用してモデルを完全に保持したりすることができます。これは、汎用モデルがニッチなユースケースではうまく機能しない特殊な業界では特に貴重です。たとえば、保険業界の大企業では、固有の要件を完全には満たしていない金融セクター向けのプロプライエタリモデルを使用するよりも、カスタムデータに基づいてオープンソースモデルをトレーニングすることを望む場合があります。

ただし、オープンソースモデルには追加の考慮事項が必要です。これらはセキュリティ上および法的なリスクをもたらす可能性があり、組織は独自のコンプライアンス対策を適用し、ライセンス条件を徹底的に精査する必要があります。一方、プロプライエタリモデルには通常、組み込みのセキュリティ機能、トレーニングデータや出力に対する補償、コンプライアンス保証が備わっているため、リスク軽減を優先する企業の運用オーバーヘッドが軽減されます。

ステップ 2 - 出力を調べてリストをさらに絞り込む

このステップの目標は、ユースケースに最も適した生成 AI モデルを上位 3 位まで特定することです。まず、ユースケースに合ったテストプロンプトのサブセットを確認します。次に、各モデルの出力で特定のプロンプトを視覚的に確認します。入力内容に最も合い、より詳細な出力を検索してください。最も適切で、詳細かつ正確な出力を生成するものを上位 3 位まで選択します。

この段階には、Amazon SageMaker Clarify が最適です。正確性、堅牢性、毒性などの指標を使用して、お客様の生成 AI のユースケースで使用する FM を自動的に評価し、責任ある AI イニシアチブをサポートします。

ステップ 3 - ユースケース基準のベンチマーキング

これで、固有のテストデータセットに対する事前定義済みのプロンプトと出力に基づいて、絞り込まれた上位の AI モデルをより詳細に評価できます。ここで重要な要素は、ユースケースのあらゆる側面をカバーする包括的なテストデータセットを、いくつかのバリエーションを含めて用意することです。また、対応する理想出力を用意して、どのモデルの出力が理想出力に最も近いかを統計的に評価する必要があります。

Amazon Bedrock には、モデル評価を使用してユースケースの AI モデルを評価、比較、選択する評価ツールがあります。

次の 3 種類の評価方法を使用できます。

プログラム利用

BERT Score、F1 をはじめとする完全一致手法などの従来の自然言語アルゴリズムや指標を使用して、モデル出力を評価します。Amazon Bedrock では、組み込みのプロンプトデータセットを使用してこれを実施できますが、独自のプロンプトデータセットを使用することもできます。

ループに介入

チームメンバー、エンドユーザーのサンプルセット、または専門的な AI 評価者など、人間の評価者に依頼して、事前に決定されたモデルの指標に基づいて 3 つのモデルすべての出力を評価してもらいます。出力を理想出力と手動で比較することも、ユースケースが広すぎる場合は、最善の判断に基づいて出力を評価してマークすることもできます。
Amazon Bedrock では、モデルの出力を社員と一緒に評価したり、妥当性、スタイルの指標や、ブランドボイス、組み込みの指標との整合性の指標が設定されたカスタムプロンプトのデータセットに対するレスポンスの評価の管理を AWS に任せたりすることができます。

評価者として機能させる AI モデルを別途用意

このアプローチでは、3 つのモデルの出力を偏りのない方法で評価する AI モデルを別途用意します。これは、出力が明確に定義されていて、理想出力との類似性が統計的に測定可能なユースケースに最適です。Amazon Bedrock では、モデルの出力を LLM-as-a-judge モードに設定された別の AI モデルを使用して評価できます。カスタムプロンプトのデータセットは、正確性、完全性、有害性などの指標だけでなく、回答拒否や有害性などの責任ある AI の指標にも使用できます。

ステップ 4 - 最終選定

評価データをコストおよびパフォーマンス分析とともに使用して、最終的なモデルを選定します。Amazon Bedrock では、評価に比較機能を使用してプロンプト、評価対象のモデルに加えた変更の結果を確認できます。すべての分析を 1 か所に表示し、パフォーマンス、コスト、および付随リスクのバランスが最適で、リソースを効率的に使用するモデルを選定します。

ユースケースに適した生成 AI モデルを選択するには、技術的能力、ビジネスニーズ、運用上の制約のバランスをとる構造化されたアプローチが必要です。重要なのは、ユースケースに固有の要件に合わせて決定することです。モダリティ、サイズ、データ処理能力、デプロイ上の考慮事項などの要素に基づいてモデルを慎重に評価します。最終的に、適切なモデルは効率と革新性を高め、組織における将来の AI 主導の進化のためのスケーラブルな基盤を提供します。