Select your cookie preferences

We use essential cookies and similar tools that are necessary to provide our site and services. We use performance cookies to collect anonymous statistics, so we can understand how customers use our site and make improvements. Essential cookies cannot be deactivated, but you can choose “Customize” or “Decline” to decline performance cookies.

If you agree, AWS and approved third parties will also use cookies to provide useful site features, remember your preferences, and display relevant content, including relevant advertising. To accept or decline all non-essential cookies, choose “Accept” or “Decline.” To make more detailed choices, choose “Customize.”

メインコンテンツにスキップAWS Startups

スタートアップに最適な基盤モデルを選択する

このコンテンツはいかがでしたか?

スタートアップが製品に生成人工知能 (AI) を組み込む場合、最初に行う基盤モデル (FM) の選択は最も重要なステップの 1 つです。FM は、大量のデータを大量に使用して事前にトレーニングされた大規模な機械学習 (ML) モデルです。その結果、ダウンストリームのさまざまなタスクに適応できるモデルができあがります。

モデル選択は、戦略的にスタートアップをどのように構築するかに影響します。ユーザーエクスペリエンスや市場開拓から、採用や収益性まで、すべてが、選択するモデルによって影響を受ける可能性があります。モデルは、次のような数多くの要因によりさまざまあります。

  • カスタマイズのレベル – プロンプトベースのアプローチからフルモデルの再トレーニングまで、新しいデータを使用してモデルの出力を変更する機能
  • モデルサイズ – パラメータ数で定義される、モデルが学習した情報の量
  • 推論オプション – セルフマネージドデプロイから API 呼び出しまで
  • ライセンス契約 – 一部の契約では、商用利用が制限または禁止される場合があります
  • コンテキストウィンドウ – 1 つのプロンプトに収めることができる情報の量
  • レイテンシー – モデルが出力を生成するのにかかる時間

以下のセクションでは、スタートアップのニーズを満たす FM を選択する際に考慮すべき点を説明します。

アプリケーション固有のベンチマーク

ユースケースに応じてさまざまな FM のパフォーマンスを評価する場合、プロセスの重要なステップはベンチマーク戦略を確立することです。これにより、コンテンツがどの程度期待に沿っているかを定量化できます。

「クローズドソースのプレーヤーから、Dolly、Alpaca、Vicuna などのオープンソースモデルまで、さまざまなモデルがあります。これらのモデルにはそれぞれ独自のトレードオフがあり、ジョブに最適なモデルを選択することが重要です」と、Vellum の最高技術責任者 (CTO) であり、共同創設者である Noa Flaherty 氏は説明します。「私たちは企業がさまざまな AI ユースケースを実装するのを支援してきましたが、ユースケースごとにコスト、品質、遅延、コンテキストウィンドウ、プライバシーの要件が異なることを目の当たりにしてきました」。

一般化されたベンチマーク (スタンフォード大学の「Holistic Evaluation of Language Models」など) は、どの基盤モデルから試用し始めるかを優先順位付けするのに役立つため、一部のスタートアップにとっては素晴らしい出発点です。ただし、特定の顧客ベースの構築に重点を置いているスタートアップにとっては、一般化されたベンチマークでは不十分な場合があります。

例えば、モデルで診療予約や顧客からのフィードバックを要約する必要がある場合、これらの特定のタスクをどれだけうまく実行できるかを比較してモデルを評価する必要があります。「カスタムベンチマークを行うには、迅速な実験を行えるワークフローが必要です これは通常、さまざまなシナリオで試行錯誤を繰り返すことで行います。モデルやプロンプトを特定のテストケースにあわせすぎて、自分には適切なモデルがあると思っても、本番環境に入ると上手くいかないのはよくあることです」と Flaherty 氏は言います。カスタムベンチマークには、BLEU スコアや ROUGE スコアの計算などの手法が含まれる場合があります。これらの 2 つのメトリクスは、スタートアップが人が参加するアプリケーションでの使用を承認する前に、AI が生成したテキストに適用する必要のある修正回数を定量化するのに役立ちます。

品質メトリクスとモデル評価は非常に重要です。Flaherty 氏がそもそも Vellum を設立したのはそのためです。Y Combinator の支援を受けるこのスタートアップは、実験に重点を置いて製品を提供しています。Flaherty 氏は、「本番環境で目にするものと似ているさまざまなケースをまたいだモデルを比較/対比できれば、本番環境でより良い結果が得られます」と述べています。

小型の専用モデルの増加

品質ベンチマークが確立されたら、指示に従うことや要約することなど、特定のタスクを対象としたより小さなモデルを使用して実験を開始できます。これらの専用モデルを使用すれば、ドメイン固有のタスクを実行する能力を維持しつつ、モデルのパラメータ数を大幅に減らすことができます。例えば、スタートアップの GoCharlie は SRI と提携して、10 億のパラメータを持つマーケティング固有のマルチモーダルモデルを開発しました 。

GoCharlie の最高経営責任者 (CEO) 兼共同創設者である Kostas Hatalis 氏は、「汎用モデルはエンドユーザーのニーズを真に解決することはありませんが、そのようなニーズに特に応えるように設計されたモデルは最も効果を発揮するでしょう」と語ります。「エンドユーザーの真の要件を理解するには、マーケティングなどの特定の業種に合わせた専用モデルが不可欠だと考えています」。

オープンソースの研究コミュニティは、スタンフォード大学の Alpaca や Technology Innovation Institute の Falcon 40B など、小規模な専用モデルを中心に多くのイノベーションを推進しています。Hugging Face の Open LLM Leaderboard は、これらのオープンソースモデルをさまざまな一般的なベンチマークでランク付けするのに役立ちます。このような小規模なモデルでは、数分の 1 のパラメータ数とトレーニングリソースで、指示追従タスクの同等のベンチマークメトリクスが得られます。

スタートアップがドメイン固有のタスクに合わせてモデルをカスタマイズすると、オープンソース FM により、独自のデータセットを使用してシステムをさらにカスタマイズおよび微調整できます。例えば、Hugging Face の Parameter-Efficient Fine-tuning (PERT) ソリューションでは、トレーニング済みの LLM の他のほとんどのパラメータを凍結しながら、少数のモデルパラメータを調整することで、計算コストとストレージコストを大幅に削減できることが示されています。このようなドメイン適応に基づく微調整手法は、API ベースの独自の FM では一般的に不可能です。これでは、スタートアップが差別化された製品を構築できる範囲を狭めてしまうからです。

また、用途を特定のタスクに集中させると、数学、歴史、医学などの分野にわたる FM の事前トレーニングを受けた知識は、一般的にスタートアップにとって役に立たなくなります。一部のスタートアップは、Nvidia のオープンソース Nemo Guardrails などの境界を自社のモデル内に導入することで、FM の範囲を意図的に特定の分野に限定しています。このような境界は、モデルが無関係な、正しくない、または予期しない出力といったハルシネーションを引き起こすのを防ぐのに役立ちます。

推論の柔軟性が重要

モデル選択におけるもう 1 つの重要な考慮事項は、モデルをどのように提供できるかということです。オープンソースモデルと自己管理型の独自モデルにより、モデルをホストする方法と場所を柔軟にカスタマイズできます。モデルのインフラストラクチャを直接制御することで、スタートアップは自動スケーリングや冗長性などのベストプラクティスを活用してアプリケーションの信頼性を確保できます。ホスティングインフラストラクチャを管理することで、モデルによって生成、消費されるすべてのデータを、スタートアップが設定したセキュリティ要件を満たすことができる専用のクラウド環境に確実にとどめておくのに役立ちます。

前述の小規模な専用モデルでは、ハードウェアに求められる計算量が少なく済むため、スタートアップがユニットの経済性と料金パフォーマンスを最適化するのに役立ちます。最近の実験で、AWS は ARM ベースの AWS Graviton3 インスタンスをオープンソースモデルに使用すると、類似の Amazon Elastic Compute Cloud (EC2) インスタンスと比較して、推論コストを最大 50% 節約できると測定しました。

また、これらの AWS Graviton3 プロセッサは、同等の Amazon EC2 インスタンスと比較して同じパフォーマンスで最大 60% 少ないエネルギーしか使用しません。これは、電力を大量に消費する推論ハードウェアを選択することによる環境への影響に配慮しているスタートアップに役立ちます。世界経済フォーラムの調査では、データセンターのエネルギー消費量について詳しく記述されています。かつては外部要因と考えられていた環境への影響は多くの人の関心事となっています。AWS では、企業がさまざまなハードウェアを選択した場合のエネルギー効率を比較するのに役立つカーボンフットプリントレポートなどのサービスを通じて、スタートアップが環境への影響を定量化できるようにしています。

まとめ

Aaron Melgar

Aaron Melgar

Aaron は、AWS で AI/ML Startups & Venture Capital のエコシステムを強化し、アーリーステージの企業の成長に重点的に取り組んでいます。元創業者、Series-A Product Manager、Machine Learning Director、Strategy Consultant を歴任してきました。テニス、ゴルフ、旅行が大好きで、経済学、心理学、ビジネスに関するお勧めのオーディオブックに関して意見交換するのを好む、家族で初のアメリカ生まれのアメリカ人です。

このコンテンツはいかがでしたか?