Amazon SageMaker AI が EAGLE の投機的デコーディングをサポート
Amazon SageMaker AI が EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) の投機的デコードをサポートするようになり、大規模言語モデル推論のスループットが最大 2.5 倍向上しました。この機能により、モデルは一度に 1 つずつのトークンではなく複数のトークンを同時に予測して検証できるため、AI アプリケーションの応答時間が短縮されます。
お客様が AI アプリケーションを本番環境にデプロイする際には、応答性の良いユーザーエクスペリエンスを実現するために、低レイテンシーで高スループットのモデルを提供する機能が必要になります。データサイエンティストや機械学習エンジニアには、出力品質を犠牲にしたり、複雑なモデルの再構築を必要としたりせずにトークン生成を高速化する効率的な方法がなく、現実世界のトラフィックで期待されるパフォーマンスを満たすことは困難です。多くのチームが、AI アプリケーションの改善ではなく、インフラストラクチャの最適化に多大な時間を費やしています。SageMaker AI では、EAGLE の投機的デコーディングを使用して、モデルがトークンを一度に 1 つずつ生成して検証する代わりに、並行して複数のトークンを生成して検証できるようにすることでお客様の推論スループットを加速させ、スループットを大幅に向上させながら同じ出力品質を維持します。SageMaker AI は、モデルのアーキテクチャに基づいて EAGLE 2 と EAGLE 3 のいずれかを自動的に選択し、精選されたデータセットまたは独自のアプリケーションデータを使用して特殊な予測ヘッドをトレーニングする組み込みの最適化ジョブを提供します。その後、インフラストラクチャを変更することなく、最適化されたモデルを既存の SageMaker AI 推論ワークフローを通じてデプロイできるため、パフォーマンスが予測できるより高速な AI アプリケーションを提供できます。
EAGLE の投機的デコーディングは、米国東部 (バージニア北部)、米国西部 (オレゴン)、米国東部 (オハイオ)、アジアパシフィック (東京)、欧州 (アイルランド)、アジアパシフィック (シンガポール)、欧州 (フランクフルト) の AWS リージョンで使用できます。
EAGLE の投機的デコーディングの詳細については、こちらの AWS ニュースブログおよびこちらの SageMaker AI ドキュメントをご覧ください。