SageMaker HyperPod がマネージド階層型 KV キャッシュとインテリジェントルーティングをサポート
Amazon SageMaker HyperPod は、大規模言語モデル (LLM) 推論用のマネージド階層型 KV キャッシュとインテリジェントルーティングをサポートするようになりました。これにより、お客様はロングコンテキストプロンプトやマルチターンの会話の推論パフォーマンスを最適化できます。本番環境の LLM アプリケーションをデプロイするお客様は、長い文書を処理したり、会話のコンテキストを維持したりしながら、迅速な応答時間を必要としますが、従来の推論アプローチでは、新しいトークンが生成されるたびに以前のすべてのトークンのアテンションを再計算するメカニズムが必要なため、計算オーバーヘッドが発生し、コストが上昇していました。マネージド階層型 KV キャッシュは、計算された値をインテリジェントにキャッシュして再利用することでこの課題に対処し、インテリジェントルーティングはリクエストを最適なインスタンスに転送します。
これらの機能により、ベースライン構成と比較して、レイテンシーが最大 40% 減少し、スループットが 25% 向上し、コストが 25% 削減されます。マネージド階層型 KV キャッシュ機能は、ローカル CPU メモリ (L1) とクラスター全体の非集約ストレージ (L2) を組み合わせた 2 層アーキテクチャを使用します。AWS ネイティブの非集約階層型ストレージが推奨されるバックエンドです。これは、スケーラブルなテラバイトスケールの容量と、CPU メモリからローカル SSD への自動階層化により、メモリとストレージの最適な使用率を実現します。また、代替の L2 キャッシュオプションとして Redis も提供しています。このアーキテクチャにより、以前に計算されたキーと値のペアをリクエスト間で効率的に再利用できます。新しく導入されたインテリジェントルーティングは、一般的なプロンプトパターン用のプレフィックス対応ルーティング、リアルタイムのキャッシュトラッキングによるキャッシュ効率最大化のための KV 対応ルーティング、ステートレスワークロード用のラウンドロビンという 3 つの構成可能な戦略を通じてキャッシュ使用率を最大化します。これらの機能はシームレスに連携します。インテリジェントルーティングにより、関連するキャッシュデータを持つインスタンスにリクエストが転送されるため、ドキュメント分析での最初のトークンまでの時間が短縮され、マルチターンの会話でも自然な会話フローが維持されます。Amazon Managed Grafana との組み込みオブザーバビリティ統合により、パフォーマンスをモニタリングするためのメトリクスが提供されます。HyperPod 推論演算子を使用して EKS オーケストレーションクラスターにモデルをデプロイするときに、InferenceEndpointConfig または SageMaker JumpStart を使用してこれらの機能を有効にできます。
これらの機能は、SageMaker HyperPod が利用できるすべてのリージョンで使用できます。詳細については、ユーザーガイドをご覧ください。