AWS が EFA による NIXL のサポートを追加し、大規模な LLM 推論を加速
AWS は、Amazon EC2 での非集約型大規模言語モデル (LLM) 推論を加速するために、Elastic Fabric Adapter (EFA) による NVIDIA Inference Xfer Library (NIXL) のサポートを発表しました。この統合では、KV キャッシュのスループットの向上、トークン間のレイテンシーの低減、KV キャッシュのメモリ使用率の最適化という 3 つの重要な改善により、非集約推論処理が強化されています。
EFA を搭載した NIXL により、低レイテンシーの KV キャッシュ転送、事前入力およびデコードノード間の高スループットが可能になり、さまざまなストレージレイヤー間での効率的な KV キャッシュ移動ができます。NIXL は、すべての EFA 対応 EC2 インスタンスとの相互運用が可能で、NVIDIA Dynamo、SGLang、vLLM などのフレームワークとネイティブに統合されています。NIXL と EFA を組み合わせることで、選択した EC2 インスタンスやフレームワークとの柔軟な統合が可能になり、大規模でパフォーマンスの高い非集約推論を実現できます。
AWS は、すべての AWS リージョンのすべての EPA 対応 EC2 インスタンスタイプにおいて、EFA インストーラーバージョン 1.47.0 以降を搭載した NIXL バージョン 1.0.0 以降を追加費用なしでサポートします。詳細については、「EFA ドキュメント」を参照してください。