SageMaker HyperPod artık Yönetilen katmanlı KV önbelleğini ve akıllı yönlendirmeyi destekliyor
Amazon SageMaker HyperPod artık büyük dil modeli (LLM) çıkarımı için Yönetilen Katmanlı KV Önbelleği ve Akıllı Yönlendirme'yi destekleyerek müşterilerin uzun bağlamlı istemler ve çok dönüşlü konuşmalar için çıkarım performansını optimize etmelerini sağlıyor. Üretim LLM uygulamaları dağıtan müşteriler, uzun belgeler işlerken veya konuşma bağlamını korurken hızlı yanıt sürelerine ihtiyaç duyarlar, ancak geleneksel çıkarım yaklaşımları her yeni belirteç üretiminde önceki tüm belirteçler için dikkat mekanizmalarının yeniden hesaplanmasını gerektirir. Bu durum ek işlem yükü oluşturur ve maliyetleri artırır. Yönetilen Katmanlı KV Önbellek bu sorunu akıllıca önbelleğe alarak ve hesaplanmış verileri yeniden kullanarak giderirken Akıllı Yönlendirme istekleri en uygun bulut sunucularına yönlendirir.
Bu özellikler, temel yapılandırmalara kıyasla %40'a varan gecikme süresinde azalma, %25 aktarım hızı artışı ve %25 maliyet tasarrufu sağlar. Yönetilen Katmanlı KV Önbellek özelliği, yerel CPU belleği (L1) ile ayrılmış küme çapında depolamayı (L2) birleştiren iki katmanlı bir mimari kullanır. AWS yerel ayrıştırılmış katmanlı depolama, optimum bellek ve depolama kullanımı için ölçeklenebilir terabayt ölçekli kapasite ve CPU belleğinden yerel SSD'ye otomatik katmanlama sağlayan önerilen arka uçtur. Redis'i alternatif bir L2 önbellek seçeneği olarak da sunuyoruz. Mimari, istekler arasında önceden hesaplanan anahtar-değer çiftlerinin verimli bir şekilde yeniden kullanılmasını sağlar. Yeni tanıtılan Akıllı Yönlendirme, bu üç yapılandırılabilir stratejiyle önbellek kullanımını en üst düzeye çıkarır; ortak istem kalıpları için önek duyarlı yönlendirme, gerçek zamanlı önbellek izleme ile maksimum önbellek verimliliği için KV'ye duyarlı yönlendirme ve durumsuz iş yükleri için gidiş-dönüş. Bu özellikler sorunsuz bir şekilde birlikte çalışır. Akıllı yönlendirme, istekleri ilgili önbelleğe alınmış verilere sahip bulut sunucularına yönlendirir, belge analizinde ilk belirteç süresini kısaltır ve çok dönüşlü diyaloglarda doğal konuşma akışını korur. Amazon Yönetilen Grafana ile yerleşik gözlemlenebilirlik entegrasyonu, performansı izleme ölçümleri sağlar. EKS tarafından düzenlenen kümelerde HyperPod Çıkarım Operatörü aracılığıyla modelleri dağıtırken bu özellikleri InferenceEndpointConfig veya SageMaker JumpStart aracılığıyla etkinleştirebilirsiniz.
Bu özellikler, SageMaker HyperPod'un kullanılabildiği tüm bölgelerde kullanılabilir. Daha fazla bilgi edinmek için kullanıcı kılavuzuna bakın.