SageMaker HyperPod sekarang mendukung cache KV berjenjang terkelola dan perutean cerdas

Dikirim di: 26 Nov 2025

Amazon SageMaker HyperPod kini mendukung Managed Tiered KV Cache dan Perutean Cerdas untuk inferensi model bahasa besar (LLM), memungkinkan pelanggan mengoptimalkan kinerja inferensi untuk prompt konteks panjang dan percakapan multi-turn. Pelanggan yang men-deploy aplikasi LLM produksi memerlukan waktu respons yang cepat saat memproses dokumen yang panjang atau mempertahankan konteks percakapan, tetapi pendekatan inferensi tradisional memerlukan penghitungan ulang mekanisme perhatian untuk semua token sebelumnya dengan setiap generasi token baru, menciptakan overhead komputasi dan meningkatkan biaya. Managed Tiered KV Cache mengatasi tantangan ini dengan menyimpan dan menggunakan kembali nilai-nilai yang dihitung secara cerdas, sementara Perutean Cerdas mengarahkan permintaan ke instans yang optimal.

Kemampuan ini memberikan pengurangan latensi hingga 40%, peningkatan throughput 25%, dan penghematan biaya 25% dibandingkan dengan konfigurasi dasar. Fitur Managed Tiered KV Cache menggunakan arsitektur dua tingkat yang menggabungkan memori CPU lokal (L1) dengan penyimpanan seluruh klaster yang terdisagregasi (L2). Penyimpanan berjenjang asli AWS adalah backend yang direkomendasikan, menyediakan kapasitas skala terabyte yang dapat diskalakan dan penataan otomatis dari memori CPU ke SSD lokal untuk memori dan pemanfaatan penyimpanan yang optimal. Kami juga menawarkan Redis sebagai opsi cache L2 alternatif. Arsitektur memungkinkan penggunaan kembali yang efisien dari pasangan kunci-nilai yang dihitung sebelumnya di seluruh permintaan. Perutean Cerdas yang baru diperkenalkan memaksimalkan pemanfaatan cache melalui tiga strategi yang dapat dikonfigurasi: perutean awalan untuk pola prompt umum, perutean KV-aware untuk efisiensi cache maksimum dengan pelacakan cache real-time, dan round-robin untuk beban kerja stateless. Fitur-fitur ini bekerja sama dengan mulus. Perutean cerdas mengarahkan permintaan ke instans dengan data cache yang relevan, mengurangi waktu hingga token pertama dalam analisis dokumen dan mempertahankan aliran percakapan alami dalam dialog multi-putaran. Integrasi observabilitas bawaan dengan Amazon Managed Grafana menyediakan metrik untuk memantau kinerja. Anda dapat mengaktifkan fitur-fitur ini melalui InferenceEndpointConfig atau SageMaker JumpStart saat men-deploy model melalui Operator Inferensi HyperPod pada klaster yang diatur EKS.

Fitur-fitur ini tersedia di semua region tempat SageMaker HyperPod tersedia. Untuk mempelajari lebih lanjut, lihat panduan pengguna.