ตอนนี้ SageMaker HyperPod รองรับแคช KV แบบจัดการ และการกำหนดเส้นทางอัจฉริยะ

โพสต์บน: 26 พ.ย. 2025

Amazon SageMaker HyperPod รองรับแคช KV แบบจัดการ และการกำหนดเส้นทางอัจฉริยะสำหรับการอนุมานโมเดลภาษาขนาดใหญ่ (LLM) ทำให้ลูกค้าสามารถเพิ่มประสิทธิภาพการอนุมานสำหรับพร้อมท์ในบริบทที่ยาวและการสนทนาแบบหลายเทิร์น ลูกค้าที่นำแอปพลิเคชัน LLM ไปใช้ในการใช้งานจริงต้องการเวลาตอบสนองที่รวดเร็วในขณะที่ประมวลผลเอกสารที่ยาวหรือรักษาบริบทการสนทนา แต่วิธีการอนุมานแบบดั้งเดิมจำเป็นต้องคำนวณกลไกการให้ความสนใจใหม่สำหรับโทเค็นก่อนหน้าทั้งหมดในแต่ละรุ่นโทเค็นใหม่ สร้างภาระการคำนวณมากขึ้นและเพิ่มค่าใช้จ่าย Managed Tiered KV Cache ตอบสนองต่อความท้าทายนี้โดยการแคชและใช้ค่าที่คำนวณซ้ำอย่างชาญฉลาด ในขณะที่การกำหนดเส้นทางอัจฉริยะจะนำคำขอไปยังอินสแตนซ์ที่เหมาะสม

ความสามารถเหล่านี้ช่วยลดเวลาแฝงได้ถึง 40% การปรับปรุงอัตราการโอนถ่ายข้อมูล 25% และประหยัดค่าใช้จ่าย 25% เมื่อเทียบกับการกำหนดค่าพื้นฐาน ฟีเจอร์ Managed Tiered KV Cache ใช้สถาปัตยกรรมสองชั้นที่รวมหน่วยความจำ CPU ในระบบ (L1) กับพื้นที่จัดเก็บข้อมูลแบบคลัสเตอร์แบบแยกส่วน (L2) พื้นที่จัดเก็บข้อมูลแบบแยกเป็นพื้นฐานของ AWS-native เป็นแบ็กเอนด์ที่แนะนำ ซึ่งให้ความจุขนาดเทราไบต์ที่ปรับขนาดได้และการปรับระดับอัตโนมัติจากหน่วยความจำ CPU ไปยัง SSD ในเครื่องเพื่อการใช้งานหน่วยความจำและการจัดเก็บข้อมูลที่เหมาะสมที่สุด เรายังเสนอ Redis เป็นตัวเลือกแคช L2 ทางเลือก สถาปัตยกรรมช่วยให้สามารถนำคู่คีย์-ค่าที่คำนวณไว้ก่อนหน้านี้ใช้ซ้ำได้อย่างมีประสิทธิภาพตลอดคำขอ การกำหนดเส้นทางอัจฉริยะที่เพิ่งเปิดตัวใหม่ช่วยเพิ่มการใช้แคชให้สูงสุดผ่านกลยุทธ์ที่กำหนดค่าได้สามกลยุทธ์ ได้แก่ การกำหนดเส้นทางที่ตระหนักถึงคำนำสำหรับรูปแบบพร้อมท์ทั่วไป การกำหนดเส้นทางที่ตระหนักถึง KV เพื่อประสิทธิภาพแคชสูงสุดด้วยการติดตามแคชแบบเรียลไทม์ และทำงานล่วงหน้าสำหรับเวิร์กโหลดที่ไม่มีสถานะ ฟีเจอร์เหล่านี้ทำงานร่วมกันได้อย่างราบรื่น การกำหนดเส้นทางอัจฉริยะจะนำคำขอไปยังอินสแตนซ์ที่มีข้อมูลแคชที่เกี่ยวข้อง ลดเวลาในการใช้โทเค็นแรกในการวิเคราะห์เอกสาร และรักษาขั้นตอนการสนทนาตามธรรมชาติในบทสนทนาแบบหลายเทิร์น การรวมข้อมูลการสังเกตในตัวกับ Amazon Managed Grafana ให้เมตริกสำหรับการตรวจสอบประสิทธิภาพ คุณสามารถเปิดใช้งานฟีเจอร์เหล่านี้ผ่าน InferenceEndpointConfig หรือ SageMaker JumpStart เมื่อติดตั้งใช้งานโมเดลผ่านตัวดำเนินการอนุมานของ HyperPod บนคลัสเตอร์ที่จัดเรียงโดย EKS

ฟีเจอร์เหล่านี้มีให้บริการในทุกรีเจี้ยนที่ SageMaker HyperPod พร้อมใช้งาน หากต้องการเรียนรู้ข้อมูลเพิ่มเติมให้ดูที่คู่มือผู้ใช้