SageMaker HyperPod hiện đã hỗ trợ Bộ nhớ đệm KV phân tầng được quản lý và tính năng định tuyến thông minh

Ngày đăng: 26 Th11 2025

Amazon SageMaker HyperPod hiện đã hỗ trợ Bộ nhớ đệm khóa-giá trị (KV) phân tầng được quản lý và tính năng Định tuyến thông minh cho suy luận của mô hình ngôn ngữ lớn (LLM), cho phép khách hàng tối ưu hóa hiệu năng suy luận cho câu lệnh có ngữ cảnh dài và cuộc trò chuyện đa lượt. Khách hàng triển khai các ứng dụng LLM trong môi trường sản xuất cần thời gian phản hồi nhanh trong khi xử lý các tài liệu dài hoặc duy trì ngữ cảnh hội thoại. Tuy nhiên, các phương pháp suy luận truyền thống yêu cầu tính toán lại cơ chế chú ý cho tất cả các mã thông báo trước đó với mỗi lần tạo mã thông báo mới, do đó phát sinh chi phí tính toán và làm tăng chi phí nói chung. Bộ nhớ đệm KV phân tầng được quản lý giải quyết thách thức này bằng cách lưu vào bộ nhớ đệm và tái sử dụng các giá trị đã được tính toán thật thông minh, còn tính năng Định tuyến thông minh điều hướng yêu cầu đến các phiên bản tối ưu.

Những khả năng này giúp giảm độ trễ lên đến 40%, tăng thông lượng 25% và tiết kiệm chi phí 25% so với cấu hình cơ sở. Tính năng Bộ nhớ đệm KV phân tầng được quản lý sử dụng kiến trúc hai tầng, kết hợp bộ nhớ CPU cục bộ (L1) với bộ lưu trữ tách rời trên toàn cụm (L2). Bộ lưu trữ phân tầng tách rời gốc AWS là backend được đề xuất, cung cấp dung lượng có khả năng điều chỉnh tới quy mô terabyte cùng cơ chế phân tầng tự động từ bộ nhớ CPU sang SSD cục bộ, tối ưu hóa việc sử dụng bộ nhớ và bộ lưu trữ. Chúng tôi cũng cung cấp Redis như một tùy chọn bộ nhớ đệm L2 thay thế. Kiến trúc này cho phép tái sử dụng hiệu quả các cặp khóa-giá trị được tính toán từ trước trên các yêu cầu. Tính năng Định tuyến thông minh mới được giới thiệu tối đa hóa việc sử dụng bộ nhớ đệm thông qua ba chiến lược có thể định cấu hình: định tuyến nhận biết tiền tố (prefix-aware routing) dành cho các mẫu câu lệnh thông thường, định tuyến nhận biết khóa-giá trị (KV-aware routing) để đạt hiệu quả bộ nhớ đệm tối đa với khả năng theo dõi bộ nhớ đệm theo thời gian thực và định tuyến xoay vòng (round-robin) dành cho khối lượng công việc không có trạng thái. Các tính năng này hoạt động liền mạch với nhau. Tính năng định tuyến thông minh định tuyến yêu cầu đến các phiên bản có dữ liệu liên quan lưu trong bộ nhớ đệm, giúp giảm thời gian tạo mã thông báo đầu tiên trong phân tích tài liệu và duy trì luồng hội thoại tự nhiên trong các đoạn hội thoại đa lượt. Cấu hình tích hợp khả năng quan sát với Grafana được quản lý của Amazon cung cấp các chỉ số để giám sát hiệu năng. Bạn có thể kích hoạt những tính năng này thông qua InferenceEndpointConfig hoặc SageMaker JumpStart khi triển khai mô hình thông qua HyperPod Inference Operator trên các cụm được điều phối bởi EKS.

Các tính năng này được cung cấp ở tất cả các khu vực có SageMaker HyperPod. Để tìm hiểu thêm, hãy tham khảo hướng dẫn sử dụng.