Lưu câu lệnh vào bộ nhớ đệm trên Amazon Bedrock
Tổng quan
Nhiều trường hợp sử dụng mô hình nền tảng (FM) sẽ sử dụng lại một số phần nhất định trong câu lệnh (tiền tố) trên các lệnh gọi API. Với khả năng lưu câu lệnh vào bộ nhớ đệm, các mô hình được hỗ trợ sẽ cho phép bạn lưu vào bộ nhớ đệm các tiền tố câu lệnh lặp đi lặp lại này giữa các yêu cầu. Bộ nhớ đệm này cho phép mô hình bỏ qua việc tính lại các tiền tố phù hợp. Do đó, khả năng lưu câu lệnh vào bộ nhớ đệm trong Amazon Bedrock có thể giảm chi phí lên đến 90% và giảm độ trễ lên đến 85% cho các mô hình được hỗ trợ.
Cải thiện hiệu năng cho nhiều trường hợp sử dụng
Nhiều ứng dụng yêu cầu hoặc được hưởng lợi từ câu lệnh dài, chẳng hạn như hỏi đáp tài liệu, hỗ trợ viết mã, tìm kiếm có tính chủ động hoặc trò chuyện dạng dài. Ngay cả với các mô hình nền tảng thông minh nhất, bạn thường cần sử dụng câu lệnh mở rộng với hướng dẫn chi tiết kèm nhiều ví dụ để đạt được kết quả phù hợp với trường hợp sử dụng của bạn. Tuy nhiên, câu lệnh dài và được tái sử dụng trên các lệnh gọi API có thể làm tăng độ trễ trung bình. Với khả năng lưu câu lệnh vào bộ nhớ đệm, trạng thái mô hình nội bộ không cần phải được tính toán lại nếu tiền tố của câu lệnh đã được lưu trong bộ nhớ đệm. Điều này giúp tiết kiệm thời gian xử lý, dẫn đến độ trễ phản hồi thấp hơn.

Giảm chi phí liên quan đến câu lệnh dài, lặp đi lặp lại
Với khả năng lưu câu lệnh vào bộ nhớ đệm, bạn có thể lưu vào bộ nhớ đệm các phần có liên quan trong câu lệnh của mình để tiết kiệm chi phí token đầu vào. Bộ nhớ đệm của bạn dành riêng cho tài khoản của bạn và bao gồm trạng thái mô hình nội bộ đại diện cho câu lệnh của bạn. Bởi vì mô hình có thể bỏ qua phần tính lại cho các tiền tố được lưu trong bộ nhớ đệm, tài nguyên điện toán cần thiết để xử lý các yêu cầu của bạn giảm xuống. Kết quả là chi phí của bạn giảm xuống.
Tích hợp liền mạch với các tính năng khác của Amazon Bedrock
Khả năng lưu câu lệnh vào bộ nhớ đệm tích hợp với các tính năng của Amazon Bedrock như Tác tử, cho phép bạn tăng tốc tác vụ nhiều bước và thậm chí tận dụng các câu lệnh hệ thống dài hơn để giúp tinh chỉnh hành vi của tác tử mà không làm chậm phản hồi của bạn.