Amazon SageMaker AI ra mắt các đề xuất suy luận AI tạo sinh được tối ưu hóa

Ngày đăng: 21 Th04 2026

Amazon SageMaker AI hiện hỗ trợ các đề xuất suy luận, một khả năng mới giúp loại bỏ công việc định chuẩn và tối ưu hóa thủ công để mang lại hiệu suất suy luận tối ưu. Nhờ cung cấp các cấu hình triển khai tối ưu, đã xác thực, có sẵn các chỉ số hiệu suất, SageMaker AI đẩy nhanh quá trình áp dụng vào môi trường sản xuất, giúp các nhà phát triển mô hình của bạn tập trung vào việc xây dựng mô hình chính xác thay vì phải quản lý cơ sở hạ tầng.

Khách hàng sử dụng mô hình AI tạo sinh của riêng họ, xác định các mẫu hình lưu lượng truy cập dự kiến và chỉ định mục tiêu hiệu suất (tối ưu hóa chi phí, giảm thiểu độ trễ hoặc tăng tối đa thông lượng). SageMaker AI sau đó phân tích kiến trúc của mô hình và áp dụng các mục tối ưu hóa phù hợp với mục tiêu đó trên nhiều loại phiên bản, định chuẩn cho từng cấu hình trên cơ sở hạ tầng GPU thực sử dụng NVIDIA AIPerf. Bằng cách đánh giá nhiều loại phiên bản, khách hàng có thể chọn loại có tỷ lệ hiệu năng/giá tốt nhất cho khối lượng công việc của họ. Kết quả là các cấu hình sẵn sàng triển khai với các chỉ số được xác thực, bao gồm thời gian tạo mã thông báo đầu tiên, độ trễ giữa các mã thông báo, phân vị độ trễ của yêu cầu, thông lượng và dự báo chi phí.

 Khả năng này hiện được cung cấp ở bảy Khu vực AWS: Miền Đông Hoa Kỳ (Bắc Virginia), Miền Tây Hoa Kỳ (Oregon), Miền Đông Hoa Kỳ (Ohio), Châu Á Thái Bình Dương (Tokyo), Châu Âu (Ireland), Châu Á Thái Bình Dương (Singapore) và Châu Âu (Frankfurt). Để tìm hiểu thêm, hãy truy cập tài liệu về SageMaker AI.