Amazon SageMaker giới thiệu khả năng tối ưu hóa suy luận AI tạo sinh mới
Hôm nay, Amazon SageMaker đã công bố việc cung cấp rộng rãi khả năng suy luận mới. Tính năng này mang lại thông lượng cao hơn tới ~2 lần, đồng thời giảm chi phí tới ~50% cho các mô hình AI tạo sinh như: mô hình Llama 3, Mistral và Mixtral. Ví dụ: với mô hình Llama 3-70B, bạn có thể đạt tới ~2400 token/giây trên phiên bản ml.p5.48xlarge so với ~1200 token/giây trước đó mà không cần tối ưu hóa.
Với khả năng mới này, khách hàng có thể chọn các kỹ thuật tối ưu hóa mô hình mới nhất trong menu, chẳng hạn như: giải mã suy đoán, lượng tử hóa và biên dịch, rồi áp dụng các kỹ thuật đó vào mô hình AI tạo sinh của họ. SageMaker sẽ đảm nhiệm trọng trách cung cấp phần cứng cần thiết để chạy công thức tối ưu hóa, cùng với các khung và thư viện học sâu. Khách hàng nhận được sự hỗ trợ ngay lập tức cho giải pháp giải mã suy đoán từ SageMaker. Giải pháp này đã được thử nghiệm về hiệu suất trên quy mô lớn, đối với nhiều mô hình nguồn mở phổ biến khác nhau. Nếu muốn, khách hàng có thể sử dụng giải pháp giải mã suy đoán của riêng mình. Đối với lượng tử hóa, SageMaker bảo đảm khả năng tương thích và sự hỗ trợ cho các loại mức độ chính xác trên các kiến trúc mô hình khác nhau. Đối với biên dịch, cơ sở hạ tầng về thời gian hoạt động của SageMaker bảo đảm các mô hình đã tối ưu hóa sẽ có quá trình tải và lưu vào bộ nhớ đệm hiệu quả nhằm giảm thời gian tự động điều chỉnh quy mô.
Khách hàng có thể tận dụng khả năng mới này từ SDK AWS dành cho Python (Boto3), SDK SageMaker Python hoặc Giao diện dòng lệnh AWS (AWS CLI). Khả năng này hiện được cung cấp rộng rãi ở các khu vực Miền Đông Hoa Kỳ (Bắc Virginia), Miền Đông Hoa Kỳ (Ohio), Miền Tây Hoa Kỳ (Oregon), Châu Á Thái Bình Dương (Mumbai), Châu Á Thái Bình Dương (Singapore), Châu Á Thái Bình Dương (Sydney), Châu Á Thái Bình Dương (Tokyo), Canada (Miền Trung), Châu Âu (Frankfurt), Châu Âu (Ireland), Châu Âu (London), Châu Âu (Paris), Châu Âu (Stockholm) và Nam Mỹ (Sao Paulo).
Tìm hiểu thêm bằng cách truy cập trang tài liệu và blog AWS ML của chúng tôi.