Giới thiệu tính năng suy luận tối ưu hóa độ trễ cho các mô hình nền tảng trong Amazon Bedrock
Chúng tôi đã cung cấp bản xem trước công khai của tính năng suy luận được tối ưu hóa độ trễ cho các mô hình nền tảng trong Amazon Bedrock, giúp rút ngắn thời gian phản hồi và cải thiện khả năng phản hồi cho ứng dụng AI. Hiện tại, những tùy chọn suy luận mới này hỗ trợ mô hình Claude 3.5 Haiku của Anthropic cũng như các mô hình Llama 3.1 405B và 70B của Meta, giúp giảm độ trễ so với mô hình chuẩn mà không ảnh hưởng đến độ chính xác. Theo xác minh của Anthropic, với tính năng suy luận tối ưu hóa độ trễ trong Amazon Bedrock, Claude 3.5 Haiku đang chạy nhanh nhất trên AWS. Ngoài ra, với suy luận tối ưu hóa độ trễ trong Bedrock, Llama 3.1 405B và 70B chạy trên AWS nhanh hơn so với các nhà cung cấp dịch vụ đám mây lớn khác.
Khi ngày càng nhiều khách hàng chuyển ứng dụng AI tạo sinh sang môi trường sản xuất, việc tối ưu hóa trải nghiệm của người dùng cuối càng trở nên quan trọng, đặc biệt đối với các ứng dụng yêu cầu độ trễ thấp như chatbot chăm sóc khách hàng theo thời gian thực và trợ lý lập trình tương tác. Với chip AI chuyên dụng như AWS Trainium2 và các tùy chọn tối ưu hóa phần mềm nâng cao trong Amazon Bedrock, khách hàng có thể truy cập nhiều tùy chọn khác để tối ưu hóa suy luận sao cho phù hợp với trường hợp sử dụng cụ thể. Bạn không cần phải thiết lập hoặc tinh chỉnh mô hình để truy cập các tính năng này. Nhờ đó, bạn có thể cải tiến ngay các ứng dụng có sẵn để cải thiện thời gian phản hồi.
Tính năng suy luận tối ưu hóa độ trễ được cung cấp cho các mô hình Claude 3.5 Haiku của Anthropic cũng như Llama 3.1 405B và 70B của Meta ở Khu vực Miền Đông Hoa Kỳ (Ohio) thông qua tính năng suy luận liên khu vực. Để bắt đầu sử dụng, hãy truy cập bảng điều khiển Amazon Bedrock. Để biết thêm thông tin về Amazon Bedrock và các tính năng của Amazon Bedrock, hãy truy cập trang sản phẩm Amazon Bedrock, trang giá và tài liệu.