Các tính năng mới cho AWS Neuron 2.24 bao gồm PyTorch 2.7 và cải tiến quá trình suy luận

Ngày đăng: 2 Th07 2025


Hôm nay, AWS công bố cung cấp rộng rãi Neuron 2.24, mang đến các tính năng mới và cải tiến hiệu năng cho khách hàng đang xây dựng và triển khai các mô hình học sâu trên các phiên bản dựa trên AWS Inferentia và Trainium. Neuron 2.24 giới thiệu tính năng hỗ trợ cho PyTorch 2.7, suy luận nâng cao và khả năng tương thích mở rộng với các khung máy học phổ biến. Các bản cập nhật này giúp các nhà phát triển và nhà khoa học dữ liệu đẩy nhanh quá trình đào tạo mô hình và suy luận, cải thiện hiệu quả và đơn giản hóa quá trình triển khai các mô hình ngôn ngữ lớn và khối lượng công việc AI khác.

Với Neuron 2.24, khách hàng có thể tận dụng các tính năng suy luận nâng cao như lưu tiền tố vào bộ nhớ đệm cho thời gian đến mã thông báo đầu tiên (TTFT) nhanh hơn, suy luận phân tách để giảm nhiễu giải mã trước và kỹ thuật chạy song song ngữ cảnh để cải thiện hiệu năng trên các chuỗi dài. Bản phát hành cũng hỗ trợ cho các mô hình văn bản Qwen 2.5 và cải thiện tích hợp với Hugging Face Optimum Neuron và backend NxD Core dựa trên PyTorch.

Neuron 2.24 có sẵn ở tất cả các Khu vực AWS cung cấp phiên bản Inferentia và Trainium.

Để tìm hiểu thêm và xem danh sách đầy đủ các tính năng và cải tiến mới, hãy xem: