AWS Neuron giới thiệu NxD Inference được cung cấp rộng rãi, các tính năng mới và các công cụ cải tiến
Hôm nay, AWS công bố phát hành Neuron 2.23, có các cải tiến về suy luận, khả năng đào tạo và các công cụ dành cho nhà phát triển. Phiên bản này chuyển thư viện NxD Inference (NxDI) sang trạng thái cung cấp rộng rãi (GA), giới thiệu các khả năng đào tạo mới bao gồm Context Parallelism và ORPO, đồng thời bổ sung hỗ trợ cho PyTorch 2.6 và JAX 0.5.3.
Thư viện NxD Inference chuyển từ phiên bản beta sang trạng thái cung cấp rộng rãi, hiện được khuyến nghị cho tất cả các trường hợp sử dụng suy luận đa chip. Các cải tiến chính bao gồm hỗ trợ Bộ nhớ đệm liên tục để giảm thời gian biên dịch và tối ưu hóa thời gian tải mô hình.
Đối với khối lượng công việc đào tạo, thư viện NxD Training giới thiệu hỗ trợ Context Parallelism (beta) cho các mô hình Llama, cho phép độ dài chuỗi lên đến 32K. Bản phát hành bổ sung hỗ trợ căn chỉnh mô hình bằng ORPO với tập dữ liệu kiểu DPO, nâng cấp hỗ trợ cho các thư viện của bên thứ 3, cụ thể là: PyTorch Lightning 2.5, Transformers 4.48 và NeMo 2.1.
Neuron Kernel Interface (NKI) giới thiệu các phép toán số nguyên 32 bit mới, cải tiến các tính năng ISA cho Trainium2 và các API tinh chỉnh hiệu năng mới. Neuron Profiler hiện cung cấp khả năng xem kết quả hồ sơ nhanh hơn gấp 5 lần, theo dõi lỗi dựa trên dòng thời gian và cải thiện khả năng hiển thị xử lý đa nhiệm với Perfetto.
AWS Neuron SDK hỗ trợ nhiệm vụ đào tạo và triển khai mô hình trên các phiên bản Trn1, Trn2 và Inf2. SDK này được cung cấp ở Khu vực AWS dưới dạng Phiên bản theo nhu cầu, Phiên bản đặt trước, Phiên bản dùng ngay hoặc trong Gói tiết kiệm.
Để biết danh sách đầy đủ các tính năng và điểm cải tiến mới trong Neuron 2.23 và bắt đầu sử dụng Neuron, hãy xem: