AWS Neuron giới thiệu nhân Tập trung chớp nhoáng (Flash Attention) để mang đến hiệu năng cao và độ dài chuỗi lớn

Ngày đăng: 11 Th07 2024

Hôm nay, AWS sẽ công bố việc phát hành Neuron 2.19, giới thiệu sự hỗ trợ dành cho hạt nhân tập trung chớp nhoáng (flash attention) để cho phép đào tạo và suy luận mô hình LLM hiệu quả với độ dài chuỗi lớn.

AWS Neuron là SDK dành cho các phiên bản dựa trên AWS Inferentia và Trainium, được phát triển vì AI tạo sinh. Neuron tích hợp với các khung ML phổ biến như PyTorch. Ứng dụng này có trình biên dịch, thời gian hoạt động, các công cụ và thư viện để hỗ trợ đào tạo và suy luận hiệu suất cao cho các mô hình AI ở các phiên bản Trn1 và Inf2.

Bản phát hành này bổ sung các tính năng mới và điểm cải tiến về hiệu năng cho cả hoạt động đào tạo và suy luận, cùng với Ubuntu 22 Neuron DLAMI mới cho PyTorch 2.1 và PyTorch 1.13. Neuron 2.19 bổ sung sự hỗ trợ cho hạt nhân Tập trung chớp nhoáng (Flash Attention) để cho phép đào tạo với độ dài chuỗi lớn (lớn hơn hoặc bằng 8K), đào tạo mô hình Llama3, cũng như cho phép tính song song trong quy trình xen kẽ để nâng cao hiệu quả đào tạo và sử dụng tài nguyên. Đối với hoạt động suy luận, bản phát hành này bổ sung sự hỗ trợ cho hạt nhân tập trung chớp nhoáng (flash attention) để cho phép suy luận LLM đối với bối cảnh có độ dài lên đến 32k. Neuron 2.19 bổ sung thêm sự hỗ trợ cho suy luận mô hình Llama3 và hỗ trợ beta cho việc phân nhóm liên tục với mô hình Mistral-7B-v0.2. Neuron 2.19 giới thiệu các công cụ mới: plugin Trình phát hiện vấn đề và khôi phục nút Neuron trong EKS và Giám sát Neuron dành cho EKS để tăng cường giám sát số liệu Neuron trong Kubernetes.

Bạn có thể sử dụng SDK AWS Neuron để đào tạo và triển khai mô hình trên các phiên bản Trn1 và Inf2. SDK này được cung cấp ở Khu vực AWS dưới dạng Phiên bản theo nhu cầu, Phiên bản đặt trước, Phiên bản dùng ngay hoặc trong Gói tiết kiệm.

Để biết danh sách các tính năng trong Neuron 2.19, hãy truy cập Ghi chú phát hành Neuron. Để bắt đầu sử dụng Neuron, hãy xem:
AWS Neuron
Phiên bản Inf2
Phiên bản Trn1