AWS Neuron là gì?
AWS Neuron là bộ phát triển phần mềm (SDK) dùng để chạy khối lượng công việc học sâu và AI tạo sinh trên các phiên bản Amazon Elastic Compute Cloud (Amazon EC2) được hỗ trợ bởi AWS Inferentia và AWS Trainium. Bộ công cụ này bao gồm trình biên dịch, thời gian hoạt động, thư viện đào tạo và suy luận, cùng các công cụ dành cho nhà phát triển để giám sát, lập hồ sơ và gỡ lỗi. Neuron hỗ trợ vòng đời phát triển máy học (ML) toàn diện của bạn bao gồm xây dựng và triển khai mô hình học sâu và AI, giúp tối ưu hóa để đạt hiệu suất cao nhất và chi phí thấp nhất, đồng thời có được thông tin chi tiết sâu sắc hơn về hành vi của mô hình.

Tích hợp chuyên biệt với các thư viện và khung ML phổ biến
Neuron tích hợp sẵn với PyTorch và JAX cũng như các thư viện ML thiết yếu như Hugging Face Optimum Neuron, PyTorch Lightning và AXLearn. Neuron cũng hỗ trợ OpenXLA, bao gồm StableHLO và GSPMD, cho phép các nhà phát triển PyTorch, XLA và JAX sử dụng các tối ưu hóa trình biên dịch của Neuron cho Inferentia và Trainium. Neuron cho phép bạn sử dụng các phiên bản chạy trên Trainium và Inferentia Amazon với các dịch vụ như Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster và AWS Batch, cũng như các dịch vụ của bên thứ ba như Ray (Anyscale), Domino Data Lab, Datadog và Weights & Biases.

Thư viện đào tạo và suy luận phân tán
Neuron bao gồm các tối ưu hóa sẵn có để đào tạo và suy luận phân tán với các thư viện PyTorch mã nguồn mở NxD Training và NxD Inference. NxD Training đơn giản hóa và tối ưu hóa quá trình đào tạo phân tán quy mô lớn cũng như hỗ trợ nhiều kiến trúc mô hình, chiến lược song song và quy trình đào tạo khác nhau. NxD Inference đem tới giải pháp toàn diện để suy luận mô hình tối ưu với các tính năng chính như lấy mẫu trên thiết bị, hợp nhất trọng số QKV, phân nhóm liên tục, giải mã suy đoán, phân vùng lưu trữ linh động và suy luận phân tán. NxD Inference cũng tích hợp với các giải phân phối như vLLM và Hugging Face TGI. Cả hai đều có một trung tâm mô hình cho các kiến trúc mô hình khác nhau.

Năng lực khoa học ứng dụng tiên tiến
Neuron cung cấp một số năng lực khoa học ứng dụng giúp các nhà khoa học và nhà nghiên cứu mở rộng ranh giới nghiên cứu cũng như đổi mới AI nguồn mở trên Trainium và Inferentia. Neuron Kernel Interface (NKI) cung cấp quyền truy cập trực tiếp vào các thành phần căn bản và hướng dẫn của phần cứng có trên Trainium và Inferentia, cho phép các nhà nghiên cứu xây dựng và tinh chỉnh nhân điện toán để có hiệu năng tối ưu. Giao diện này là một môi trường lập trình dựa trên Python áp dụng cú pháp giống Triton và ngữ nghĩa cấp ô phổ biến. Các nhà nghiên cứu có thể sử dụng NKI để nâng cao các mô hình học sâu với các chức năng mới, cách tối ưu hóa và đổi mới khoa học. Các toán tử C++ tùy chỉnh của Neuron cho phép các nhà phát triển mở rộng chức năng của SDK bằng cách tạo ra các toán tử riêng tối ưu cho Inferentia và Trainium.

Công cụ quyền năng cho nhà phát triển
AWS Neuron SDK cung cấp bộ công cụ toàn diện để cung cấp thông tin chuyên sâu về giám sát, quản lý và tối ưu mô hình học sâu trên các phiên bản EC2 chạy bằng AWS Inferentia và Trainium. Bộ công cụ này các tiện ích như neuron-top, neuron-monitor và Neuron Sysfs để giám sát tài nguyên phần cứng, thực thi mô hình và thông tin chi tiết về hệ thống. Đối với các ứng dụng container hóa trong Kubernetes và EKS, Neuron đơn giản hóa quy trình giám sát thông qua tích hợp Amazon CloudWatch và các công cụ quan sát phổ biến khác như Data Dog và Weights & Biases. Ngoài ra, công cụ lập hồ sơ neuron giúp xác định và giải quyết vướng mắc về hiệu suất trong cả ứng dụng phân tán và ứng dụng một nút, đồng thời cho phép lập hồ sơ gốc cho các khung ML phổ biến.
