Chuyển đến nội dung chính

Chip AI của AWS

AWS Trainium

Trainium3, chip AWS AI 3nm đầu tiên của chúng tôi được xây dựng nhằm cung cấp tính kinh tế mã thông báo tốt nhất cho các ứng dụng tạo tác nhân, lý luận và video thế hệ tiếp theo

Tại sao nên sử dụng Trainium?

AWS Trainium là một dòng các bộ tăng tốc AI được xây dựng theo mục đích - Trn1, Trn2 và Trn3 - được thiết kế để cung cấp hiệu suất có thể mở rộng và hiệu quả chi phí cho việc đào tạo và suy luận trên nhiều khối lượng công việc AI tổng hợp

Dòng AWS Trainium

Đào tạo1

Chip AWS Trainium thế hệ đầu tiên hỗ trợ các phiên bản Trn1 của Amazon Elastic Compute Cloud (Amazon EC2), trong đó tiết kiệm tới 50% chi phí đào tạo so với các phiên bản Amazon EC2 tương đương. Nhiều khách hàng, bao gồm Ricoh, Karakuri, SplashMusic và Arcee AI, đang nhận ra hiệu suất và lợi ích chi phí của phiên bản Trn1.

Trainium2

Chip AWS Trainium2 tăng tới 4 lần hiệu suất so với Trainium thế hệ đầu tiên. Phiên bản Amazon EC2 Trn2 dựa trên Trainium2 và Trn2 UltraServer, được xây dựng theo mục đích cho AI tổng hợp và cung cấp hiệu suất giá tốt hơn 30-40% so với phiên bản EC2 P5e và P5en dựa trên GPU. Phiên bản Trn2 có tối đa 16 chip Trainium2 và Trn2 UltraServer có tối đa 64 chip Trainium2 được kết nối với NeuronLink, kết nối chip-to-chip độc quyền của chúng tôi. Bạn có thể sử dụng phiên bản Trn2 và UltraServer để đào tạo và triển khai các mô hình đòi hỏi khắt khe nhất bao gồm các mô hình ngôn ngữ lớn (LLM), mô hình đa phương thức và máy biến áp khuếch tán, để xây dựng một tập hợp rộng các ứng dụng AI tổng hợp thế hệ tiếp theo.

Trainium3

Trn3 UltraServer, được cung cấp bởi chip AI thế hệ thứ tư của chúng tôi, AWS Trainium3 — chip AI 3nm đầu tiên của AWS — được xây dựng nhằm cung cấp tính kinh tế token tốt nhất cho các ứng dụng tạo tác nhân, lý luận và video thế hệ tiếp theo. Trn3 UltraServer cung cấp hiệu suất cao hơn tới 4,4 lần, băng thông bộ nhớ cao hơn 3,9 lần và hiệu quả năng lượng tốt hơn 4 lần so với Trn2 UltraServer, cung cấp hiệu suất giá tốt nhất để đào tạo và phục vụ các mô hình quy mô tiên tiến, bao gồm học tăng cường, kết hợp các chuyên gia (MoE), lý luận và kiến trúc ngữ cảnh dài.

Mỗi chip AWS Trainium3 cung cấp 2,52 petaflops (PFLOPS) tính toán FP8, tăng dung lượng lưu trữ lên 1,5 lần và băng thông lên 1,7 lần so với bộ nhớ Trainium2 lên 144 GB bộ nhớ HBM3e và 4,9 TB/giây băng thông bộ nhớ, Trainium3 được thiết kế cho cả khối lượng công việc dày đặc và song song với các loại dữ liệu nâng cao (MXFP8 và MXFP4) và cải thiện bộ nhớ thành công việc cân bằng cho các nhiệm vụ thời gian thực, đa phương thức và lý luận.

Trên Amazon Bedrock, Trainium3 là bộ tăng tốc nhanh nhất, mang lại hiệu suất nhanh hơn tới 3 lần so với Trainium2 và hiệu suất năng lượng tốt hơn 3 lần so với bất kỳ bộ tăng tốc nào khác trên dịch vụ. Trong các thử nghiệm phục vụ quy mô lớn (ví dụ: GPT-OSS), Trn3 cung cấp mã thông báo đầu ra cao hơn 5 lần trên mỗi megawatt so với Trn2 với độ trễ tương tự trên mỗi người dùng, cho phép suy luận thông lượng bền vững hơn, cao hơn trên quy mô lớn.

Được xây dựng cho các nhà phát triển

Các phiên bản dựa trên Trainium3 mới được xây dựng cho các nhà nghiên cứu AI và được hỗ trợ bởi SDK Neuron AWS, để mở khóa
hiệu suất đột phá. 

Với tích hợp PyTorch gốc, các nhà phát triển có thể đào tạo và triển khai mà không cần thay đổi một dòng mã nào. Dành cho AI
kỹ sư hiệu suất, chúng tôi đã cho phép truy cập sâu hơn vào Trainium3, để các nhà phát triển có thể tinh chỉnh hiệu suất,
tùy chỉnh hạt nhân và đẩy mô hình của bạn xa hơn nữa. Bởi vì sự đổi mới phát triển mạnh mẽ sự cởi mở, chúng tôi cam kết
để tương tác với các nhà phát triển của chúng tôi thông qua các công cụ và tài nguyên nguồn mở. 

Để tìm hiểu thêm, hãy truy cập phiên bản Amazon EC2 Trn3, khám phá AWS Neuron SDK hoặc đăng ký quyền truy cập xem trước.

Lợi ích

Trn3 UltraServer có những cải tiến mới nhất trong công nghệ UltraServer mở rộng, với NeuronSwitch-v1 cho
các tập thể tất cả nhanh hơn trên tối đa 144 chip Trainium3. Tóm lại, một Trn3 UltraServer duy nhất cung cấp
lên đến 20,7 TB HBM3e, 706 TB/s băng thông bộ nhớ và 362 FP8 PFLOP, cung cấp nhiều hơn tới 4,4 lần
hiệu suất và hiệu suất năng lượng tốt hơn 4 lần so với Trn2 UltraServers. Trn3 cung cấp cao nhất
hiệu suất với chi phí thấp nhất cho đào tạo và suy luận với các mô hình MoE và kiểu lập luận tham số 1T+mới nhất, đồng thời thúc đẩy thông lượng cao hơn đáng kể cho việc phục vụ GPT-OSS trên quy mô lớn so với Trainium2-
các trường hợp dựa trên.

Trn2 UltraServers vẫn là một lựa chọn hiệu suất cao, hiệu quả về chi phí để đào tạo AI tổng hợp và suy luận
mô hình lên đến tham số 1T. Phiên bản Trn2 có tối đa 16 chip Trainium2 và tính năng Trn2 UltraServer
lên đến 64 chip Trainium2 được kết nối với NeuronLink, một kết nối chip-to-chip độc quyền.

Phiên bản Trn1 có tối đa 16 chip Trainium và cung cấp tối đa 3 FP8 PFLOP, 512 GB HBM với 9,8 TB/giây
băng thông bộ nhớ và mạng EFA lên đến 1,6 Tbps.

Được xây dựng để nghiên cứu và thử nghiệm

AWS Neuron SDK giúp bạn trích xuất hiệu suất đầy đủ từ các phiên bản Trn3, Trn2 và Trn1 để bạn có thể tập trung vào việc xây dựng và triển khai các mô hình cũng như đẩy nhanh thời gian đưa ra thị trường. AWS Neuron tích hợp nguyên bản với, PyTorch Jax và các thư viện thiết yếu như Hugging Face, VLLM, PyTorch Lightning và các thư viện khác. Nó tối ưu hóa các mô hình ngay lập tức để đào tạo và suy luận phân tán, đồng thời cung cấp thông tin chi tiết sâu sắc để lập hồ sơ và gỡ lỗi. AWS Neuron tích hợp với các dịch vụ như Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster và AWS Batch, cũng như các dịch vụ của bên thứ ba như Ray (Anyscale), Domino Data Lab và Datadog.

Để mang lại hiệu suất cao trong khi đáp ứng các mục tiêu chính xác, AWS Trainium hỗ trợ một loạt các độ chính xác hỗn hợp
các loại dữ liệu như BF16, FP16, FP8, MXFP8 vàMXFP4. Để hỗ trợ tốc độ đổi mới nhanh trong AI tạo ra,
Trainium2 và Trainium3 có tính năng tối ưu hóa phần cứng cho độ thưa thớt 4x (16:4), tỷ lệ vi mô, ngẫu nhiên
làm tròn và động cơ tập thể chuyên dụng.

Neuron cho phép các nhà phát triển tối ưu hóa khối lượng công việc của họ bằng cách sử dụng Giao diện nhân Neuron (NKI) để phát triển hạt nhân. NKI tiết lộ Trainium ISA đầy đủ, cho phép kiểm soát hoàn toàn lập trình cấp hướng dẫn, phân bổ bộ nhớ và lập lịch thực thi. Cùng với việc xây dựng Hạt nhân của riêng bạn, các nhà phát triển có thể sử dụng Thư viện Kernel Neuron, là nguồn mở, sẵn sàng triển khai các hạt nhân được tối ưu hóa. Và cuối cùng, Neuron Explore cung cấp khả năng hiển thị ngăn xếp đầy đủ, kết nối với mã của nhà phát triển đến các công cụ trong phần cứng.

Khách hàng

Các khách hàng như Databricks, Ricoh, Karakuri, SplashMusic và những khách hàng khác, đang nhận ra hiệu suất và lợi ích chi phí của phiên bản Trn1.

Các khách hàng bao gồm Anthropic, Databricks, Poolside, Ricoh và NinjaTech AI đang nhận ra lợi ích đáng kể về hiệu suất và chi phí trên các phiên bản Trn1 và Trn2.

Những người đầu tiên áp dụng Trn3 đang đạt được mức hiệu quả và khả năng mở rộng mới cho thế hệ tiếp theo của các mô hình AI tạo ra quy mô lớn.

Missing alt text value

Chinh phục hiệu năng, chi phí và quy mô của AI

AWS Trainium2 cho hiệu suất AI đột phá

Câu chuyện khách hàng về chip AI của AWS