Công bố Amazon EC2 Trn3 UltraServers giúp tăng tốc và giảm chi phí đào tạo AI tạo sinh

Ngày đăng: 2 Th12 2025

AWS công bố cung cấp rộng rãi Amazon Elastic Compute Cloud (Amazon EC2) Trn3 UltraServers sử dụng chip AI thế hệ thứ tư Trainium3, mẫu chip AI 3nm đầu tiên của AWS, được thiết kế chuyên dụng nhằm đem đến hiệu quả kinh tế về token cao nhất cho ứng dụng tác tử, lập luận và tạo video thế hệ mới.

Mỗi chip AWS Trainium3 cung cấp 2,52 petaflop (PFLOPS) năng lực điện toán FP8, tăng dung lượng bộ nhớ gấp 1,5 lần và băng thông gấp 1,7 lần so với Trainium2, lên 144 GB bộ nhớ HBM3e và băng thông bộ nhớ 4,9 TB/giây. Trainium3 được thiết kế cho cả khối lượng công việc trong đó mọi phần tử dữ liệu đều được tính toán (dense) lẫn khối lượng công việc trong đó chỉ một số mô hình con chuyên biệt trong mô hình được kích hoạt cho mỗi đầu vào (expert-parallel) với các kiểu dữ liệu nâng cao (MXFP8 và MXFP4), đồng thời cải thiện sự cân bằng giữa bộ nhớ và hiệu năng điện toán cho các tác vụ thời gian thực, đa phương thức và lập luận.

Trn3 UltraServers có khả năng tăng quy mô theo tài nguyên lên đến 144 chip Trainium3 (tổng cộng 362 FP8 PFLOPS) và được cung cấp trong EC2 UltraClusters 3.0 để điều chỉnh quy mô lên hàng trăm nghìn chip. Trn3 UltraServer được cấu hình đầy đủ cung cấp đến 20,7 TB HBM3e và 706 TB/giây băng thông bộ nhớ tổng hợp. Trn3 UltraServer thế hệ mới được trang bị NeuronSwitch-v1, một kiến trúc trong đó tất cả các chip kết nối với nhau, giúp tăng gấp đôi băng thông kết nối giữa các chip so với Trn2 UltraServer.

Trn3 mang lại hiệu năng cao hơn đến 4,4 lần, băng thông bộ nhớ cao hơn 3,9 lần và hiệu năng mỗi watt cao hơn gấp 4 lần so với Trn2 UltraServers của chúng tôi, đem đến tỷ lệ giá/hiệu năng tốt nhất để đào tạo và phục vụ các mô hình quy mô tiên phong, bao gồm các kiến trúc học tăng cường, Hỗn hợp chuyên gia (MoE), lập luận và ngữ cảnh dài. Trên Amazon Bedrock, Trainium3 là bộ tăng tốc nhanh nhất của chúng tôi, mang lại hiệu năng nhanh hơn gấp 3 lần so với Trainium2 với số lượng token đầu ra mỗi megawatt cao hơn gấp 5 lần ở độ trễ tương tự trên mỗi người dùng.

Trn3 UltraServers mới chuyên phục vụ các nhà nghiên cứu AI và được hỗ trợ bởi AWS Neuron SDK, giúp khai phóng hiệu năng đột phá. Với khả năng tích hợp PyTorch gốc, các nhà phát triển có thể đào tạo và triển khai mà không cần thay đổi một dòng mã mô hình nào. Đối với kỹ sư hiệu năng AI, chúng tôi đã cho phép truy cập sâu hơn vào Trainium3 để họ có thể tinh chỉnh hiệu năng, tùy chỉnh nhân và đẩy mô hình này đi xa hơn nữa. Bởi vì sự cởi mở chính là nền tảng phát triển cho đổi mới, chúng tôi cam kết tương tác với nhà phát triển của mình thông qua các công cụ và tài nguyên nguồn mở.