Chip AI của AWS

AWS Trainium

Trainium3, chip AWS AI 3nm đầu tiên của chúng tôi được xây dựng nhằm cung cấp tính kinh tế mã thông báo tốt nhất cho các ứng dụng tạo tác nhân, lý luận và video thế hệ tiếp theo

Bắt đầu sử dụng Trainium bằng AWS Neuron

Tại sao nên sử dụng Trainium?

AWS Trainium là một dòng các bộ tăng tốc AI được xây dựng theo mục đích - Trn1, Trn2 và Trn3 - được thiết kế để cung cấp hiệu suất có thể mở rộng và hiệu quả chi phí cho việc đào tạo và suy luận trên nhiều khối lượng công việc AI tổng hợp

Dòng AWS Trainium

Đào tạo1

Chip AWS Trainium thế hệ đầu tiên hỗ trợ các phiên bản Trn1 của Amazon Elastic Compute Cloud (Amazon EC2), trong đó tiết kiệm tới 50% chi phí đào tạo so với các phiên bản Amazon EC2 tương đương. Nhiều khách hàng, bao gồm Ricoh, Karakuri, SplashMusic và Arcee AI, đang nhận ra hiệu suất và lợi ích chi phí của phiên bản Trn1.

Trainium2

Chip AWS Trainium2 tăng tới 4 lần hiệu suất so với Trainium thế hệ đầu tiên. Phiên bản Amazon EC2 Trn2 dựa trên Trainium2 và Trn2 UltraServer, được xây dựng theo mục đích cho AI tổng hợp và cung cấp hiệu suất giá tốt hơn 30-40% so với phiên bản EC2 P5e và P5en dựa trên GPU. Phiên bản Trn2 có tối đa 16 chip Trainium2 và Trn2 UltraServer có tối đa 64 chip Trainium2 được kết nối với NeuronLink, kết nối chip-to-chip độc quyền của chúng tôi. Bạn có thể sử dụng phiên bản Trn2 và UltraServer để đào tạo và triển khai các mô hình đòi hỏi khắt khe nhất bao gồm các mô hình ngôn ngữ lớn (LLM), mô hình đa phương thức và máy biến áp khuếch tán, để xây dựng một tập hợp rộng các ứng dụng AI tổng hợp thế hệ tiếp theo.

Trainium3

Trn3 UltraServer, được cung cấp bởi chip AI thế hệ thứ tư của chúng tôi, AWS Trainium3 — chip AI 3nm đầu tiên của AWS — được xây dựng nhằm cung cấp tính kinh tế token tốt nhất cho các ứng dụng tạo tác nhân, lý luận và video thế hệ tiếp theo. Trn3 UltraServer cung cấp hiệu suất cao hơn tới 4,4 lần, băng thông bộ nhớ cao hơn 3,9 lần và hiệu quả năng lượng tốt hơn 4 lần so với Trn2 UltraServer, cung cấp hiệu suất giá tốt nhất để đào tạo và phục vụ các mô hình quy mô tiên tiến, bao gồm học tăng cường, kết hợp các chuyên gia (MoE), lý luận và kiến trúc ngữ cảnh dài.

Mỗi chip AWS Trainium3 cung cấp 2,52 petaflops (PFLOPS) tính toán FP8, tăng dung lượng lưu trữ lên 1,5 lần và băng thông lên 1,7 lần so với bộ nhớ Trainium2 lên 144 GB bộ nhớ HBM3e và 4,9 TB/giây băng thông bộ nhớ, Trainium3 được thiết kế cho cả khối lượng công việc dày đặc và song song với các loại dữ liệu nâng cao (MXFP8 và MXFP4) và cải thiện bộ nhớ thành công việc cân bằng cho các nhiệm vụ thời gian thực, đa phương thức và lý luận.

Trên Amazon Bedrock, Trainium3 là bộ tăng tốc nhanh nhất, mang lại hiệu suất nhanh hơn tới 3 lần so với Trainium2 và hiệu suất năng lượng tốt hơn 3 lần so với bất kỳ bộ tăng tốc nào khác trên dịch vụ. Trong các thử nghiệm phục vụ quy mô lớn (ví dụ: GPT-OSS), Trn3 cung cấp mã thông báo đầu ra cao hơn 5 lần trên mỗi megawatt so với Trn2 với độ trễ tương tự trên mỗi người dùng, cho phép suy luận thông lượng bền vững hơn, cao hơn trên quy mô lớn.

Được xây dựng cho các nhà phát triển

Các phiên bản dựa trên Trainium3 mới được xây dựng cho các nhà nghiên cứu AI và được hỗ trợ bởi SDK Neuron AWS, để mở khóa
hiệu suất đột phá.

Với tích hợp PyTorch gốc, các nhà phát triển có thể đào tạo và triển khai mà không cần thay đổi một dòng mã nào. Dành cho AI
kỹ sư hiệu suất, chúng tôi đã cho phép truy cập sâu hơn vào Trainium3, để các nhà phát triển có thể tinh chỉnh hiệu suất,
tùy chỉnh hạt nhân và đẩy mô hình của bạn xa hơn nữa. Bởi vì sự đổi mới phát triển mạnh mẽ sự cởi mở, chúng tôi cam kết
để tương tác với các nhà phát triển của chúng tôi thông qua các công cụ và tài nguyên nguồn mở.

Để tìm hiểu thêm, hãy truy cập phiên bản Amazon EC2 Trn3, khám phá AWS Neuron SDK hoặc đăng ký quyền truy cập xem trước.

Lợi ích

Trn3 UltraServer có những cải tiến mới nhất trong công nghệ UltraServer mở rộng, với NeuronSwitch-v1 cho
các tập thể tất cả nhanh hơn trên tối đa 144 chip Trainium3. Tóm lại, một Trn3 UltraServer duy nhất cung cấp
lên đến 20,7 TB HBM3e, 706 TB/s băng thông bộ nhớ và 362 FP8 PFLOP, cung cấp nhiều hơn tới 4,4 lần
hiệu suất và hiệu suất năng lượng tốt hơn 4 lần so với Trn2 UltraServers. Trn3 cung cấp cao nhất
hiệu suất với chi phí thấp nhất cho đào tạo và suy luận với các mô hình MoE và kiểu lập luận tham số 1T+mới nhất, đồng thời thúc đẩy thông lượng cao hơn đáng kể cho việc phục vụ GPT-OSS trên quy mô lớn so với Trainium2-
các trường hợp dựa trên.

Trn2 UltraServers vẫn là một lựa chọn hiệu suất cao, hiệu quả về chi phí để đào tạo AI tổng hợp và suy luận
mô hình lên đến tham số 1T. Phiên bản Trn2 có tối đa 16 chip Trainium2 và tính năng Trn2 UltraServer
lên đến 64 chip Trainium2 được kết nối với NeuronLink, một kết nối chip-to-chip độc quyền.

Phiên bản Trn1 có tối đa 16 chip Trainium và cung cấp tối đa 3 FP8 PFLOP, 512 GB HBM với 9,8 TB/giây
băng thông bộ nhớ và mạng EFA lên đến 1,6 Tbps.

Được xây dựng để nghiên cứu và thử nghiệm

AWS Neuron SDK giúp bạn trích xuất hiệu suất đầy đủ từ các phiên bản Trn3, Trn2 và Trn1 để bạn có thể tập trung vào việc xây dựng và triển khai các mô hình cũng như đẩy nhanh thời gian đưa ra thị trường. AWS Neuron tích hợp nguyên bản với, PyTorch Jax và các thư viện thiết yếu như Hugging Face, VLLM, PyTorch Lightning và các thư viện khác. Nó tối ưu hóa các mô hình ngay lập tức để đào tạo và suy luận phân tán, đồng thời cung cấp thông tin chi tiết sâu sắc để lập hồ sơ và gỡ lỗi. AWS Neuron tích hợp với các dịch vụ như Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster và AWS Batch, cũng như các dịch vụ của bên thứ ba như Ray (Anyscale), Domino Data Lab và Datadog.

Để mang lại hiệu suất cao trong khi đáp ứng các mục tiêu chính xác, AWS Trainium hỗ trợ một loạt các độ chính xác hỗn hợp
các loại dữ liệu như BF16, FP16, FP8, MXFP8 vàMXFP4. Để hỗ trợ tốc độ đổi mới nhanh trong AI tạo ra,
Trainium2 và Trainium3 có tính năng tối ưu hóa phần cứng cho độ thưa thớt 4x (16:4), tỷ lệ vi mô, ngẫu nhiên
làm tròn và động cơ tập thể chuyên dụng.

Neuron cho phép các nhà phát triển tối ưu hóa khối lượng công việc của họ bằng cách sử dụng Giao diện nhân Neuron (NKI) để phát triển hạt nhân. NKI tiết lộ Trainium ISA đầy đủ, cho phép kiểm soát hoàn toàn lập trình cấp hướng dẫn, phân bổ bộ nhớ và lập lịch thực thi. Cùng với việc xây dựng Hạt nhân của riêng bạn, các nhà phát triển có thể sử dụng Thư viện Kernel Neuron, là nguồn mở, sẵn sàng triển khai các hạt nhân được tối ưu hóa. Và cuối cùng, Neuron Explore cung cấp khả năng hiển thị ngăn xếp đầy đủ, kết nối với mã của nhà phát triển đến các công cụ trong phần cứng.

Khách hàng

Các khách hàng như Databricks, Ricoh, Karakuri, SplashMusic và những khách hàng khác, đang nhận ra hiệu suất và lợi ích chi phí của phiên bản Trn1.

Các khách hàng bao gồm Anthropic, Databricks, Poolside, Ricoh và NinjaTech AI đang nhận ra lợi ích đáng kể về hiệu suất và chi phí trên các phiên bản Trn1 và Trn2.

Những người đầu tiên áp dụng Trn3 đang đạt được mức hiệu quả và khả năng mở rộng mới cho thế hệ tiếp theo của các mô hình AI tạo ra quy mô lớn.

Chinh phục hiệu năng, chi phí và quy mô của AI

AWS Trainium2 cho hiệu suất AI đột phá

Câu chuyện khách hàng về chip AI của AWS

Tài nguyên

Blog

Đào tạo và triển khai các mô hình tiết kiệm chi phí với AWS Trainium3 (sắp ra mắt)

Tìm hiểu thêm

Blog

Tinh chỉnh và triển khai một cách tiết kiệm chi phí các mô hình Llama 2 trong Amazon SageMaker JumpStart với AWS Inferentia và AWS Trainium

Đọc blog

Blog

Đào tạo Llama2 bằng AWS Trainium trên Dịch vụ Kubernetes linh hoạt Amazon (Amazon EKS)

Đọc blog

Blog

Tiết kiệm và chính xác: Đào tạo một cách hiệu quả về chi phí các mô hình GPT NeoX và Pythia với AWS Trainium

Đọc blog

Blog

Cách Amazon Search M5 tiết kiệm 30% chi phí đào tạo mô hình ngôn ngữ lớn (LLM) nhờ sử dụng AWS Trainium

Đọc blog

Blog

Tinh chỉnh LLaMA 2 một cách nhanh chóng và tiết kiệm chi phí với AWS Trainium

Đọc blog

Blog

Điều chỉnh quy mô khối lượng công việc ML trên Amazon ECS chạy trên nền các phiên bản AWS Trainium

Đọc blog

Tài nguyên khác

Sử dụng AWS Neuron và bắt đầu sử dụng AWS Trainium từ trong TensorFlow, PyTorch hoặc MXNet

Tìm hiểu thêm

Bắt đầu sử dụng Trainium

Bảng điều khiển

Bắt đầu xây dựng trong bảng điều khiển

Đăng nhập

Bậc miễn phí

Mẫu đào tạo và hướng dẫn (Trn1 và Trn1n)

Tìm hiểu thêm

AWS Trainium

Tại sao nên sử dụng Trainium?

Dòng AWS Trainium

Đào tạo1

Trainium2

Trainium3

Được xây dựng cho các nhà phát triển

Lợi ích

Khách hàng

Chinh phục hiệu năng, chi phí và quy mô của AI

AWS Trainium2 cho hiệu suất AI đột phá

Câu chuyện khách hàng về chip AI của AWS

Tài nguyên

Đào tạo và triển khai các mô hình tiết kiệm chi phí với AWS Trainium3 (sắp ra mắt)

Tinh chỉnh và triển khai một cách tiết kiệm chi phí các mô hình Llama 2 trong Amazon SageMaker JumpStart với AWS Inferentia và AWS Trainium

Đào tạo Llama2 bằng AWS Trainium trên Dịch vụ Kubernetes linh hoạt Amazon (Amazon EKS)

Tiết kiệm và chính xác: Đào tạo một cách hiệu quả về chi phí các mô hình GPT NeoX và Pythia với AWS Trainium

Cách Amazon Search M5 tiết kiệm 30% chi phí đào tạo mô hình ngôn ngữ lớn (LLM) nhờ sử dụng AWS Trainium

Tinh chỉnh LLaMA 2 một cách nhanh chóng và tiết kiệm chi phí với AWS Trainium

Điều chỉnh quy mô khối lượng công việc ML trên Amazon ECS chạy trên nền các phiên bản AWS Trainium

Sử dụng AWS Neuron và bắt đầu sử dụng AWS Trainium từ trong TensorFlow, PyTorch hoặc MXNet

Bắt đầu sử dụng Trainium

Bắt đầu xây dựng trong bảng điều khiển

Mẫu đào tạo và hướng dẫn (Trn1 và Trn1n)

Tìm hiểu

Tài nguyên

Nhà phát triển

Trợ giúp

AWS Trainium

Tại sao nên sử dụng Trainium?

Dòng AWS Trainium

Đào tạo1

Trainium2

Trainium3

Được xây dựng cho các nhà phát triển

Lợi ích

AI tạo sinh hiệu suất cao, tiết kiệm chi phí

Hỗ trợ theo mặc định cho các khung và thư viện ML

Tối ưu hóa AI tiên tiến

Xây dựng và tối ưu hóa trên Trainium

Khách hàng

Chinh phục hiệu năng, chi phí và quy mô của AI

AWS Trainium2 cho hiệu suất AI đột phá

Câu chuyện khách hàng về chip AI của AWS

Tài nguyên

Đào tạo và triển khai các mô hình tiết kiệm chi phí với AWS Trainium3 (sắp ra mắt)

Tinh chỉnh và triển khai một cách tiết kiệm chi phí các mô hình Llama 2 trong Amazon SageMaker JumpStart với AWS Inferentia và AWS Trainium

Đào tạo Llama2 bằng AWS Trainium trên Dịch vụ Kubernetes linh hoạt Amazon (Amazon EKS)

Tiết kiệm và chính xác: Đào tạo một cách hiệu quả về chi phí các mô hình GPT NeoX và Pythia với AWS Trainium

Cách Amazon Search M5 tiết kiệm 30% chi phí đào tạo mô hình ngôn ngữ lớn (LLM) nhờ sử dụng AWS Trainium

Tinh chỉnh LLaMA 2 một cách nhanh chóng và tiết kiệm chi phí với AWS Trainium

Điều chỉnh quy mô khối lượng công việc ML trên Amazon ECS chạy trên nền các phiên bản AWS Trainium

Sử dụng AWS Neuron và bắt đầu sử dụng AWS Trainium từ trong TensorFlow, PyTorch hoặc MXNet

Bắt đầu sử dụng Trainium

Bắt đầu xây dựng trong bảng điều khiển

Mẫu đào tạo và hướng dẫn (Trn1 và Trn1n)

Tìm hiểu

Tài nguyên

Nhà phát triển

Trợ giúp