Lewati ke Konten Utama

Chip AI AWS

AWS Trainium

Trainium3, chip AWS AI 3nm pertama kami yang dirancang khusus untuk memberikan ekonomi token terbaik untuk aplikasi generasi agen, penalaran, dan pembuatan video generasi berikutnya

Mengapa memilih Trainium?

AWS Trainium adalah rangkaian akselerator AI yang dibuat khusus — Trn1, Trn2, dan Trn3 — yang dirancang untuk memberikan kinerja yang dapat diskalakan dan efisiensi biaya untuk pelatihan dan inferensi di berbagai beban kerja AI generatif

Keluarga AWS Trainium

Trainium1

Chip AWS Trainium generasi pertama mendukung instans Trn1 Amazon Elastic Compute Cloud (Amazon EC2), yang memiliki biaya pelatihan hingga 50% lebih rendah daripada instans Amazon EC2 yang sebanding. Banyak pelanggan, termasuk Ricoh, Karakuri, SplashMusic, dan Arcee AI, menyadari manfaat kinerja dan biaya instans Trn1.

Trainium2

Chip AWS Trainium2 memberikan performa hingga 4x dari Trainium generasi pertama. Instans Amazon EC2 Trn2 berbasis Trainium2 dan Trn2 UltraServer, dibuat khusus untuk AI generatif dan menawarkan kinerja harga 30-40% lebih baik daripada inst ans EC2 P5e dan P5en berbasis GPU. Instans Trn2 menampilkan hingga 16 chip Trainium2, dan Trn2 UltraServer menampilkan hingga 64 chip Trainium2 yang terhubung dengan NeuronLink, interkoneksi chip-ke-chip milik kami. Anda dapat menggunakan instance Trn2 dan UltraServer untuk melatih dan menerapkan model yang paling menuntut termasuk model bahasa besar (LLM), model multi-modal, dan transformator difusi, untuk membangun serangkaian aplikasi AI generatif generasi berikutnya yang luas.

Trainium3

Trn3 UltraServer, didukung oleh chip AI generasi keempat kami, AWS Trainium3—chip AI 3 nm pertama AWS—dirancang khusus untuk memberikan ekonomi token terbaik untuk aplikasi agen, penalaran, dan pembuatan video generasi berikutnya. Trn3 UltraServer memberikan kinerja hingga 4,4× lebih tinggi, bandwidth memori 3,9× lebih tinggi, dan efisiensi energi lebih dari 4× lebih baik dibandingkan dengan Trn2 UltraServer, memberikan kinerja harga terbaik untuk pelatihan dan melayani model skala terdepan, termasuk pembelajaran penguatan, Mixture-of-Experts (MoE), penalaran, dan arsitektur konteks panjang.

Setiap chip AWS Trainium3 menyediakan 2,52 petaflops (PFLOPS) komputasi FP8, meningkatkan kapasitas memori sebesar 1,5x dan bandwidth sebesar 1,7x melalui Trainium2 hingga 144 GB memori HBM3e, dan bandwidth memori 4,9 TB/dtk, Trainium3 dirancang untuk beban kerja padat dan paralel ahli dengan tipe data lanjutan (MXFP8 dan MXFP4) dan peningkatan memory-to-comp4 keseimbangan untuk tugas real-time, multimodal, dan penalaran.

Di Amazon Bedrock, Trainium3 adalah akselerator tercepat, memberikan kinerja hingga 3 kali lebih cepat daripada Trainium2 dan efisiensi daya 3 kali lebih baik daripada akselerator lainnya di layanan. Dalam pengujian penyajian skala besar (misalnya, GPT-OSS), Trn3 memberikan token keluaran lebih dari 5× lebih tinggi per megawatt daripada Trn2 pada latensi yang sama per pengguna, memungkinkan inferensi throughput yang lebih berkelanjutan dan lebih tinggi dalam skala besar.

Dibuat untuk Pengembang

Instans berbasis Trainium3 baru dibuat untuk peneliti AI dan didukung oleh AWS Neuron SDK, untuk membuka kunci
kinerja terobosan. 

Dengan integrasi PyTorch asli, pengembang dapat melatih dan menerapkan tanpa mengubah satu baris kode pun. Untuk AI
insinyur kinerja, kami telah mengaktifkan akses yang lebih dalam ke Trainium3, sehingga pengembang dapat menyempurnakan kinerja,
sesuaikan kernel, dan dorong model Anda lebih jauh. Karena inovasi mendorong keterbukaan, kami berkomitmen
untuk terlibat dengan pengembang kami melalui alat dan sumber daya opensource. 

Untuk mempelajari selengkapnya, kunjungi instans Amazon EC2 Trn3, jelajahi AWS Neuron SDK, atau daftar untuk akses pratinjau.

Keuntungan

Trn3 UltraServer menampilkan inovasi terbaru dalam teknologi UltraServer yang ditingkatkan, dengan NeuronSwitch-v1 untuk
kolektif all-to-all yang lebih cepat hingga 144 chip Trainium3. Secara agregat, satu Trn3 UltraServer menyediakan
hingga 20,7 TB HBM3e, bandwidth memori 706 TB/dtk, dan 362 FP8 PFLOP, menghasilkan hingga 4,4× lebih
kinerja dan efisiensi energi lebih dari 4 kali lebih baik daripada Trn2 UltraServer. Trn3 memberikan yang tertinggi
kinerja dengan biaya terendah untuk pelatihan dan inferensi dengan model MoE dan tipe resoningtype parameter 1T+ terbaru, dan mendorong throughput yang jauh lebih tinggi untuk melayani GPT-OSS dalam skala besar dibandingkan dengan Trainium2-
contoh berbasis.

Trn2 UltraServer tetap menjadi pilihan berkinerja tinggi dan hemat biaya untuk pelatihan AI generatif dan inferensi
model hingga parameter 1T. Instans Trn2 menampilkan hingga 16 chip Trainium2, dan fitur Trn2 UltraServer
hingga 64 chip Trainium2 terhubung dengan NeuronLink, interkoneksi chip-ke-chip eksklusif.

Instans Trn1 menampilkan hingga 16 chip Trainium dan memberikan hingga 3 FP8 PFLOP, 512 GB HBM dengan 9,8 TB/dtk
bandwidth memori, dan jaringan EFA hingga 1,6 Tbps.

Dibangun untuk Penelitian dan Eksperimen

AWS Neuron SDK membantu Anda mengekstrak kinerja penuh dari instans Trn3, Trn2, dan Trn1 sehingga Anda dapat fokus pada pembuatan dan penerapan model serta mempercepat waktu Anda ke pasar. AWS Neuron terintegrasi secara asli dengan, PyTorch Jax, dan perpustakaan penting seperti Hugging Face, VLLM, PyTorch Lightning, dan lainnya. Ini mengoptimalkan model secara langsung untuk pelatihan dan inferensi terdistribusi, sekaligus memberikan wawasan mendalam untuk pembuatan profil dan debugging. AWS Neuron terintegrasi dengan layanan seperti Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster, dan AWS Batch, serta layanan pihak ketiga seperti Ray (Anyscale), Domino Data Lab, dan Datadog.

Untuk memberikan kinerja tinggi sekaligus memenuhi tujuan akurasi, AWS Trainium mendukung berbagai presisi campuran
tipe data seperti BF16, FP16, FP8, MXFP8 danMXFP4. Untuk mendukung laju inovasi yang cepat dalam AI generatif,
Trainium2 dan Trainium3 menampilkan pengoptimalan perangkat keras untuk 4x sparsity (16:4), penskalaan mikro, stokastik
pembulatan, dan mesin kolektif khusus.

Neuron memungkinkan pengembang untuk mengoptimalkan beban kerja mereka menggunakan Neuron Kernel Interface (NKI) untuk pengembangan kernel. NKI mengekspos Trainium ISA lengkap, memungkinkan kontrol penuh atas pemrograman tingkat instruksi, alokasi memori, dan penjadwalan eksekusi. Seiring dengan membangun Kernel Anda sendiri, pengembang dapat menggunakan Perpustakaan Kernel Neuron, yang merupakan sumber terbuka, siap untuk menerapkan kernel yang dioptimalkan. Dan terakhir, Neuron Explore menyediakan visibilitas tumpukan penuh, menghubungkan ke kode pengembang hingga mesin di perangkat keras.

Pelanggan

Pelanggan seperti Databricks, Ricoh, Karakuri, SplashMusic dan lainnya, menyadari kinerja dan manfaat biaya instans Trn1.

Pelanggan termasuk Anthropic, Databricks, Poolside, Ricoh, dan NinjaTech AI menyadari kinerja dan manfaat biaya yang signifikan pada instans Trn1 dan Trn2.

Pengadopsi awal Trn3 mencapai tingkat efisiensi dan skalabilitas baru untuk generasi berikutnya dari model AI generatif skala besar.

Missing alt text value

Taklukkan performa, biaya, dan skala AI

AWS Trainium2 untuk performa AI terobosan

Kisah pelanggan chip AI AWS