Mengumumkan Amazon EC2 Trn3 UltraServer untuk pelatihan AI generatif yang lebih cepat dan berbiaya lebih rendah
AWS mengumumkan ketersediaan umum Amazon Elastic Compute Cloud (Amazon EC2) Trn3 UltraServer yang didukung oleh chip AI generasi keempat Trainium3, chip AWS AI 3nm pertama kami yang dirancang khusus untuk memberikan ekonomi token terbaik untuk aplikasi agen, penalaran, dan pembuatan video generasi berikutnya.
Setiap chip AWS Trainium3 menyediakan 2,52 petaflops (PFLOPS) komputasi FP8, meningkatkan kapasitas memori sebesar 1,5x dan bandwidth sebesar 1,7x di atas Trainium2 hingga 144 GB memori HBM3e, dan bandwidth memori 4,9 TB/dtk. Trainium3 dirancang untuk beban kerja padat dan paralel ahli dengan tipe data lanjutan (MXFP8 dan MXFP4) dan keseimbangan memory-to-compute yang ditingkatkan untuk tugas real-time, multimodal, dan penalaran.
Trn3 UltraServer dapat menskalakan hingga 144 chip Trainium3 (total 362 FP8 PFLOP) dan tersedia di EC2 UltraClusters 3.0 untuk skala hingga ratusan ribu chip. Trn3 UltraServer yang dikonfigurasi sepenuhnya menghasilkan hingga 20,7 TB HBM3e dan 706 Tb/s bandwidth memori agregat. Trn3 UltraServer generasi berikutnya, menampilkan NeuronSwitch-v1, kain all-to-all yang menggandakan bandwidth interkoneksi interchip melalui Trn2 UltraServer.
Trn3 memberikan performa hingga 4,4x lebih tinggi, bandwidth memori 3,9x lebih tinggi, dan performa 4x lebih baik per watt dibandingkan dengan Trn2 UltraServer kami, memberikan performa harga terbaik untuk pelatihan dan melayani model skala terdepan, termasuk pembelajaran penguatan, Mixture-of-Experts (MoE), penalaran, dan arsitektur konteks panjang. Di Amazon Bedrock, Trainium3 adalah akselerator tercepat kami, memberikan performa hingga 3 kali lebih cepat daripada Trainium2 dengan token keluaran lebih dari 5× lebih tinggi per megawatt pada latensi yang sama per pengguna.
UltraServer Trn3 baru dibuat untuk peneliti AI dan didukung oleh AWS Neuron SDK, untuk membuka performa terobosan. Dengan integrasi PyTorch asli, pengembang dapat melatih dan men-deploy tanpa mengubah satu baris kode model. Untuk teknisi performa AI, kami telah mengaktifkan akses yang lebih dalam ke Trainium3 sehingga mereka dapat menyempurnakan performa, menyesuaikan kernel, dan mendorong model lebih jauh lagi. Karena inovasi berkembang pada keterbukaan, kami berkomitmen untuk terlibat dengan pengembang kami melalui alat dan sumber daya sumber terbuka.