Instans Trn1 Amazon EC2
Pelatihan model AI generatif beperforma tinggi dan hemat biaya
Instans Trn1 Amazon Elastic Compute Cloud (EC2), yang didukung oleh akselerator AWS Trainium, dibuat khusus untuk pelatihan deep learning (DL) beperforma tinggi untuk model AI generatif, termasuk model bahasa besar (LLM) dan model difusi laten. Instans Trn1 menawarkan penghematan biaya pelatihan hingga 50% dibandingkan instans Amazon EC2 lainnya yang sebanding. Anda dapat menggunakan instans Trn1 untuk melatih 100B+ DL parameter dan model AI generatif di berbagai rangkaian aplikasi, seperti ringkasan teks, pembuatan kode, penjawab pertanyaan, pembuatan citra dan video, rekomendasi, dan deteksi penipuan.
SDK AWS Neuron membantu developer melatih model di AWS Trainium (dan melakukan deployment model di akselerator AWS Inferentia). SDK AWS Neuron terintegrasi secara native dengan kerangka kerja, seperti PyTorch dan TensorFlow agar Anda dapat terus menggunakan kode dan alur kerja yang ada untuk melatih model di instans Trn1. Untuk mempelajari tentang dukungan Neuron saat ini untuk kerangka kerja dan pustaka machine learning (ML), arsitektur model, dan optimisasi perangkat keras, lihat dokumentasi Neuron.
Instans Trn1n sekarang tersedia
Instans Trn1n menggandakan bandwidth jaringan (dibandingkan dengan instans Trn1) menjadi 1.600 Gbps Elastic Fabric Adapter (EFAv2). Peningkatan bandwidth menghasilkan waktu pelatihan hingga 20% lebih cepat dibandingkan dengan Trn1 untuk melatih model AI generatif intensif jaringan seperti model bahasa besar (LLM) dan mixture of expert (MoE).
Keuntungan
Kurangi waktu pelatihan untuk lebih dari 100 miliar model parameter
Instans Trn1 dibuat khusus untuk DL beperforma tinggi dan mengurangi waktu pelatihan dari hitungan bulan ke minggu, atau bahkan hari. Dengan waktu pelatihan yang berkurang, Anda dapat mengiterasi lebih cepat, membangun lebih banyak model inovatif, dan meningkatkan produktivitas. Instans Trn1n memberikan waktu hingga 20% lebih cepat dibandingkan instans Trn1 untuk model yang mendapat manfaat dari peningkatan bandwidth jaringan.
Turunkan biaya penyesuaian dan pra-pelatihan Anda
Instans Trn1 memberikan performa tinggi sekaligus menawarkan penghematan biaya hingga 50% dibandingkan instans Amazon EC2 lainnya yang sebanding.
Gunakan kerangka kerja dan pustaka ML yang sudah ada
Gunakan SDK AWS Neuron untuk mengekstrak performa penuh instans Trn1. Dengan Neuron, Anda dapat menggunakan kerangka kerja ML yang populer, seperti PyTorch dan TensorFlow serta terus menggunakan kode dan alur kerja yang ada untuk melatih model di instans Trn1. Untuk memulai instans Trn1 dengan cepat, lihat model populer contoh di dokumentasi Neuron.
Menaikkan skala hingga 6 exaflop dengan UltraClusters EC2
Instans Trn1 mendukung hingga 800 Gbps bandwidth jaringan Elastic Fabric Adapter (EFAv2) generasi kedua. Instans Trn1n mendukung bandwidth jaringan EFAv2 hingga 1.600 Gbps untuk memberikan performa yang lebih tinggi untuk model intensif jaringan. Kedua instans dilakukan deployment di UltraClusters EC2 yang memungkinkan kenaikan skala hingga 30.000 akselerator Trainium, yang saling terhubung dengan jaringan skala petabita tanpa pemblokiran untuk menyediakan 6 exaflop performa komputasi.
Cara kerjanya
-
Menggunakan AWS DLAMI
-
Menggunakan Amazon EKS
-
Menggunakan Amazon ECS
-
Menggunakan Amazon SageMaker
-
Menggunakan AWS DLAMI
-
Menggunakan Amazon EKS
-
Menggunakan Amazon ECS
-
Menggunakan Amazon SageMaker
Fitur
Hingga 3 petaflop dengan AWS Trainium
Instans Trn1 didukung oleh hingga 16 akselerator AWS Trainium yang dibuat khusus untuk mempercepat pelatihan DL dan menghasilkan daya komputasi FP16/BF16 hingga 3 petaflop. Setiap akselerator mencakup dua NeuronCore generasi kedua.
Memori akselerator bandwidth tinggi hingga 512 GB
Untuk mendukung data yang efisien dan paralelisme model, setiap instans Trn1 memiliki 512 GB memori akselerator bersama (HBM) dengan total bandwidth memori 9,8 TB/dtk.
Jaringan dan penyimpanan performa tinggi
Untuk mendukung pelatihan model intensif jaringan, seperti Mixture of Experts (MoE) dan Generative Pre-Training Transformers (GPT), setiap instans Trn1n memberikan bandwidth jaringan EFAv2 hingga 1.600 Gbps. Setiap instans Trn1 mendukung hingga 800 Gbps bandwidth EFAv2. EFAv2 mempercepat pelatihan terdistribusi dengan memberikan peningkatan hingga 50% dalam performa komunikasi kolektif dibandingkan EFA generasi pertama. Instans ini juga mendukung hingga 80 Gbps bandwidth Amazon Elastic Block Store (EBS) dan hingga 8 TB penyimpanan solid state drive (SSD) NVMe lokal untuk akses beban kerja cepat ke set data besar.
Interkoneksi NeuronLink
Untuk konektivitas cepat antara akselerator dan komunikasi kolektif yang efisien, instans Trn1 mendukung NeuronLink hingga 768 GB/dtk, interkoneksi tanpa pemblokiran berkecepatan tinggi.
Dioptimalkan untuk tipe data baru
Untuk memberikan performa tinggi sembari memenuhi sasaran akurasi, instans Trn1 dioptimalkan untuk tipe data FP32, TF32, BF16, FP16, UINT8, dan FP8 (cFP8) baru yang dapat dikonfigurasi.
Optimisasi DL mutakhir
Untuk mendukung laju inovasi DL dan AI generatif, instans Trn1 memiliki beberapa inovasi yang membuatnya fleksibel dan dapat diperpanjang untuk melatih model DL yang terus berkembang. Instans Trn1 memiliki optimisasi perangkat keras dan dukungan perangkat lunak untuk bentuk input dinamis. Untuk memungkinkan dukungan bagi operator baru di masa depan, instans Trn1 mendukung operator kustom yang ditulis dalam C++. Instans Trn1 juga mendukung pembulatan stokastik, metode pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.
Pelanggan

“Di HeliXon, kami membangun solusi AI generasi berikutnya untuk terapi berbasis protein. Kami bertujuan untuk mengembangkan alat AI yang memberdayakan ilmuwan untuk menguraikan fungsi dan interaksi protein, menyelidiki set data genomika skala besar untuk identifikasi target, serta mendesain terapi seperti antibodi dan terapi sel. Saat ini, kami menggunakan pustaka distribusi pelatihan seperti FSDP untuk memparalelkan pelatihan model di banyak server berbasis GPU, tetapi ini masih membutuhkan waktu berminggu-minggu bagi kami untuk melatih satu model. Kami sangat senang dapat memanfaatkan instans Amazon EC2 Trn1, yang menghadirkan bandwith jaringan tertinggi (800 Gbps) yang tersedia di AWS untuk meningkatkan performa tugas pelatihan terdistribusi kami dan mengurangi waktu pelatihan model, sekaligus mengurangi biaya pelatihan kami."
Jian Peng, CEO, Helixon

Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil.
“Kami meluncurkan layanan chatbot AI skala besar di instans Amazon EC2 Inf1 dan mengurangi latensi inferensi sebesar 97% dibandingkan instans berbasis GPU sejenisnya sekaligus mengurangi biaya. Saat kami meneruskan menyetel model NLP yang disesuaikan secara berkala, mengurangi waktu dan biaya pelatihan model juga penting. Berdasarkan pengalaman kami dari migrasi beban kerja inferensi yang sukses di instans Inf1 dan pekerjaan awal kami di instans EC2 Trn1 berbasis AWS Trainium, kami mengharapkan instans Trn1 akan menyediakan nilai tambah dalam meningkatkan performa dan biaya ML menyeluruh.”
Takuya Nakade, CTO, Money Forward, Inc.

Magic adalah perusahaan produk dan riset terintegrasi yang mengembangkan AI yang terasa seperti kolega untuk menjadikan dunia lebih produktif.
“Melatih model berbasis Transformer autoregresif besar adalah komponen penting dari pekerjaan kami. Instans Trn1 yang didukung AWS Trainium didesain khusus untuk beban kerja ini, menawarkan skalabilitas yang hampir tak terbatas, jaringan antar-simpul cepat, serta dukungan lanjutan untuk tipe data 16 dan 18 bit. Instans Trn1 akan membantu kami melatih model besar lebih cepat, dengan biaya lebih rendah. Kami sangat bersemangat dengan dukungan native untuk pembulatan stokastik BF16 di Trainium, meningkatkan performa sekaligus akurasi numerik sama seperti presisi penuh.”
Eric Steinberger, Cofounder dan CEO, Magic

CACTUS memiliki rangkaian produk dan solusi untuk peneliti, dan organisasi yang meningkatkan bagaimana riset mendapat dana, diterbitkan, dikomunikasikan, serta ditemukan.
“Di Lab Cactus, kami memanfaatkan kekuatan AI, dengan riset yang berfokus pada pemrosesan bahasa alami, pemeringkatan dan rekomendasi, AI percakapan, model bahasa besar, penglihatan komputer, AR/VR, dan XAI. Selaras dengan upaya kami untuk memungkinkan pelatihan model machine learning yang lebih cepat serta memungkinkan peneliti kami menjalankan lebih banyak eksperimen sekaligus mengelola biaya infrastruktur, kami sangat senang dapat mengevaluasi AWS Trainium. Fitur luar biasa dari AWS Trainium seperti optimisasi XLA, pelatihan paralel data multi-pekerja, dan caching grafis sangat berguna bagi kami untuk mengurangi waktu pelatihan serta membantu kami menjalankan lebih banyak eksperimen secara lebih cepat dan lebih murah.”
Nishchay Shah, CTO dan Head of Emerging Products, Cactus Communications

Watashiha menawarkan layanan chatbot AI yang inovatif dan interaktif, “OGIRI AI,” yang menggabungkan humor untuk memberikan jawaban lucu secara langsung untuk sebuah pertanyaan.
“Kami menggunakan Model Bahasa Besar untuk menggabungkan humor dan menawarkan pengalaman yang lebih relevan dan percakapan kepada pelanggan kami di layanan AI kami. Hal ini mengharuskan kami untuk sering melatih dan menyempurnakan model ini. Kami melatih sebelumnya model bahasa Jepang berbasis GPT di instans Trn1.32xlarge EC2, memanfaatkan tensor dan paralelisme data. Pelatihan ini diselesaikan dalam waktu 28 hari dengan pengurangan biaya 33% dibandingkan infrastruktur berbasis GPU kami sebelumnya. Karena model kami dengan cepat terus tumbuh dalam kompleksitas, kami menantikan instans Trn1n yang memiliki dua kali lipat bandwidth jaringan Trn1 untuk mempercepat pelatihan model yang lebih besar.”
Yohei Kobashi, CTO, Watashiha, K.K.
Partner

“Di PyTorch, kami mempercepat machine learning dari pembuatan prototipe riset ke siap produksi untuk pelanggan. Kami telah bekerja sama sangat erat dengan tim AWS untuk menyediakan dukungan PyTorch native untuk instans Amazon EC2 Trn1 yang didukung AWS Trainium yang dibangun khusus untuk melatih model deep learning. Developer yang membangun model PyTorch dapat memulai pelatihan di instans Trn1 dengan perubahan kode minimal. Selain itu, kami telah bekerja sama dengan komunitas OpenXLA untuk mengaktifkan pustaka Terdistribusi PyTorch untuk migrasi model mudah dari instans berbasis GPU ke instans Trn1. Kami sangat senang dengan inovasi yang dihadirkan instans Trn1 ke komunitas PyTorch, termasuk tipe data yang lebih efisien, bentuk dinamis, operator kustom, pembulatan stokastik perangkat keras yang dioptimalkan, dan mode debug yang disukai. Semua ini membuat Trn1 sangat cocok untuk diadopsi secara luas oleh developer PyTorch dan kami menantikan kontribusi bersama dengan PyTorch pada masa mendatang untuk makin mengoptimalkan performa pelatihan."
Geeta Chauhan, Applied AI, Engineering Manager, PyTorch

"Misi Hugging Face adalah mendemokratisasikan ML yang baik untuk membantu developer ML di seluruh dunia memecahkan masalah dunia nyata. Kunci untuk mewujudkan hal itu adalah memastikan model terbaru dan terhebat agar berjalan secepat dan seefisien mungkin pada akselerator ML terbaik di cloud. Kami sangat senang dengan potensi Inferentia2 untuk menjadi cara standar baru untuk melakukan deployment model AI generatif dalam skala besar. Dengan Inf1, kami melihat biaya hingga 70% lebih rendah daripada instans berbasis GPU tradisional, dan dengan Inf2, kami telah melihat latensi hingga 8x lebih rendah untuk transformer yang mirip BERT dibandingkan dengan Inferentia1. Dengan Inferentia2, komunitas kami akan dapat dengan mudah menskalakan performa ini ke LLM pada skala parameter 100B+, dan juga model difusi dan penglihatan komputer terbaru."
Layanan Amazon yang menggunakan instans Trn1
1.1d9aadc21e2c942dc72b3d1c0b2d4ec9139595ad.png)
Mesin pencarian produk Amazon mengindeks miliaran produk, melayani miliaran kueri pelanggan setiap harinya, dan merupakan salah satu layanan yang paling banyak digunakan di dunia.
“Kami melatih large language models (model bahasa besar/LLM) yang multi-modal (teks + gambar), multibahasa, multi- locale, dilatih sebelumnya mengerjakan beberapa tugas, dan menjangkau beberapa entitas (produk, kueri, merek, ulasan, dll.) untuk meningkatkan pengalaman belanja pelanggan. Instans Trn1 menyediakan cara yang lebih berkelanjutan untuk melatih LLM dengan menghadirkan performa/watt terbaik dibandingkan solusi machine learning terakselerasi lainnya dan menawarkan performa tinggi dengan biaya terendah. Kami berencana untuk mengeksplorasi tipe data FP8 baru yang dapat dikonfigurasi, dan pembulatan stokastik yang diakselerasi perangkat keras untuk lebih meningkatkan efisiensi pelatihan dan kecepatan pengembangan kami.”
Trishul Chilimbi, VP, Amazon Search
Memulai
Menggunakan Amazon SageMaker
Anda dapat dengan mudah melatih model pada instans Trn1 dengan menggunakan Amazon SageMaker. Secara signifikan mengurangi waktu dan biaya untuk melatih dan menyetel model ML tanpa perlu mengelola infrastruktur. Dengan SageMaker, Anda dapat menggunakan alat bawaan untuk mengelola dan melacak eksperimen pelatihan, secara otomatis memilih hyperparameter yang optimal, melakukan debug tugas pelatihan, serta memantau penggunaan sumber daya sistem.
Menggunakan AWS Deep Learning AMI
Menggunakan AWS Deep Learning Container
Detail produk
Ukuran Instans | Trainium Akselerator |
Akselerator Memori (GB) |
vCPU | Instans Memori (GiB) |
Lokal NVMe Penyimpanan (TB) |
Jaringan Bandwidth (Gbps) |
EFA dan RDMA Dukungan |
EBS Bandwidth (Gbps) |
Sesuai Permintaan Harga per Jam |
1 Tahun Terpesan Instans Efektif Per jam* |
3 Tahun Terpesan Instans Efektif Per jam* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0,5 | Hingga 12,5 | Tidak | Hingga 20 | 1,34 USD | 0,79 USD | 0,4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | Ya | 80 | 21,50 USD | 12,60 USD | 7,59 USD |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1.600 | Ya | 80 | 24,78 USD | 14,52 USD | 8,59 USD |

Mulai membangun di konsol
Mulai membangun dengan panduan langkah demi langkah untuk membantu Anda meluncurkan proyek AWS.