Instans Trn1 Amazon EC2
Pelatihan deep learning berperforma tinggi dan hemat biaya di cloud
Instans Trn1 Amazon EC2, yang didukung oleh akselerator AWS Trainium, dibuat khusus untuk pelatihan berkinerja tinggi (DL), sekaligus menawarkan penghematan biaya pelatihan hingga 50% lebih banyak dibandingkan instans berbasis GPU. Instans Trn1 menghasilkan kinerja tertinggi pada pelatihan deep learning mengenai model pemrosesan bahasa alami (NLP) di AWS. Anda dapat menggunakan instans Trn1 untuk melatih NLP, penglihatan komputer, dan merekomendasikan model di berbagai aplikasi, seperti pengenalan suara, rekomendasi, deteksi penipuan, serta klasifikasi gambar dan video. Anda dapat memulai instans Trn1 menggunakan alur kerja yang sudah ada di kerangka kerja machine learning (ML) populer, seperti PyTorch dan TensorFlow. SDK AWS Neuron terintegrasi tanpa hambatan dengan kerangka kerja ini sehingga Anda dapat memulai hanya dengan beberapa baris perubahan kode. Untuk mempelajari dukungan Neuron terbaru bagi kerangka kerja dan pustaka ML, arsitektur model, dan optimalisasi perangkat keras, kunjungi dokumentasi Neuron.
Manfaat
Mengurangi waktu pelatihan
Instans Trn1 dibangun dengan tujuan khusus untuk deep learning beperforma tinggi dan mengurangi waktu pelatihan dari hitungan bulan ke minggu atau bahkan hari Dengan waktu pelatihan yang berkurang, Anda dapat mengiterasi lebih cepat, membangun lebih banyak model inovatif, dan meningkatkan produktivitas.
Mengurangi biaya pelatihan deep learning Anda
Instans Trn1 memberikan performa tinggi sekaligus menawarkan penghematan biaya pelatihan hingga 50% dibandingkan instans berbasis GPU sejenisnya.
Membangun dengan dukungan native untuk kerangka kerja dan pustaka ML
Anda dapat memulai instans Trn1 dengan mudah menggunakan kerangka kerja ML populer, seperti PyTorch dan TensorFlow. SDK AWS Neuron terintegrasi tanpa hambatan dengan kerangka kerja ini, untuk membantu Anda memulai hanya dengan beberapa baris perubahan kode. Untuk memulai instans Trn1 dengan cepat, lihat contoh model populer di dokumentasi Neuron.
Naikkan skala ke 6,3 exaflop komputasi sesuai permintaan
Instans Trn1 adalah instans EC2 pertama dengan bandwidth jaringan Elastic Fabric Adapter (EFA) hingga 800 Gbps. Instans ini di-deploy di UltraClusters EC2 yang memungkinkan kenaikan skala hingga 30.000 akselerator Trainium, yang saling terhubung dengan jaringan skala petabita nonblok, untuk menyediakan hingga 6,3 exaflop komputasi.
Fitur
Akselerator AWS Trainium
Instans Trn1 didukung oleh hingga 16 akselerator AWS Trainium, yang dibangun khusus untuk mempercepat pelatihan DL. Setiap akselerator mencakup dua NeuronCore generasi kedua. Untuk mendukung paralelisme data dan model yang efisien, setiap instans Trn1 memiliki memori bandwidth tinggi 512 GB (HBM2e), menghasilkan hingga 3,4 petaflop daya komputasi FP16/BF16, dan menghadirkan NeuronLink, sebuah interkoneksi intra-instans, berkecepatan ultra tinggi, dan tanpa blok. Untuk performa tinggi sekaligus memenuhi sasaran akurasi, Trainium memiliki dukungan native untuk beragam tipe data, seperti FP32, TF32, BF16, FP16, UINT8, dan FP8 yang dapat dikonfigurasi. Trainium memungkinkan dukungan perangkat keras untuk pembulatan stokastik, memungkinkan performa tinggi dan akurasi lebih tinggi dibandingkan mode pembulatan lama. Trainium juga mendukung bentuk tensor dinamis dan operator kustom yang ditulis dalam C++ untuk menghadirkan infrastruktur yang fleksibel dan teruji di masa mendatang untuk kebutuhan pelatihan Anda.
SDK AWS Neuron
SDK AWS Neuron terdiri dari pengompilasi, ekstensi kerangka kerja, pustaka waktu aktif, dan alat developer. SDK ini terintegrasi secara native dengan kerangka kerja ML, seperti TensorFlow dan PyTorch. AWS Neuron juga mendukung pustaka pelatihan terdistribusi, seperti Megatron-LM, PyTorch FSDP, dan lainnya. Untuk mulai menggunakan instans Trn1 dengan cepat, lihat contoh model populer di dokumentasi Neuron.
Jaringan dan penyimpanan performa tinggi
Setiap instans Trn1 mendukung hingga 800 Gbps bandwith jaringan Elastic Fabric Adapter. Setiap instans Trn1 juga mendukung hingga 80 Gbps bandwidth Amazon Elastic Block Store (EBS) dan hingga 8 TB penyimpanan solid state drive (SSD) NVMe lokal untuk akses beban kerja cepat ke set data besar.
Amazon EC2 UltraClusters
Deployment instans Trn1 dilakukan di UltraCluster EC2 yang akan memungkinkan kenaikan skala hingga 30.000 akselerator Trainium. Akselerator ini saling terhubung dengan jaringan skala petabita non-blok untuk menyediakan hingga 6,3 exaflop komputasi yang terhubung dengan solusi penyimpanan seperti Amazon S3. Dengan Amazon FSx for Lustre, Anda dapat mengakses penyimpanan bersama yang menyediakan latensi di bawah milidetik dan hingga ratusan gigabita per detik throughput.
Partner

“Di PyTorch, kami mempercepat machine learning dari pembuatan prototipe riset ke siap produksi untuk pelanggan. Kami telah bekerja sama sangat erat dengan tim AWS untuk menyediakan dukungan PyTorch native untuk instans Amazon EC2 Trn1 yang didukung AWS Trainium yang dibangun khusus untuk melatih model deep learning. Developer yang membangun model PyTorch dapat memulai pelatihan di instans Trn1 dengan perubahan kode minimal. Selain itu, kami telah bekerja sama dengan komunitas OpenXLA untuk mengaktifkan pustaka PyTorch Terdistribusi untuk migrasi model mudah dari instans berbasis GPU ke instans Trn1. Kami sangat bersemangat mengenai inovasi yang instans Trn1 bawa ke komunitas PyTorch, termasuk tipe data yang lebih efisien, bentuk dinamis, operator kustom, pembulatan stokastik perangkat keras yang dioptimalkan, dan mode debug yang bersemangat. Semua ini membuat Trn1 sangat cocok untuk adopsi luas oleh developer PyTorch dan kami tidak sabar ingin berkontribusi bersama dengan PyTorch di masa mendatang untuk makin mengoptimalkan performa pelatihan.”
Geeta Chauhan, AI Terapan, Manajer Teknik (Applied AI, Engineering Manager)
Pelanggan

“Di HeliXon, kami membangun solusi AI generasi berikutnya untuk terapi berbasis protein. Kami bertujuan untuk mengembangkan alat AI yang memberdayakan ilmuwan untuk menguraikan fungsi dan interaksi protein, menyelidiki set data genomik skala besar untuk identifikasi target, serta mendesain terapi seperti terapi antibodi dan terapi sel. Saat ini, kami menggunakan pustaka distribusi pelatihan seperti FSDP untuk memparalelkan pelatihan model dibandingkan banyak server berbasis GPU, tetapi melatih satu model masih memakan waktu beberapa minggu. Kami sangat bersemangat dapat memanfaatkan instans Amazon EC2 Trn1, yang menghadirkan bandwith jaringan tertinggi (800 Gbps) yang tersedia di AWS untuk meningkatkan performa tugas pelatihan terdistribusi kami dan mengurangi waktu pelatihan model, sekaligus mengurangi biaya pelatihan kami.”
Jian Peng, CEO, Helixon

Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil.
“Kami meluncurkan layanan chatbot AI skala besar di instans Amazon EC2 Inf1 dan mengurangi latensi inferensi sebesar 97% dibandingkan instans berbasis GPU sejenisnya sekaligus mengurangi biaya. Saat kami meneruskan menyetel model NLP yang disesuaikan secara berkala, mengurangi waktu dan biaya pelatihan model juga penting. Berdasarkan pengalaman kami dari migrasi beban kerja inferensi yang sukses di instans Inf1 dan pekerjaan awal kami di instans EC2 Trn1 berbasis AWS Trainium, kami mengharapkan instans Trn1 akan menyediakan nilai tambah dalam meningkatkan performa dan biaya ML menyeluruh.”
Takuya Nakade, CTO, Money Forward, Inc.

Magic adalah perusahaan produk dan riset terintegrasi yang mengembangkan AI yang terasa seperti kolega untuk menjadikan dunia lebih produktif.
“Melatih mode berbasis Transformer autoregresif adalah komponen esensial pekerjaan kami. Instans Trn1 yang didukung oleh AWS Trainium didesain khusus untuk beban kerja ini, menawarkan skalabilitas hampir tidak terhingga, jaringan inter-simpul cepat, dan dukungan lanjutan untuk tipe data 16 dan 18 bit. Instans Trn1 akan membantu kami melatih model besar lebih cepat, dengan biaya lebih rendah. Kami sangat bersemangat dengan dukungan native untuk pembulatan stokastik BF16 di Trainium, meningkatkan performa sekaligus akurasi numerik sama seperti presisi penuh.”
Eric Steinberger, Cofounder dan CEO, Magic

CACTUS memiliki rangkaian produk dan solusi untuk para peneliti, dan organisasi yang meningkatkan bagaimana riset mendapat dana, dipublikasikan, dikomunikasikan, dan ditemukan.
“DiLab Cactus, kami memanfaatkan keandalan AI, dengan riset yang berfokus pada pemrosesan bahasa alami, peringkat & rekomendasi, AI percakapan, model bahasa besar, penglihatan komputer, AR/VR, dan XAI. Selaras dengan perjalanan kami untuk memungkinkan pelatihan model machine learning yang lebih cepat serta memungkinkan peneliti kami menjalankan lebih banyak eksperimen sekaligus mengelola biaya infrastruktur, kami sangat senang dapat mengevaluasi AWS Trainium. Fitur andalan AWS Trainium seperti optimalisasi XLA, pelatihan paralel data multi pekerja, caching Grafis sangat berguna bagi kami untuk mengurangi waktu pelatihan dan membantu kami menjalankan lebih banyak eksperimen lebih cepat dan lebih murah.
Nishchay Shah - CTO (Chief Technology Officer) dan Kepala Produk Baru (Head of Emerging Products), Cactus Communication
Layanan Amazon yang menggunakan instans Trn1
1.1d9aadc21e2c942dc72b3d1c0b2d4ec9139595ad.png)
Mesin pencarian produk Amazon mengindeks miliaran produk, melayani miliaran kueri pelanggan setiap harinya, dan merupakan salah satu layanan yang paling banyak digunakan di dunia.
“Kami melatih large language models (model bahasa besar/LLM) yang multi-modal (teks + gambar), multibahasa, multi- locale, dilatih sebelumnya mengerjakan beberapa tugas, dan menjangkau beberapa entitas (produk, kueri, merek, ulasan, dll.) untuk meningkatkan pengalaman belanja pelanggan. Instans Trn1 menyediakan cara yang lebih berkelanjutan untuk melatih LLM dengan menghadirkan performa/watt terbaik dibandingkan solusi machine learning terakselerasi lainnya dan menawarkan kepada kami performa tinggi dengan biaya terendah. Kami berencana mengeksplorasi tipe data FP8 baru yang dapat dikonfigurasi, dan pembulatan stokastik terakselerasi perangkat keras untuk makin meningkatkan efisiensi pelatihan dan kecepatan pengembangan kami.”
Trishul Chilimbi, VP Amazon Search
Memulai
Anda dapat melatih model di instans Trn1 dengan mudah menggunakan Amazon SageMaker. Kurangi waktu dan biaya untuk melatih dan menyesuaikan model ML secara signifikan tanpa perlu mengelola infrastruktur. Dengan SageMaker, Anda dapat menggunakan alat bawaan untuk mengelola dan melacak eksperimen pelatihan, memilih hiperparameter secara optimal, melakukan debug tugas pelatihan, dan memantau pemanfaatan sumber daya sistem.
Detail produk
Ukuran Instans | Trainium Akselerator |
Akselerator Memori (GB) |
vCPU | Instans Memori (GiB) |
Lokal NVMe Penyimpanan (TB) |
Jaringan Bandwidth (Gbps) |
EFA dan RDMA Dukungan |
EBS Bandwidth (Gbps) |
Sesuai Permintaan Harga per Jam |
1 Tahun Terpesan Instans Efektif Per jam* |
3 Tahun Terpesan Instans Efektif Per jam* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0,5 | Hingga 12,5 | Tidak | Hingga 20 | 1,34 USD | 0,79 USD | 0,4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | Ya | 80 | 21,50 USD | 12,60 USD | 7,59 USD |

Mulai membangun di konsol
Mulai membangun dengan panduan langkah demi langkah untuk membantu Anda meluncurkan proyek AWS.