AWS Trainium

Dapatkan performa tinggi untuk pelatihan AI generatif dan deep learning sekaligus mengurangi biaya

Mengapa AWS Trainium?

AWS Trainium adalah akselerator machine learning (ML) generasi kedua yang dibuat khusus oleh AWS untuk pelatihan deep learning lebih dari 100 miliar model parameter. Setiap instans Trn1 Amazon Elastic Compute Cloud (EC2) melakukan deployment hingga 16 akselerator AWS Trainium untuk memberikan solusi beperforma tinggi dan berbiaya rendah untuk pelatihan deep learning (DL) di cloud. Meskipun penggunaan deep learning serta AI generatif meningkat, banyak tim pengembangan mengalami keterbatasan anggaran tetap sehingga membatasi cakupan dan frekuensi pelatihan yang diperlukan untuk meningkatkan model dan aplikasi mereka. Instans Trn1 EC2 berbasis Trainium mengatasi tantangan ini dengan menawarkan waktu pelatihan yang lebih cepat sekaligus penghematan biaya pelatihan hingga 50% dibandingkan instans Amazon EC2 yang setara. Trainium telah dioptimalkan untuk melatih model pemrosesan bahasa alami, penglihatan komputer, dan pemberi rekomendasi yang digunakan dalam beragam aplikasi, seperti peringkasan teks, pembuatan kode, penjawab pertanyaan, pembuatan gambar dan video, rekomendasi, serta deteksi kecurangan.

SDK AWS Neuron membantu developer melatih model pada akselerator AWS Trainium (dan melakukan deployment pada model tersebut di akselerator AWS Inferentia). SDK AWS Neuron terintegrasi secara native dengan kerangka kerja populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada serta berlatih di akselerator Trainium.

Manfaat AWS Trainium

Setiap akselerator Trainium memiliki dua NeuronCore generasi kedua yang dibuat khusus untuk algoritma deep learning. Untuk mendukung paralelisme data dan model yang efisien, setiap akselerator Trainium memiliki memori bandwidth tinggi sebesar 32 GB, menghasilkan daya komputasi FP16/BF16 hingga 190 TFLOPS, dan dilengkapi NeuronLink, sebuah teknologi interkoneksi intra-instans dengan kecepatan yang sangat tinggi dan tanpa blok.

SDK AWS Neuron, yang mendukung Trainium, terintegrasi secara native dengan PyTorch dan TensorFlow. Hal ini memastikan bahwa Anda dapat terus menggunakan alur kerja yang ada dalam kerangka kerja populer ini dan mulai menggunakan Trainium dengan hanya beberapa baris perubahan kode. Untuk pelatihan model yang terdistribusi, SDK Neuron mendukung pustaka, seperti Megatron-LM dan PyTorch Fully Sharded Data Parallel (FSDP). Untuk segera memulai instans Trn1 EC2 yang didukung Trainium, lihat contoh model populer di dokumentasi Neuron.

Untuk memberikan performa tinggi sekaligus memenuhi tujuan akurasi, Trainium dioptimalkan untuk FP32, TF32, BF16, FP16, UINT8, dan tipe data FP8 (cFP8) baru yang dapat dikonfigurasi.
Untuk mendukung pesatnya inovasi DL dan AI generatif, Trainium memiliki beberapa inovasi yang menjadikannya fleksibel dan dapat diperluas untuk melatih model DL yang terus berkembang. Trainium memiliki optimasi perangkat keras dan dukungan perangkat lunak untuk bentuk input dinamis. Untuk memungkinkan dukungan bagi operator baru yang akan datang, operator kustom yang ditulis dalam C++ didukung. Trainium juga mendukung pembulatan stokastik, suatu metode pembulatan secara probabilistik untuk mencapai performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.
Instans Trn1 yang didukung oleh Trainium lebih hemat energi hingga 25% untuk pelatihan deep learning dibandingkan akselerasi instans EC2 komputasi yang sebanding. Instans Trn1 membantu Anda mencapai tujuan keberlanjutan saat melatih model ultra-besar.

Video

Tayangan di balik layar Infrastruktur AI Generatif di Amazon
Percepat deep learning dan berinovasi lebih cepat dengan AWS Trainium
Memperkenalkan Instans Trn1 Amazon EC2 yang ditenagai oleh AWS Trainium