Lewati ke Konten Utama

Amazon EC2

Instans Trn1 Amazon EC2

Pelatihan model AI generatif beperforma tinggi dan hemat biaya

Mengapa instans Trn1 Amazon EC2?

Instans Trn1 Amazon Elastic Compute Cloud (EC2), didukung oleh chip AWS Trainium, dirancang khusus untuk pelatihan pembelajaran mendalam (DL) berkinerja tinggi dari model AI generatif, termasuk model bahasa besar (LLM) dan model difusi laten. Instans Trn1 menawarkan penghematan biaya pelatihan hingga 50% dibandingkan dengan instans Amazon EC2 lain yang sebanding. Anda dapat menggunakan instans Trn1 untuk melatih lebih dari 100 miliar model DL parameter dan AI generatif di berbagai rangkaian aplikasi, seperti merangkum teks, membuat kode, menjawab pertanyaan, membuat gambar dan video, memberikan rekomendasi, dan mendeteksi penipuan.

SDK AWS Neuron membantu developer melatih model di AWS Trainium (dan melakukan deployment model di cip AWS Inferentia). SDK AWS Neuron terintegrasi secara native dengan kerangka kerja, seperti PyTorch dan TensorFlow sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada untuk melatih model di instans Trn1. Untuk mempelajari tentang dukungan Neuron saat ini untuk kerangka kerja dan pustaka pembelajaran mesin (ML), arsitektur model, dan pengoptimalan perangkat keras, lihat dokumentasi Neuron.

Memperkenalkan Instans Trn1 Amazon EC2 yang ditenagai oleh AWS Trainium

Keuntungan

Instans Trn1 dibuat khusus untuk DL beperforma tinggi dan mengurangi waktu pelatihan dari hitungan bulan ke minggu, atau bahkan hari. Dengan waktu pelatihan yang berkurang, Anda dapat mengiterasi lebih cepat, membangun lebih banyak model inovatif, dan meningkatkan produktivitas. Instans Trn1n memberikan waktu hingga 20% lebih cepat dibandingkan instans Trn1 untuk model yang mendapat manfaat dari peningkatan bandwidth jaringan.

Instans Trn1 memberikan performa tinggi sekaligus menawarkan penghematan biaya hingga 50% dibandingkan instans Amazon EC2 lainnya yang sebanding.

Gunakan SDK AWS Neuron untuk mengekstrak performa penuh instans Trn1. Dengan Neuron, Anda dapat menggunakan kerangka kerja ML yang populer, seperti PyTorch dan TensorFlow serta terus menggunakan kode dan alur kerja yang ada untuk melatih model di instans Trn1. Untuk memulai instans Trn1 dengan cepat, lihat model populer contoh di dokumentasi Neuron.

Instans Trn1 mendukung hingga 800 Gbps bandwidth jaringan Elastic Fabric Adapter (EFAv2) generasi kedua. Instans Trn1n mendukung bandwidth jaringan EFAv2 hingga 1.600 Gbps untuk memberikan performa yang lebih tinggi lagi untuk model intensif jaringan. Deployment dilakukan pada kedua instans di EC2 UltraClusters yang memungkinkan kenaikan skala hingga 30.000 cip Trainium, yang saling terhubung dengan jaringan skala petabita tanpa pemblokiran untuk menyediakan 6 exaflop performa komputasi.

Fitur

Instans Trn1 didukung oleh hingga 16 cip AWS Trainium yang dibuat khusus untuk mempercepat pelatihan DL dan menghasilkan daya komputasi FP16/BF16 hingga 3 petaflop. Setiap cip mencakup dua NeuronCore generasi kedua.

Untuk mendukung data yang efisien dan paralelisme model, setiap instans Trn1 memiliki 512 GB memori akselerator bersama (HBM) dengan total bandwidth memori 9,8 TB/dtk.

Untuk mendukung pelatihan model intensif jaringan, seperti Mixture of Experts (MoE) dan Generative Pre-Training Transformers (GPT), setiap instans Trn1n memberikan bandwidth jaringan EFAv2 hingga 1.600 Gbps. Setiap instans Trn1 mendukung hingga 800 Gbps bandwidth EFAv2. EFAv2 mempercepat pelatihan terdistribusi dengan memberikan peningkatan hingga 50% dalam performa komunikasi kolektif dibandingkan EFA generasi pertama. Instans ini juga mendukung hingga 80 Gbps bandwidth Amazon Elastic Block Store (EBS) dan hingga 8 TB penyimpanan solid state drive (SSD) NVMe lokal untuk akses beban kerja cepat ke set data besar.

Untuk konektivitas cepat antara cip Trainium dan komunikasi kolektif yang efisien, instans Trn1 mendukung NeuronLink hingga 768 GB/detik, interkoneksi tanpa pemblokiran berkecepatan tinggi.

Untuk memberikan performa tinggi sembari memenuhi sasaran akurasi, instans Trn1 dioptimalkan untuk tipe data FP32, TF32, BF16, FP16, UINT8, dan FP8 (cFP8) baru yang dapat dikonfigurasi. Untuk mendukung laju inovasi DL dan AI generatif, instans Trn1 memiliki beberapa inovasi yang membuatnya fleksibel dan dapat diperpanjang untuk melatih model DL yang terus berkembang. Instans Trn1 memiliki optimisasi perangkat keras dan dukungan perangkat lunak untuk bentuk input dinamis. Untuk memungkinkan dukungan bagi operator baru di masa depan, instans Trn1 mendukung operator kustom yang ditulis dalam C++. Instans Inf2 juga mendukung pembulatan stokastik, suatu metode pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.

Testimoni Pelanggan dan Partner

Berikut ini beberapa contoh bagaimana pelanggan dan partner berhasil mencapai tujuan bisnis mereka dengan instans Trn1 Amazon EC2.

Databricks

Lebih dari 10.000 organisasi di seluruh dunia — termasuk Comcast, Condé Nast, dan lebih dari 50% dari Fortune 500 — mengandalkan Databricks untuk menyatukan data, analitik, dan AI mereka.

“Ribuan pelanggan telah menerapkan Databricks di AWS, memberi mereka kemampuan untuk menggunakan MosaicML untuk melakukan pra-pelatihan, menyempurnakan, dan melayani model dasar untuk berbagai kasus penggunaan. AWS Trainium memberi kami skala dan performa tinggi yang dibutuhkan untuk melatih model MPT Mosaic kami, dan dengan biaya rendah. Saat kami melatih model Mosaic MPT generasi berikutnya, Trainium2 akan memungkinkan untuk membangun model lebih cepat, memungkinkan kami untuk menyediakan pelanggan kami skala dan kinerja yang belum pernah terjadi sebelumnya sehingga mereka dapat membawa aplikasi AI generatif mereka sendiri ke pasar lebih cepat. “

Naveen Rao, VP of Generative AI, Databricks

Missing alt text value

Stockmark Co., Ltd

Dengan misi “menemukan kembali mekanisme penciptaan nilai dan memajukan umat manusia”, Stockmark membantu banyak perusahaan menciptakan dan membangun bisnis inovatif dengan menyediakan teknologi pemrosesan bahasa alami yang mutakhir.

“Dengan 16 node instans Amazon EC2 Trn1 yang didukung oleh chip AWS Trainium, kami telah mengembangkan dan merilis stockmark-13b, model bahasa besar dengan 13 miliar parameter, pra-dilatih dari awal pada korpus 220B token Jepang. Korpus tersebut mencakup teks domain bisnis terbaru hingga September 2023. Model tersebut mencapai skor JSQuAD tertinggi (0,813) pada tolok ukur JGLUE (Japanese General Language Understanding Evaluation) dibandingkan dengan model setara lainnya. Model ini tersedia di Hugging Face Hub dan dapat digunakan secara komersial dengan lisensi MIT. Instans Trn1 membantu kami mencapai pengurangan biaya pelatihan 20% dibandingkan dengan instans GPU yang setara. “

Kosuke Arima, CTO, Stockmark Co., Ltd.

Missing alt text value

RICOH

RICOH menawarkan solusi tempat kerja dan layanan transformasi digital yang didesain untuk mengelola serta mengoptimalkan alur informasi di seluruh bisnis.

“Migrasi ke instance Trn1 cukup mudah. Kami dapat menyelesaikan pelatihan model parameter 13B kami hanya dalam waktu 8 hari. Berdasarkan kesuksesan ini, kami berharap dapat mengembangkan dan melatih model parameter 70B kami di Trainium dan senang dengan potensi contoh ini dalam melatih model kami lebih cepat dan lebih hemat biaya. “

Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH

Missing alt text value

Helixon

“Di HeliXon, kami membangun solusi AI generasi berikutnya untuk terapi berbasis protein. Kami bertujuan untuk mengembangkan alat AI yang memberdayakan ilmuwan untuk menguraikan fungsi dan interaksi protein, menyelidiki set data genomika skala besar untuk identifikasi target, serta mendesain terapi seperti antibodi dan terapi sel. Saat ini, kami menggunakan pustaka distribusi pelatihan seperti FSDP untuk memparalelkan pelatihan model di banyak server berbasis GPU, tetapi ini masih membutuhkan waktu berminggu-minggu bagi kami untuk melatih satu model. Kami sangat senang memanfaatkan instans Amazon EC2 Trn1, yang menampilkan bandwidth jaringan tertinggi (800 Gbps) yang tersedia di AWS untuk meningkatkan kinerja pekerjaan pelatihan terdistribusi kami dan mengurangi waktu pelatihan model kami, sekaligus mengurangi biaya pelatihan kami. “

Jian Peng, CEO, Helixon

Missing alt text value

Money Forward, Inc.

Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil.

“Kami meluncurkan layanan chatbot AI skala besar pada instans Amazon EC2 Inf1 dan mengurangi latensi inferensi kami sebesar 97% dibandingkan instans berbasis GPU yang sebanding sambil juga mengurangi biaya. Saat kami meneruskan menyetel model NLP yang disesuaikan secara berkala, mengurangi waktu dan biaya pelatihan model juga penting. Berdasarkan pengalaman kami dari keberhasilan migrasi beban kerja inferensi pada instans Inf1 dan pekerjaan awal kami pada instans EC2 Trn1 berbasis AWS Trainium, kami berharap instans Trn1 akan memberikan nilai tambahan dalam meningkatkan kinerja dan biaya ML end-to-end. “

Takuya Nakade, CTO, Money Forward, Inc.

Missing alt text value

Magic

Magic adalah perusahaan produk dan riset terintegrasi yang mengembangkan AI yang terasa seperti kolega untuk menjadikan dunia lebih produktif. 

“Melatih model berbasis Transformer autoregresif besar adalah komponen penting dari pekerjaan kami. Instans Trn1 yang didukung AWS Trainium didesain khusus untuk beban kerja ini, menawarkan skalabilitas yang hampir tak terbatas, jaringan antar-simpul cepat, serta dukungan lanjutan untuk tipe data 16 dan 8 bit. Instans Trn1 akan membantu kami melatih model besar lebih cepat, dengan biaya lebih rendah. Kami sangat senang dengan dukungan asli untuk pembulatan stokastik BF16 di Trainium, meningkatkan kinerja sementara akurasi numerik tidak dapat dibedakan dari presisi penuh. “

Eric Steinberger, Cofounder dan CEO, Magic

Missing alt text value

Komunikasi Kaktus

CACTUS memiliki rangkaian produk dan solusi untuk peneliti, dan organisasi yang meningkatkan bagaimana riset mendapat dana, diterbitkan, dikomunikasikan, serta ditemukan. 

“Di Cactus Labs, kami memanfaatkan kekuatan AI, dengan penelitian yang berfokus pada pemrosesan bahasa alami, peringkat dan rekomendasi, AI percakapan, model bahasa besar, visi komputer, AR/VR dan XAI. Selaras dengan upaya kami untuk memungkinkan pelatihan model machine learning yang lebih cepat serta memungkinkan peneliti kami menjalankan lebih banyak eksperimen sekaligus mengelola biaya infrastruktur, kami sangat senang dapat mengevaluasi AWS Trainium. Fitur luar biasa dari AWS Trainium seperti pengoptimalan XLA, pelatihan paralel data multi-pekerja, dan caching grafik sangat berguna bagi kami untuk mengurangi waktu pelatihan kami dan membantu kami menjalankan lebih banyak eksperimen lebih cepat dan lebih murah. “

Nishchay Shah, CTO dan Head of Emerging Products, Cactus Communications

Missing alt text value

Watashiha

Watashiha menawarkan layanan chatbot AI yang inovatif dan interaktif, “OGIRI AI,” yang menggabungkan humor untuk memberikan jawaban lucu secara langsung untuk sebuah pertanyaan. 

“Kami menggunakan Model Bahasa Besar untuk menggabungkan humor dan menawarkan pengalaman percakapan yang lebih relevan kepada pelanggan kami di layanan AI kami. Hal ini mengharuskan kami untuk sering melatih dan menyempurnakan model ini. Kami melatih sebelumnya model bahasa Jepang berbasis GPT di instans Trn1.32xlarge EC2, memanfaatkan tensor dan paralelisme data. Pelatihan ini diselesaikan dalam waktu 28 hari dengan pengurangan biaya 33% dibandingkan infrastruktur berbasis GPU kami sebelumnya. Karena model kami dengan cepat terus tumbuh dalam kompleksitas, kami menantikan instans Trn1n yang memiliki bandwidth jaringan dua kali lipat dari Trn1 untuk mempercepat pelatihan model yang lebih besar. “

Yohei Kobashi, CTO, Watashiha, K.K.

Missing alt text value

PyTorch

“Di PyTorch, kami mempercepat pembelajaran mesin dari pembuatan prototipe penelitian hingga produksi yang siap untuk pelanggan. Kami telah bekerja sama sangat erat dengan tim AWS untuk menyediakan dukungan PyTorch native untuk instans Amazon EC2 Trn1 yang didukung AWS Trainium yang dibangun khusus untuk melatih model deep learning. Developer yang membangun model PyTorch dapat memulai pelatihan di instans Trn1 dengan perubahan kode minimal. Selain itu, kami telah bekerja sama dengan komunitas OpenXLA untuk mengaktifkan pustaka Terdistribusi PyTorch untuk migrasi model mudah dari instans berbasis GPU ke instans Trn1. Kami sangat senang dengan inovasi yang dihadirkan instans Trn1 ke komunitas PyTorch, termasuk tipe data yang lebih efisien, bentuk dinamis, operator kustom, pembulatan stokastik perangkat keras yang dioptimalkan, dan mode debug yang disukai. Semua ini membuat Trn1 cocok untuk adopsi luas oleh pengembang PyTorch dan kami menantikan kontribusi bersama di masa depan untuk PyTorch untuk lebih mengoptimalkan kinerja pelatihan. “

Geeta Chauhan, Applied AI, Engineering Manager, PyTorch

Missing alt text value

Hugging Face

“Misi Hugging Face adalah mendemokratisasi ML yang baik untuk membantu pengembang ML di seluruh dunia memecahkan masalah dunia nyata. Kunci untuk mewujudkan hal itu adalah dengan memastikan model-model terbaru dan terhebat dapat berjalan secepat dan seefisien mungkin pada cip ML terbaik di cloud. Kami sangat senang dengan potensi Inferentia2 untuk menjadi cara standar baru untuk melakukan deployment model AI generatif dalam skala besar. Dengan Inf1, kami melihat biaya hingga 70% lebih rendah daripada instans berbasis GPU tradisional, dan dengan Inf2, kami telah melihat latensi hingga 8x lebih rendah untuk transformer yang mirip BERT dibandingkan dengan Inferentia1. Dengan Inferentia2, komunitas kami akan dapat dengan mudah menskalakan kinerja ini ke LLM pada skala parameter 100B +, dan juga model difusi dan visi komputer terbaru. “

Missing alt text value

Amazon

“Kami melatih model bahasa besar (LLM) yang multi-modal (teks + gambar), multibahasa, multi-lokal, pra-dilatih pada beberapa tugas, dan menjangkau beberapa entitas (produk, kueri, merek, ulasan, dll.) untuk meningkatkan pengalaman belanja pelanggan. Instans Trn1 menyediakan cara yang lebih berkelanjutan untuk melatih LLM dengan menghadirkan performa/watt terbaik dibandingkan solusi machine learning terakselerasi lainnya dan menawarkan performa tinggi dengan biaya terendah. Kami berencana untuk mengeksplorasi tipe data FP8 baru yang dapat dikonfigurasi, dan pembulatan stokastik yang dipercepat perangkat keras untuk lebih meningkatkan efisiensi pelatihan dan kecepatan pengembangan kami. “

Trishul Chilimbi, VP, Amazon Search

The Amazon logo featuring the word 'amazon' in lowercase black letters with an orange arrow curving from the letter 'a' to 'z' underneath.

Memulai

Anda dapat dengan mudah melatih model pada instans Trn1 dengan menggunakan Amazon SageMaker. Secara signifikan mengurangi waktu dan biaya untuk melatih dan menyetel model ML tanpa perlu mengelola infrastruktur. Dengan SageMaker, Anda dapat menggunakan alat bawaan untuk mengelola dan melacak eksperimen pelatihan, secara otomatis memilih hyperparameter yang optimal, melakukan debug tugas pelatihan, serta memantau penggunaan sumber daya sistem.

AWS Deep Learning AMI (DLAMI) menyediakan praktisi dan peneliti deep learning (DL) dengan infrastruktur dan alat untuk mempercepat DL di AWS, dalam skala apa pun. Driver AWS Neuron telah dikonfigurasi sebelumnya di DLAMI untuk melatih model DL Anda secara optimal pada instans Trn1.

Sekarang Anda dapat men-deploy instans Trn1 di Amazon Elastic Kubernetes Service (EKS), layanan Kubernetes terkelola penuh, dan di Amazon Elastic Container Service (ECS), yaitu sebuah layanan orkestrasi kontainer terkelola penuh. Neuron prainstal juga tersedia di Kontainer AWS Deep Learning. Untuk mempelajari selengkapnya cara menjalankan kontainer pada instans Trn1, lihat Tutorial kontainer Neuron.

Detail produk

Instance Size
Trainium Chips
Accelerator Memory (GB)
vCPUs
Instance Memory (GiB)
Local NVMe Storage (TB)
Network Bandwidth (Gbps)
EFA and RDMA Support
EBS Bandwidth (Gbps)
On-Demand Price per Hour
1-Year Reserved Instance Effective Hourly*
3-Year Reserved Instance Effective Hourly*
trn1.2xlarge
1
32
8
32
0,5
Hingga 12,5
Tidak
Hingga 20
1,34 USD
0,79 USD
0,4744 USD
trn1.32xlarge
16
512
128
512
8
800
Ya
80
21,50 USD
12,60 USD
7,59 USD
trn1n.32xlarge
16
512
128
512
8
1.600
Ya
80
24,78 USD
14,52 USD
8,59 USD