Instans Trn1 Amazon EC2

Pelatihan model AI generatif beperforma tinggi dan hemat biaya

Memulai instans Trn1 menggunakan AWS Neuron

Instans Trn1 Amazon Elastic Compute Cloud (EC2), yang didukung oleh cip AWS Trainium, dibuat khusus untuk pelatihan deep learning (DL) performa tinggi untuk model AI generatif, termasuk model bahasa besar (LLM) dan model difusi laten. Instans Trn1 menawarkan penghematan biaya pelatihan hingga 50% dibandingkan dengan instans Amazon EC2 lain yang sebanding. Anda dapat menggunakan instans Trn1 untuk melatih lebih dari 100 miliar model DL parameter dan AI generatif di berbagai rangkaian aplikasi, seperti merangkum teks, membuat kode, menjawab pertanyaan, membuat gambar dan video, memberikan rekomendasi, dan mendeteksi penipuan.

SDK AWS Neuron membantu developer melatih model di AWS Trainium (dan melakukan deployment model di cip AWS Inferentia). SDK AWS Neuron terintegrasi secara native dengan kerangka kerja, seperti PyTorch dan TensorFlow sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada untuk melatih model di instans Trn1. Untuk mempelajari tentang dukungan Neuron saat ini untuk kerangka kerja dan pustaka machine learning (ML), arsitektur model, dan optimisasi perangkat keras, lihat dokumentasi Neuron.

Instans Trn1n sekarang tersedia

Instans Trn1n menggandakan bandwidth jaringan (dibandingkan dengan instans Trn1) menjadi 1.600 Gbps Elastic Fabric Adapter (EFAv2). Peningkatan bandwidth menghasilkan waktu pelatihan hingga 20% lebih cepat dibandingkan dengan Trn1 untuk melatih model AI generatif intensif jaringan seperti model bahasa besar (LLM) dan mixture of expert (MoE).

Instans Trn1 Amazon EC2 baru | Amazon Web Services (1:34)

Keuntungan

Kurangi waktu pelatihan untuk lebih dari 100 miliar model parameter

Instans Trn1 dibuat khusus untuk DL beperforma tinggi dan mengurangi waktu pelatihan dari hitungan bulan ke minggu, atau bahkan hari. Dengan waktu pelatihan yang berkurang, Anda dapat mengiterasi lebih cepat, membangun lebih banyak model inovatif, dan meningkatkan produktivitas. Instans Trn1n memberikan waktu hingga 20% lebih cepat dibandingkan instans Trn1 untuk model yang mendapat manfaat dari peningkatan bandwidth jaringan.

Turunkan biaya penyesuaian dan pra-pelatihan Anda

Instans Trn1 memberikan performa tinggi sekaligus menawarkan penghematan biaya hingga 50% dibandingkan instans Amazon EC2 lainnya yang sebanding.

Gunakan kerangka kerja dan pustaka ML yang sudah ada

Gunakan SDK AWS Neuron untuk mengekstrak performa penuh instans Trn1. Dengan Neuron, Anda dapat menggunakan kerangka kerja ML yang populer, seperti PyTorch dan TensorFlow serta terus menggunakan kode dan alur kerja yang ada untuk melatih model di instans Trn1. Untuk memulai instans Trn1 dengan cepat, lihat model populer contoh di dokumentasi Neuron.

Menaikkan skala hingga 6 exaflop dengan UltraClusters EC2

Instans Trn1 mendukung hingga 800 Gbps bandwidth jaringan Elastic Fabric Adapter (EFAv2) generasi kedua. Instans Trn1n mendukung bandwidth jaringan EFAv2 hingga 1.600 Gbps untuk memberikan performa yang lebih tinggi lagi untuk model intensif jaringan. Deployment dilakukan pada kedua instans di EC2 UltraClusters yang memungkinkan kenaikan skala hingga 30.000 cip Trainium, yang saling terhubung dengan jaringan skala petabita tanpa pemblokiran untuk menyediakan 6 exaflop performa komputasi.

Cara kerja

Menggunakan AWS DLAMI
Menggunakan Amazon EKS
Menggunakan Amazon ECS
Menggunakan Amazon SageMaker

Menggunakan AWS DLAMI
Perbesar dan baca deskripsi gambar.

Bagian pertama berjudul “Aplikasi pengguna” menunjukkan metode utama yang dapat Anda gunakan untuk secara otomatis meluncurkan instans AWS Deep Learning AMI (DLAMI) dan Amazon EC2 Trn1: AWS Command Line Interface (AWS CLI), AWS Tools dan SDK, serta API Kontrol AWS Cloud. Metode utama kedua untuk meluncurkan DLAMI dari antarmuka web adalah Konsol Manajemen AWS.

Beranjak dari DLAMI, bagian selanjutnya menunjukkan instans Trn1 Amazon EC2 yang diluncurkan dari DLAMI yang dipilih.

Pengelompokan lain menunjukkan terminal lokal, terminal jarak jauh EC2, dan skrip aplikasi yang dapat digunakan untuk memperbarui dan mengelola DLAMI untuk meluncurkan instans EC2 berdasarkan pembaruan.
Menggunakan Amazon EKS
Perbesar dan baca deskripsi gambar.

Kotak pertama menunjukkan bagaimana Amazon Elastic Kubernetes Service (EKS) digunakan untuk membuat klaster Kubernetes yang didukung oleh Amazon EKS Distro.

Setelah membuat klaster, Anda dapat melakukan deployment simpul pekerja Trn1 atau Trn1n untuk klaster EKS Anda.

Anda kemudian dapat menjalankan beban kerja pelatihan Anda di Kubernetes.
Menggunakan Amazon ECS
Perbesar dan baca deskripsi gambar.

Pada tahap pertama alur kerja, Amazon Elastic Container Registry (ECR) digunakan untuk membuat gambar dan menyimpannya menggunakan ECR atau repositori lainnya.

Selanjutnya, Anda dapat menggunakan Amazon Elastic Container Service (ECS) untuk memilih gambar deep learning container (DLC) untuk beban kerja Anda.

Kemudian, lakukan deployment beban kerja pelatihan Anda di server instans Trn1 atau Trn1n Amazon EC2.

Terakhir, gunakan Amazon ECS untuk mengelola kontainer Anda.
Menggunakan Amazon SageMaker
Perbesar dan baca deskripsi gambar.

Pertama, pilih instans Trn1 atau Trn1n (ml.trn1 atau ml.trn1n) sebagai opsi pelatihan SageMaker Anda.

Model penagihan per detik diterapkan, dan Anda membayar untuk apa yang Anda gunakan. Anda dapat menggunakan pustaka pelatihan terdistribusi dan SageMaker Training Compiler untuk menskalakan serta meningkatkan performa.

Berikutnya, terapkan penyetelan model otomatisasi untuk optimisasi hyperparameter.

Kemudian, interaktivitas dan pemantauan dicapai melalui debugging, profiling, dan manajemen eksperimen. Setel biaya Anda dengan pelatihan Spot terkelola.

Terakhir, simpan artefak model yang dihasilkan untuk model yang Anda latih dalam bucket Amazon S3.

Fitur

Hingga 3 petaflop dengan AWS Trainium

Instans Trn1 didukung oleh hingga 16 cip AWS Trainium yang dibuat khusus untuk mempercepat pelatihan DL dan menghasilkan daya komputasi FP16/BF16 hingga 3 petaflop. Setiap cip mencakup dua NeuronCore generasi kedua.

Memori akselerator bandwidth tinggi hingga 512 GB

Untuk mendukung data yang efisien dan paralelisme model, setiap instans Trn1 memiliki 512 GB memori akselerator bersama (HBM) dengan total bandwidth memori 9,8 TB/dtk.

Jaringan dan penyimpanan performa tinggi

Untuk mendukung pelatihan model intensif jaringan, seperti Mixture of Experts (MoE) dan Generative Pre-Training Transformers (GPT), setiap instans Trn1n memberikan bandwidth jaringan EFAv2 hingga 1.600 Gbps. Setiap instans Trn1 mendukung hingga 800 Gbps bandwidth EFAv2. EFAv2 mempercepat pelatihan terdistribusi dengan memberikan peningkatan hingga 50% dalam performa komunikasi kolektif dibandingkan EFA generasi pertama. Instans ini juga mendukung hingga 80 Gbps bandwidth Amazon Elastic Block Store (EBS) dan hingga 8 TB penyimpanan solid state drive (SSD) NVMe lokal untuk akses beban kerja cepat ke set data besar.

Interkoneksi NeuronLink

Untuk konektivitas cepat antara cip Trainium dan komunikasi kolektif yang efisien, instans Trn1 mendukung NeuronLink hingga 768 GB/detik, interkoneksi tanpa pemblokiran berkecepatan tinggi.

Dioptimalkan untuk tipe data baru

Untuk memberikan performa tinggi sembari memenuhi sasaran akurasi, instans Trn1 dioptimalkan untuk tipe data FP32, TF32, BF16, FP16, UINT8, dan FP8 (cFP8) baru yang dapat dikonfigurasi.

Optimisasi DL mutakhir

Untuk mendukung laju inovasi DL dan AI generatif, instans Trn1 memiliki beberapa inovasi yang membuatnya fleksibel dan dapat diperpanjang untuk melatih model DL yang terus berkembang. Instans Trn1 memiliki optimisasi perangkat keras dan dukungan perangkat lunak untuk bentuk input dinamis. Untuk memungkinkan dukungan bagi operator baru di masa depan, instans Trn1 mendukung operator kustom yang ditulis dalam C++. Instans Trn1 juga mendukung pembulatan stokastik, metode pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.

Pelanggan

Lebih dari 10.000 organisasi di seluruh dunia — termasuk Comcast, Condé Nast, dan lebih dari 50% dari Fortune 500 — mengandalkan Databricks untuk menyatukan data, analitik, dan AI mereka.

“Ribuan pelanggan telah menerapkan Databricks di AWS, yang memberi mereka kemampuan untuk menggunakan MosaicML untuk melakukan pralatih, menyempurnakan, dan menyajikan model fondasi untuk berbagai kasus penggunaan. AWS Trainium memberi kami skala dan performa tinggi yang dibutuhkan untuk melatih model MPT Mosaic kami, dan dengan biaya rendah. Saat kami melatih model MPT Mosaic generasi berikutnya, Trainium2 akan mewujudkan pembangunan model yang lebih cepat sehingga kami dapat menyediakan skala dan performa yang belum pernah ada sebelumnya bagi pelanggan kami sehingga mereka dapat membawa aplikasi AI generatif mereka sendiri ke pasar lebih cepat.”

Naveen Rao, VP of Generative AI, Databricks

Dengan misi “menemukan kembali mekanisme penciptaan nilai dan memajukan umat manusia”, Stockmark membantu banyak perusahaan menciptakan dan membangun bisnis inovatif dengan menyediakan teknologi pemrosesan bahasa alami yang mutakhir.

"Dengan 16 simpul instans Amazon EC2 Trn1 yang didukung cip AWS Trainium, kami telah mengembangkan dan merilis stockmark-13b, model bahasa besar dengan 13 miliar parameter, yang sebelumnya telah dilatih dari awal menggunakan korpus 220 miliar token bahasa Jepang. Korpus tersebut mencakup teks domain bisnis terbaru hingga September 2023. Model tersebut mencapai skor JSQuAD tertinggi (0,813) pada tolok ukur JGLUE (Japanese General Language Understanding Evaluation) dibandingkan dengan model setara lainnya. Model ini tersedia di Hugging Face Hub dan dapat digunakan secara komersial dengan lisensi MIT. Instans Trn1 membantu kami mencapai pengurangan biaya pelatihan sebesar 20% dibandingkan dengan instans GPU yang setara."

Kosuke Arima, CTO, Stockmark Co., Ltd.

RICOH menawarkan solusi tempat kerja dan layanan transformasi digital yang didesain untuk mengelola serta mengoptimalkan alur informasi di seluruh bisnis.

"Migrasi ke instans Trn1 cukup mudah. Kami dapat menyelesaikan pelatihan model parameter 13B kami hanya dalam waktu 8 hari. Berdasarkan kesuksesan ini, kami berharap dapat mengembangkan dan melatih model parameter 70 B kami di Trainium dan sangat antusias dengan potensi yang dimiliki oleh instans ini dalam melatih model kami dengan lebih cepat dan lebih hemat biaya."

Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH

Helixon

“Di HeliXon, kami membangun solusi AI generasi berikutnya untuk terapi berbasis protein. Kami bertujuan untuk mengembangkan alat AI yang memberdayakan ilmuwan untuk menguraikan fungsi dan interaksi protein, menyelidiki set data genomika skala besar untuk identifikasi target, serta mendesain terapi seperti antibodi dan terapi sel. Saat ini, kami menggunakan pustaka distribusi pelatihan seperti FSDP untuk memparalelkan pelatihan model di banyak server berbasis GPU, tetapi ini masih membutuhkan waktu berminggu-minggu bagi kami untuk melatih satu model. Kami sangat senang dapat memanfaatkan instans Amazon EC2 Trn1, yang menghadirkan bandwith jaringan tertinggi (800 Gbps) yang tersedia di AWS untuk meningkatkan performa tugas pelatihan terdistribusi kami dan mengurangi waktu pelatihan model, sekaligus mengurangi biaya pelatihan kami."

Jian Peng, CEO, Helixon

Money Forward

Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil.

“Kami meluncurkan layanan chatbot AI skala besar di instans Amazon EC2 Inf1 dan mengurangi latensi inferensi sebesar 97% dibandingkan instans berbasis GPU sejenisnya sekaligus mengurangi biaya. Saat kami meneruskan menyetel model NLP yang disesuaikan secara berkala, mengurangi waktu dan biaya pelatihan model juga penting. Berdasarkan pengalaman kami dari migrasi beban kerja inferensi yang sukses di instans Inf1 dan pekerjaan awal kami di instans EC2 Trn1 berbasis AWS Trainium, kami mengharapkan instans Trn1 akan menyediakan nilai tambah dalam meningkatkan performa dan biaya ML menyeluruh.”

Takuya Nakade, CTO, Money Forward, Inc.

Magic

Magic adalah perusahaan produk dan riset terintegrasi yang mengembangkan AI yang terasa seperti kolega untuk menjadikan dunia lebih produktif.

“Melatih model berbasis Transformer autoregresif besar adalah komponen penting dari pekerjaan kami. Instans Trn1 yang didukung AWS Trainium didesain khusus untuk beban kerja ini, menawarkan skalabilitas yang hampir tak terbatas, jaringan antar-simpul cepat, serta dukungan lanjutan untuk tipe data 16 dan 8 bit. Instans Trn1 akan membantu kami melatih model besar lebih cepat, dengan biaya lebih rendah. Kami sangat bersemangat dengan dukungan native untuk pembulatan stokastik BF16 di Trainium, meningkatkan performa sekaligus akurasi numerik sama seperti presisi penuh.”

Eric Steinberger, Cofounder dan CEO, Magic

Cactus

CACTUS memiliki rangkaian produk dan solusi untuk peneliti, dan organisasi yang meningkatkan bagaimana riset mendapat dana, diterbitkan, dikomunikasikan, serta ditemukan.

“Di Lab Cactus, kami memanfaatkan kekuatan AI, dengan riset yang berfokus pada pemrosesan bahasa alami, pemeringkatan dan rekomendasi, AI percakapan, model bahasa besar, penglihatan komputer, AR/VR, dan XAI. Selaras dengan upaya kami untuk memungkinkan pelatihan model machine learning yang lebih cepat serta memungkinkan peneliti kami menjalankan lebih banyak eksperimen sekaligus mengelola biaya infrastruktur, kami sangat senang dapat mengevaluasi AWS Trainium. Fitur luar biasa dari AWS Trainium seperti optimisasi XLA, pelatihan paralel data multi-pekerja, dan caching grafis sangat berguna bagi kami untuk mengurangi waktu pelatihan serta membantu kami menjalankan lebih banyak eksperimen secara lebih cepat dan lebih murah.”

Nishchay Shah, CTO dan Head of Emerging Products, Cactus Communications

Watashiha

Watashiha menawarkan layanan chatbot AI yang inovatif dan interaktif, “OGIRI AI,” yang menggabungkan humor untuk memberikan jawaban lucu secara langsung untuk sebuah pertanyaan.

“Kami menggunakan Model Bahasa Besar untuk menggabungkan humor dan menawarkan pengalaman yang lebih relevan dan percakapan kepada pelanggan kami di layanan AI kami. Hal ini mengharuskan kami untuk sering melatih dan menyempurnakan model ini. Kami melatih sebelumnya model bahasa Jepang berbasis GPT di instans Trn1.32xlarge EC2, memanfaatkan tensor dan paralelisme data. Pelatihan ini diselesaikan dalam waktu 28 hari dengan pengurangan biaya 33% dibandingkan infrastruktur berbasis GPU kami sebelumnya. Karena model kami dengan cepat terus tumbuh dalam kompleksitas, kami menantikan instans Trn1n yang memiliki dua kali lipat bandwidth jaringan Trn1 untuk mempercepat pelatihan model yang lebih besar.”

Yohei Kobashi, CTO, Watashiha, K.K.

Partner

“Di PyTorch, kami mempercepat machine learning dari pembuatan prototipe riset ke siap produksi untuk pelanggan. Kami telah bekerja sama sangat erat dengan tim AWS untuk menyediakan dukungan PyTorch native untuk instans Amazon EC2 Trn1 yang didukung AWS Trainium yang dibangun khusus untuk melatih model deep learning. Developer yang membangun model PyTorch dapat memulai pelatihan di instans Trn1 dengan perubahan kode minimal. Selain itu, kami telah bekerja sama dengan komunitas OpenXLA untuk mengaktifkan pustaka Terdistribusi PyTorch untuk migrasi model mudah dari instans berbasis GPU ke instans Trn1. Kami sangat senang dengan inovasi yang dihadirkan instans Trn1 ke komunitas PyTorch, termasuk tipe data yang lebih efisien, bentuk dinamis, operator kustom, pembulatan stokastik perangkat keras yang dioptimalkan, dan mode debug yang disukai. Semua ini membuat Trn1 sangat cocok untuk diadopsi secara luas oleh developer PyTorch dan kami menantikan kontribusi bersama dengan PyTorch pada masa mendatang untuk makin mengoptimalkan performa pelatihan."

Geeta Chauhan, Applied AI, Engineering Manager, PyTorch

"Hugging Face memiliki misi untuk mendemokrasikan ML yang baik untuk membantu developer ML di seluruh dunia memecahkan masalah di dunia nyata. Kunci untuk mewujudkan hal itu adalah dengan memastikan model-model terbaru dan terhebat dapat berjalan secepat dan seefisien mungkin pada cip ML terbaik di cloud. Kami sangat senang dengan potensi Inferentia2 untuk menjadi cara standar baru untuk melakukan deployment model AI generatif dalam skala besar. Dengan Inf1, kami melihat biaya hingga 70% lebih rendah daripada instans berbasis GPU tradisional, dan dengan Inf2, kami telah melihat latensi hingga 8x lebih rendah untuk transformer yang mirip BERT dibandingkan dengan Inferentia1. Dengan Inferentia2, komunitas kami akan dapat dengan mudah menskalakan performa ini ke LLM pada skala parameter 100B+, dan juga model difusi dan penglihatan komputer terbaru."

Layanan Amazon yang menggunakan instans Trn1

Amazon

Mesin pencarian produk Amazon mengindeks miliaran produk, melayani miliaran kueri pelanggan setiap harinya, dan merupakan salah satu layanan yang paling banyak digunakan di dunia.

“Kami melatih large language models (model bahasa besar/LLM) yang multi-modal (teks + gambar), multibahasa, multi- locale, dilatih sebelumnya mengerjakan beberapa tugas, dan menjangkau beberapa entitas (produk, kueri, merek, ulasan, dll.) untuk meningkatkan pengalaman belanja pelanggan. Instans Trn1 menyediakan cara yang lebih berkelanjutan untuk melatih LLM dengan menghadirkan performa/watt terbaik dibandingkan solusi machine learning terakselerasi lainnya dan menawarkan performa tinggi dengan biaya terendah. Kami berencana untuk mengeksplorasi tipe data FP8 baru yang dapat dikonfigurasi, dan pembulatan stokastik yang diakselerasi perangkat keras untuk lebih meningkatkan efisiensi pelatihan dan kecepatan pengembangan kami.”

Trishul Chilimbi, VP, Amazon Search

Memulai

Menggunakan Amazon SageMaker

Anda dapat dengan mudah melatih model pada instans Trn1 dengan menggunakan Amazon SageMaker. Secara signifikan mengurangi waktu dan biaya untuk melatih dan menyetel model ML tanpa perlu mengelola infrastruktur. Dengan SageMaker, Anda dapat menggunakan alat bawaan untuk mengelola dan melacak eksperimen pelatihan, secara otomatis memilih hyperparameter yang optimal, melakukan debug tugas pelatihan, serta memantau penggunaan sumber daya sistem.

Menggunakan AWS Deep Learning AMI

AWS Deep Learning AMI (DLAMI) menyediakan praktisi dan peneliti deep learning (DL) dengan infrastruktur dan alat untuk mempercepat DL di AWS, dalam skala apa pun. Driver AWS Neuron telah dikonfigurasi sebelumnya dalam DLAMI untuk melatih model DL Anda secara optimal pada instans Trn1.

Menggunakan AWS Deep Learning Container

Sekarang Anda dapat melakukan deployment instans Trn1 di Amazon Elastic Kubernetes Service (EKS), layanan Kubernetes terkelola penuh, dan di Amazon Elastic Container Service (ECS), layanan orkestrasi kontainer terkelola penuh. Prainstal Neuron juga tersedia di AWS Deep Learning Containers. Untuk mempelajari selengkapnya tentang menjalankan kontainer pada instans Trn1, lihat tutorial kontainer Neuron.

Detail produk

Ukuran Instans	Cip Trainium	Akselerator Memori (GB)	vCPU	Instans Memori (GiB)	Lokal NVMe Penyimpanan (TB)	Jaringan Bandwidth (Gbps)	EFA dan RDMA Dukungan	EBS Bandwidth (Gbps)	Sesuai Permintaan Harga per Jam	1 Tahun Terpesan Instans Efektif Per jam*	3 Tahun Terpesan Instans Efektif Per jam*
trn1.2xlarge	1	32	8	32	0,5	Hingga 12,5	Tidak	Hingga 20	1,34 USD	0,79 USD	0,4744 USD
trn1.32xlarge	16	512	128	512	8	800	Ya	80	21,50 USD	12,60 USD	7,59 USD
trn1n.32xlarge	16	512	128	512	8	1.600	Ya	80	24,78 USD	14,52 USD	8,59 USD

Daftar akun AWS

Mendaftar akun AWS

Dapatkan akses secara instan ke AWS Tingkat Gratis.

Pelajari dengan tutorial sederhana

Pelajari dengan tutorial 10 menit

Jelajahi dan pelajari dengan tutorial sederhana.

Mulai membangun dengan EC2 di konsol

Mulai membangun di konsol

Mulai membangun dengan panduan langkah demi langkah untuk membantu Anda meluncurkan proyek AWS.