Amazon SageMaker Model Training

Latih model ML dengan cepat dan hemat biaya

Apa itu Amazon SageMaker Model Training?

Pelatihan Model Amazon SageMaker mengurangi waktu dan biaya untuk melatih serta menyetel model machine learning (ML) dalam skala besar tanpa perlu mengelola infrastruktur. Anda dapat memanfaatkan infrastruktur komputasi ML beperforma tertinggi yang saat ini tersedia dan SageMaker dapat secara otomatis menaikkan atau menurunkan skala infrastruktur, dari satu hingga ribuan GPU. Karena hanya membayar untuk yang digunakan, Anda dapat mengelola biaya pelatihan dengan lebih efektif. Untuk melatih model deep learning lebih cepat, SageMaker membantu Anda memilih dan menyempurnakan set data secara waktu nyata. Pustaka pelatihan terdistribusi SageMaker dapat membagi model besar dan set data pelatihan secara otomatis di seluruh instans AWS GPU atau Anda dapat menggunakan pustaka pihak ketiga, seperti DeepSpeed, Horovod, atau Megatron. Latih model fondasi (FM) selama berminggu-minggu dan berbulan-bulan tanpa gangguan dengan memantau dan memperbaiki klaster pelatihan secara otomatis.

Cara kerja

Latih dan sesuaikan model ML dalam skala besar dengan alat ML canggih dan infrastruktur komputasi ML yang memiliki performa tertinggi.

Cara Kerja Pelatihan Model SageMaker

Keuntungan pelatihan hemat biaya

Amazon SageMaker menawarkan berbagai pilihan GPU dan CPU serta akselerator AWS, seperti AWS Trainium dan AWS Inferentia, untuk memungkinkan pelatihan model skala besar. SageMaker secara otomatis menaikkan atau menurunkan skala infrastruktur, mulai dari satu hingga ribuan GPU. SageMaker HyperPod dibuat khusus untuk pelatihan terdistribusi skala besar, sehingga Anda dapat melatih model fondasi (FM) lebih cepat.
Dengan hanya beberapa baris kode, Anda dapat menambahkan paralelisme data atau paralelisme model ke skrip pelatihan Anda. SageMaker membuatnya lebih cepat untuk melakukan pelatihan terdistribusi dengan secara otomatis membagi model dan set data pelatihan Anda di seluruh instans AWS GPU.
SageMaker dapat secara otomatis menyesuaikan model Anda dengan menyesuaikan ribuan kombinasi parameter algoritma untuk mendapatkan prediksi yang paling akurat. Gunakan alat debugging dan pembuatan profil untuk memperbaiki masalah performa serta mengoptimalkan performa pelatihan dengan cepat.
SageMaker memungkinkan eksperimen ML yang efisien untuk membantu Anda melacak iterasi model ML dengan lebih mudah. Tingkatkan performa pelatihan model dengan memvisualisasikan arsitektur model untuk mengidentifikasi dan memperbaiki masalah konvergensi.

Latih model dalam skala besar

Tugas pelatihan terkelola penuh

Tugas pelatihan Amazon SageMaker menawarkan pengalaman pengguna terkelola penuh untuk pelatihan FM terdistribusi yang besar, sehingga menghilangkan beban berat yang tidak terdiferensiasi di sekitar manajemen infrastruktur. Tugas pelatihan SageMaker secara otomatis memulai klaster pelatihan terdistribusi yang tangguh, memantau infrastruktur, dan memulihkan secara otomatis dari kesalahan untuk memastikan pengalaman pelatihan yang lancar. Setelah pelatihan selesai, SageMaker menghentikan klaster dan Anda akan ditagih untuk waktu pelatihan bersih. Selain itu, dengan tugas pelatihan SageMaker, Anda memiliki fleksibilitas untuk memilih tipe instans yang tepat agar sesuai dengan beban kerja individu (misalnya, melatih LLM terlebih dahulu pada klaster P5 atau menyempurnakan LLM sumber terbuka pada instans p4d) untuk lebih mengoptimalkan anggaran pelatihan Anda. Selain itu, tugas tersebut menawarkan pengalaman pengguna yang konsisten di seluruh tim ML dengan berbagai tingkat keahlian teknis dan tipe beban kerja yang berbeda.

Pelajari selengkapnya

Amazon SageMaker HyperPod

Amazon SageMake HyperPod adalah infrastruktur yang dibangun khusus untuk mengelola klaster komputasi secara efisien guna menskalakan pengembangan model fondasi (FM). Infrastruktur tersebut memungkinkan teknik pelatihan model, kontrol infrastruktur, optimisasi performa, dan peningkatan observabilitas model tingkat lanjut. SageMaker HyperPod telah dikonfigurasi sebelumnya dengan pustaka pelatihan terdistribusi Amazon SageMaker, sehingga Anda dapat membagi model dan set data pelatihan secara otomatis di seluruh instans klaster AWS untuk membantu Anda memanfaatkan infrastruktur komputasi dan jaringan klaster secara efisien. SageMaker HyperPod memungkinkan lingkungan yang lebih tangguh dengan mendeteksi, mendiagnosis, dan memulihkan dari kesalahan perangkat keras secara otomatis, sehingga Anda dapat terus melatih FM selama berbulan-bulan tanpa gangguan dan mengurangi waktu pelatihan hingga 40%.

Pelajari selengkapnya

Pelajari selengkapnya

Pelatihan terdistribusi performa tinggi

Dengan hanya beberapa baris kode, Anda dapat menambahkan paralelisme data atau paralelisme model ke skrip pelatihan Anda. SageMaker membuatnya lebih cepat untuk melakukan pelatihan terdistribusi dengan secara otomatis membagi model dan set data pelatihan Anda di seluruh instans AWS GPU. 

Pelajari selengkapnya

Alat bawaan untuk akurasi tertinggi dan biaya terendah

Penyetelan Model Otomatis

SageMaker dapat secara otomatis menyetel model Anda dengan menyesuaikan ribuan kombinasi parameter algoritma untuk sampai pada prediksi yang paling akurat, menghemat berminggu-minggu usaha. Hal ini membantu Anda menemukan versi model terbaik dengan menjalankan banyak tugas pelatihan pada set data Anda.

Alur Kerja Pelatihan ML

Pelatihan Spot Terkelola

SageMaker membantu mengurangi biaya pelatihan hingga 90 persen dengan secara otomatis menjalankan tugas pelatihan ketika kapasitas komputasi tersedia. Tugas pelatihan ini juga tahan terhadap gangguan yang disebabkan oleh perubahan kapasitas.

Pelajari selengkapnya

Debugging

Amazon SageMaker Debugger menangkap tugas pelatihan metrik dan profil secara waktu nyata sehingga Anda dapat dengan cepat memperbaiki masalah performa sebelum melakukan deployment model ke produksi. Anda juga dapat terhubung dari jarak jauh ke lingkungan pelatihan model di Amazon SageMaker untuk debugging dengan akses ke kontainer pelatihan dasar.

Penyetelan Model Otomatis

Profiler

Amazon SageMaker Profiler membantu Anda mengoptimalkan performa pelatihan dengan wawasan pembuatan profil perangkat keras terperinci termasuk metrik pemanfaatan GPU dan CPU agregat, plot pelacakan GPU/CPU resolusi tinggi, anotasi kustom, dan visibilitas ke dalam pemanfaatan presisi campuran.
Pelatihan Spot Terkelola