Amazon SageMaker HyperPod

Kurangi waktu untuk melatih model pondasi hingga 40% dengan infrastruktur yang dibangun khusus untuk pelatihan terdistribusi dalam skala besar

Apa itu Amazon SageMaker HyperPod?

AmazonSageMaker HyperPod menghilangkan beban berat yang tidak terdiferensiasi yang terlibat dalam membangun dan mengoptimalkan infrastruktur machine learning (ML) untuk model fondasi (FM) pelatihan, yang mengurangi waktu pelatihan hingga 40%. SageMaker HyperPod telah dikonfigurasi sebelumnya dengan pustaka pelatihan terdistribusi SageMaker yang memungkinkan pelanggan membagi beban kerja pelatihan secara otomatis ke ribuan akselerator, sehingga beban kerja dapat diproses secara paralel untuk meningkatkan performa model. SageMaker HyperPod juga memastikan pelanggan dapat melanjutkan pelatihan FM tanpa gangguan dengan menyimpan pos pemeriksaan secara berkala. Ketika kegagalan perangkat keras terjadi selama pelatihan, SageMaker HyperPod secara otomatis mendeteksi kegagalan tersebut, memperbaiki atau mengganti instans yang rusak, dan melanjutkan pelatihan dari titik pemeriksaan terakhir yang disimpan, menghilangkan kebutuhan bagi pelanggan untuk mengelola proses ini secara manual, dan membantu mereka berlatih selama seminggu atau berbulan-bulan dalam pengaturan terdistribusi tanpa gangguan.

Manfaat SageMaker HyperPod

Amazon SageMaker HyperPod telah dikonfigurasi sebelumnya dengan pustaka pelatihan terdistribusi Amazon SageMaker, memungkinkan Anda membagi model dan set data pelatihan secara otomatis di seluruh instans klaster AWS untuk membantu Anda menskalakan beban kerja pelatihan secara efisien.
Pustaka pelatihan terdistribusi Amazon SageMaker mengoptimalkan tugas pelatihan Anda untuk infrastruktur jaringan AWS dan topologi klaster melalui dua teknik: paralelisme data dan paralelisme model. Paralelisme model membagi model yang terlalu besar untuk ditampung pada satu GPU menjadi bagian-bagian yang lebih kecil sebelum mendistribusikannya ke beberapa GPU untuk dilatih. Paralelisme data membagi set data besar untuk dilatih secara bersamaan untuk meningkatkan kecepatan pelatihan.
SageMaker HyperPod memungkinkan lingkungan pelatihan yang lebih tangguh dengan mendeteksi, mendiagnosis, dan memulihkan kesalahan secara otomatis, yang memungkinkan Anda untuk terus melatih FM selama berbulan-bulan tanpa gangguan.

Pemeriksaan dan perbaikan kondisi klaster otomatis

Jika ada instans yang rusak selama beban kerja pelatihan, SageMaker HyperPod secara otomatis mendeteksi dan menukar simpul yang rusak dengan simpul yang normal. Untuk mendeteksi perangkat keras yang rusak, SageMaker HyperPod secara rutin menjalankan serangkaian pemeriksaan kondisi untuk GPU dan integritas jaringan. 

Pustaka pelatihan terdistribusi yang dioptimalkan

SageMaker HyperPod telah dikonfigurasi sebelumnya dengan pustaka terdistribusi SageMaker. Dengan hanya beberapa baris kode, Anda dapat mengaktifkan paralelisme data dalam skrip pelatihan Anda. SageMaker HyperPod mempercepat pelaksanaan pelatihan terdistribusi dengan membagi model dan set data pelatihan Anda secara otomatis di seluruh instans GPU AWS.

Pelajari selengkapnya »

Penjadwalan dan orkestrasi beban kerja

Antarmuka pengguna SageMaker HyperPod sangat dapat disesuaikan menggunakan Slurm. Anda dapat memilih dan menginstal kerangka kerja atau alat apa pun yang diperlukan. Semua klaster disediakan dengan tipe dan jumlah instans yang Anda pilih, dan klaster tersebut dipertahankan untuk Anda gunakan di seluruh beban kerja.

Lakukan debug dan tingkatkan performa model

Anda dapat menggunakan alat ML yang dibuat khusus di SageMaker HyperPod untuk meningkatkan performa pelatihan. Amazon SageMaker dengan TensorBoard membantu Anda menghemat waktu pengembangan dengan memvisualisasikan arsitektur model untuk mengidentifikasi dan mengatasi masalah konvergensi, seperti kehilangan validasi, tidak konvergen, atau menghilangnya gradien.

Pelajari selengkapnya »