Fitur Amazon SageMaker HyperPod
Skalakan dan percepat pengembangan model AI generatif di ribuan akselerator AI
Tata kelola tugas
Amazon SageMaker HyperPod memberikan visibilitas penuh dan kontrol atas alokasi sumber daya komputasi di seluruh tugas pengembangan model AI generatif, seperti pelatihan dan inferensi. SageMaker HyperPod secara otomatis mengelola antrean tugas, dengan memastikan bahwa tugas yang paling penting diprioritaskan, sembari menggunakan sumber daya komputasi secara lebih efisien untuk mengurangi biaya pengembangan model. Dalam beberapa langkah singkat, administrator dapat menentukan prioritas untuk tugas yang berbeda dan menetapkan batas jumlah sumber daya komputasi yang dapat digunakan oleh setiap tim atau proyek. Kemudian, ilmuwan data dan developer membuat tugas (misalnya, menjalankan pelatihan, menyempurnakan model tertentu, atau membuat prediksi pada model terlatih) yang dijalankan secara otomatis oleh SageMaker HyperPod, dengan mengikuti batas sumber daya komputasi dan prioritas yang ditetapkan administrator. Ketika tugas prioritas tinggi perlu diselesaikan segera tetapi semua sumber daya komputasi digunakan, SageMaker HyperPod secara otomatis membebaskan sumber daya komputasi dari tugas prioritas rendah. Selain itu, SageMaker HyperPod secara otomatis menggunakan sumber daya komputasi idle untuk mempercepat tugas yang menunggu. SageMaker HyperPod menyediakan dasbor tempat administrator dapat memantau dan mengaudit tugas yang sedang berjalan atau menunggu sumber daya komputasi.
Rencana pelatihan yang fleksibel
Untuk memenuhi jadwal dan anggaran pelatihan, SageMaker HyperPod membantu Anda membuat rencana pelatihan paling hemat biaya yang menggunakan sumber daya komputasi dari banyak blok kapasitas komputasi. Setelah Anda menyetujui rencana pelatihan, SageMaker HyperPod secara otomatis menyediakan infrastruktur dan menjalankan tugas pelatihan pada sumber daya komputasi ini tanpa memerlukan intervensi manual apa pun. Anda menghemat waktu berminggu-minggu dalam upaya mengelola proses pelatihan untuk menyelaraskan pekerjaan dengan ketersediaan komputasi.
Resep yang dioptimalkan
Resep SageMaker HyperPod membantu ilmuwan data dan developer dari semua keterampilan mendapatkan manfaat dari performa terbaik sambil dengan cepat memulai pelatihan dan menyempurnakan model AI generatif yang tersedia untuk umum, termasuk Llama 3.1 405B, Mixtral 8x22B, dan Mistral 7B. Setiap resep menyertakan tumpukan pelatihan yang telah diuji oleh AWS, yang menghilangkan berminggu-minggu pekerjaan yang membosankan untuk menguji konfigurasi model yang berbeda. Anda dapat beralih antara instans berbasis GPU dan AWS Trainium dengan perubahan resep satu baris, mengaktifkan titik pemeriksaan model otomatis untuk meningkatkan ketahanan pelatihan, dan menjalankan beban kerja dalam produksi di SageMaker HyperPod.
Pelatihan terdistribusi performa tinggi
SageMaker HyperPod mempercepat pelaksanaan pelatihan terdistribusi dengan membagi model dan set data pelatihan Anda secara otomatis di seluruh akselerator AWS. Hal ini membantu Anda mengoptimalkan tugas pelatihan untuk infrastruktur jaringan AWS dan topologi klaster serta menyederhanakan penyimpanan titik pemeriksaan model dengan mengoptimalkan frekuensi penghematan titik pemeriksaan, sehingga memastikan overhead tetap minimum selama pelatihan.
Alat eksperimen dan observabilitas tingkat lanjut
Anda dapat menggunakan alat AI bawaan di SageMaker HyperPod untuk meningkatkan performa model. Misalnya, TensorBoard terkelola di SageMaker membantu Anda menghemat waktu pengembangan dengan memvisualisasikan arsitektur model untuk mengidentifikasi dan memperbaiki masalah konvergensi. Integrasi dengan Wawasan Kontainer Amazon CloudWatch memberikan wawasan yang lebih dalam tentang performa, kondisi, dan penggunaan klaster. MLflow terkelola di SageMaker membantu Anda mengelola eksperimen secara efisien dalam skala besar.
Penjadwalan dan orkestrasi beban kerja
Antarmuka pengguna SageMaker HyperPod sangat mudah disesuaikan dengan menggunakan Slurm atau Amazon Elastic Kubernetes Service (Amazon EKS). Anda dapat memilih dan menginstal kerangka kerja atau alat apa pun yang diperlukan. Semua klaster disediakan dengan tipe dan jumlah instans yang Anda pilih, dan klaster tersebut dipertahankan untuk Anda gunakan di seluruh beban kerja. Dengan dukungan Amazon EKS di SageMaker HyperPod, Anda dapat mengelola dan mengoperasikan klaster dengan pengalaman administrator berbasis Kubernetes yang konsisten. Jalankan dan skalakan beban kerja secara efisien, mulai dari pelatihan ke penyetelan hingga inferensi. Anda juga dapat berbagi kapasitas komputasi dan beralih antara Slurm dan Amazon EKS dengan mudah untuk berbagai jenis beban kerja.
Pemeriksaan dan perbaikan kondisi klaster otomatis
Jika ada instans yang rusak selama beban kerja pengembangan model, SageMaker HyperPod secara otomatis mendeteksi dan mengatasi masalah infrastruktur. Untuk mendeteksi perangkat keras yang rusak, SageMaker HyperPod secara rutin menjalankan serangkaian pemeriksaan kondisi untuk integritas akselerator dan jaringan.