Lewati ke Konten Utama

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod

Skalakan dan percepat pengembangan model AI generatif di ribuan akselerator AI

Apa itu SageMaker HyperPod?

Amazon SageMaker HyperPod menghilangkan pekerjaan berat yang tidak terdiferensiasi yang terlibat dalam pembangunan model AI generatif. Layanan tersebut membantu menskalakan dengan cepat tugas pengembangan model seperti pelatihan, penyempurnaan, atau inferensi di klaster yang terdiri dari ratusan atau ribuan akselerator AI. SageMaker HyperPod memungkinkan tata kelola terpusat di seluruh tugas pengembangan model Anda, yang memberi Anda visibilitas dan kontrol penuh tentang pioritas berbagai tugas, dan alokasi sumber daya komputasi untuk setiap tugas, sehingga membantu Anda memaksimalkan pemanfaatan GPU dan AWS Trainium dari klaster serta mempercepat inovasi.

Dirancang khusus untuk pelatihan terdistribusi dalam skala besar

Dengan SageMaker HyperPod, Anda dapat mendistribusikan dan memparalelkan beban kerja pelatihan secara efisien di semua akselerator. SageMaker HyperPod secara otomatis menerapkan konfigurasi pelatihan terbaik untuk model populer yang tersedia untuk umum guna membantu Anda mencapai performa optimal dengan cepat. Layanan ini juga terus memantau klaster dan mendeteksi kesalahan infrastruktur, secara otomatis memperbaiki masalah, dan memulihkan beban kerja Anda tanpa intervensi manusia. Semua ini membantu Anda menghemat waktu pelatihan hingga 40%.

Keunggulan SageMaker HyperPod

Inovasi tata kelola tugas SageMaker HyperPod memberikan visibilitas dan kontrol penuh atas alokasi sumber daya komputasi di seluruh tugas pengembangan model AI generatif, seperti pelatihan serta inferensi. SageMaker HyperPod secara otomatis mengelola antrean tugas, sehingga memastikan tugas yang paling penting diprioritaskan dan diselesaikan tepat waktu dan sesuai anggaran, sekaligus menggunakan sumber daya komputasi secara lebih efisien untuk mengurangi biaya pengembangan model hingga 40%.

Dengan resep SageMaker HyperPod, ilmuwan data dan developer dari semua jenis keahlian mendapat manfaat dari performa terbaik sambil memulai pelatihan dan menyempurnakan model AI generatif yang tersedia untuk umum dalam hitungan menit. Selain itu, Anda dapat menyesuaikan model fondasi (FM) Amazon Nova, termasuk Nova Micro, Nova Lite, dan Nova Pro untuk kasus penggunaan spesifik bisnis Anda dengan menggunakan resep untuk meningkatkan akurasi aplikasi AI generatif Anda sambil mempertahankan performa harga terbaik di industri dan latensi rendah dari Nova. SageMaker HyperPod juga menyediakan alat eksperimen dan observabilitas bawaan untuk membantu Anda menyempurnakan performa model.

SageMaker HyperPod memungkinkan Anda untuk membagi model dan set data pelatihan secara otomatis di seluruh instans klaster AWS untuk membantu Anda menskalakan beban kerja pelatihan secara efisien. SageMaker AI membantu Anda mengoptimalkan tugas pelatihan untuk infrastruktur jaringan AWS dan topologi klaster. SageMaker HyperPod juga menyederhanakan pemeriksaan titik model melalui resep dengan mengoptimalkan frekuensi penyimpanan titik pemeriksaan, dengan memastikan overhead minimum selama pelatihan.
SageMaker HyperPod menyediakan lingkungan yang tangguh untuk pengembangan model dengan mendeteksi, mendiagnosis, dan memulihkan dari kesalahan infrastruktur secara otomatis, sehingga Anda dapat terus menjalankan beban kerja pengembangan model selama berbulan-bulan tanpa gangguan.

SageMaker HyperPod membantu mempercepat deployment model dengan bobot terbuka dari SageMaker JumpStart serta model yang disempurnakan dari Amazon S3 dan Amazon FSx. Anda dapat menyederhanakan tugas deployment model dengan penyediaan otomatis, manajemen sumber daya komputasi melalui tata kelola tugas, pemantauan performa secara real-time, dan observabilitas yang ditingkatkan.

Memperkenalkan tata kelola tugas di SageMaker HyperPod

Maksimalkan pemanfaatan dan dapatkan visibilitas penuh sumber daya komputasi, sekaligus kurangi biaya.