AWS PCS kini menyediakan Deep Learning AMI yang siap digunakan di lingkungan produksi
Hari ini, Layanan Komputasi Paralel AWS (AWS PCS) meluncurkan DLAMI yang siap untuk PCS, yaitu Amazon Machine Image yang dikelola oleh AWS dan dibangun di atas Deep Learning Base GPU AMI (Ubuntu 24.04). Platform ini menyediakan fondasi berkualitas produksi untuk pelatihan AI/ML dan komputasi performa tinggi (HPC), dengan komponen infrastruktur inti yang telah diinstal sebelumnya dan diuji kompatibilitasnya.
AWS PCS adalah layanan terkelola yang memudahkan Anda menjalankan dan meningkatkan skala beban kerja HPC serta membangun model ilmiah dan teknik di AWS menggunakan Slurm. Anda dapat menggunakan AWS PCS untuk membangun lingkungan yang lengkap dan elastis yang mengintegrasikan alat komputasi, penyimpanan, jaringan, dan visualisasi. AWS PCS menyederhanakan operasi klaster dengan pembaruan terkelola dan fitur observabilitas bawaan, yang membantu menghapus beban pemeliharaan. Anda dapat bekerja di lingkungan familier, yang berfokus pada penelitian dan inovasi Anda, alih-alih mengkhawatirkan infrastruktur.
AMI ini mewarisi sistem operasi, driver GPU NVIDIA, toolkit CUDA, driver EFA, dan klien Lustre dari sumber Deep Learning Base GPU AMI, serta menambahkan PCS Agent, Slurm for PCS, dan utilitas EFS. Beberapa versi Slurm yang didukung disertakan, dan versi yang tepat akan aktif secara otomatis berdasarkan konfigurasi klaster Anda. Anda dapat menambahkan kerangka kerja, pustaka, dan perangkat lunak aplikasi di atasnya untuk melengkapi lingkungan Anda. AWS merilis AMI yang diperbarui secara berkala ketika komponen DLAMI atau PCS sumber diperbarui, menyediakan patch keamanan dan pembaruan driver yang berkelanjutan.
DLAMI yang siap untuk AWS PCS tersedia untuk arsitektur x86_64 dan arm64 tanpa biaya tambahan di semua AWS Region tempat AWS PCS tersedia. Untuk memulai, tentukan AMI yang siap PCS saat mengkonfigurasi grup simpul komputasi Anda. Untuk informasi selengkapnya, lihat Menggunakan DLAMI yang siap PCS di Panduan Pengguna AWS PCS. Untuk arsitektur klaster referensi yang dibangun di atas DLAMI yang siap PCS, lihat repositori awesome-distributed-ai di GitHub.