Dukungan Amazon EKS di Amazon SageMaker HyperPod untuk menskalakan pengembangan model fondasi
Kami sangat senang mengumumkan ketersediaan umum dukungan Amazon EKS di SageMaker HyperPod yang memungkinkan pelanggan menjalankan dan mengelola beban kerja Kubernetes mereka di SageMaker HyperPod, infrastruktur yang dibangun khusus untuk pengembangan model fondasi (FM) yang mengurangi waktu untuk melatih model hingga 40%.
Banyak pelanggan menggunakan Kubernetes untuk mengatur alur kerja ML mereka karena portabilitas, skalabilitas, dan ekosistem alat yang kaya. Pelanggan ini ingin terus menggunakan antarmuka Kubernetes yang sudah dikenal, tetapi masih menginginkan cara otomatis untuk mengelola kegagalan perangkat keras. Dukungan EKS di HyperPod menggabungkan manfaat SageMaker HyperPod yang menawarkan klaster kinerja penyembuhan mandiri dengan kemampuan pembuatan kontainer Amazon EKS, layanan Kubernetes terkelola. Dengan peluncuran ini, pelanggan dapat menjalankan pemeriksaan kondisi mendalam selama pembuatan klaster untuk mengurangi kegagalan selama pelatihan. Selanjutnya, HyperPod secara otomatis menggantikan simpul yang rusak dan melanjutkan pelatihan dari pos pemeriksaan terakhir Anda di AWS Trainium dan GPU Nvidia pada skala lebih dari seribu akselerator. Pelanggan memiliki fleksibilitas untuk menggunakan HyperPod CLI baru, atau alat pilihan mereka, untuk mengirimkan, mengelola, dan memantau beban kerja. Lingkungan klaster persisten menawarkan akses ssm dan kemampuan untuk menyesuaikan klaster. Klaster HyperPod yang diatur EKS juga terintegrasi dengan Wawasan Kontainer CloudWatch untuk memberikan observabilitas langsung, dengan menemukan status kesehatan simpul HyperPod secara otomatis dan memvisualisasikannya di dasbor yang telah dikurasi.
Rilis ini umumnya tersedia di AWS Region tempat SageMaker HyperPod tersedia kecuali Eropa (London).
Untuk mempelajari lebih lanjut, lihat daftar sumber daya berikut: Halaman Web, Blog Berita AWS, Dokumentasi, repositori Github.