Amazon SageMaker HyperPod kini menawarkan kemampuan pemecahan masalah untuk asisten pengkodean AI
Amazon SageMaker HyperPod kini menyediakan kemampuan pemecahan masalah yang menghadirkan diagnostik klaster AI/ML tingkat ahli langsung ke asisten pengkodean AI seperti Claude Code, Cursor, dan Kiro. SageMaker HyperPod adalah infrastruktur yang dibangun khusus untuk mengembangkan, melatih, dan menerapkan model dasar dalam skala besar. Solusi ini menyediakan lingkungan yang tangguh dan berkinerja tinggi dengan toleransi kesalahan bawaan, dan pemulihan klaster otomatis, mengurangi beban kerja berat yang tidak perlu dalam mengelola infrastruktur AI/ML skala besar. Kemampuan HyperPod memungkinkan Anda untuk mendiagnosis dan menyelesaikan masalah klaster melalui bahasa alami, mengurangi waktu dan keahlian yang dibutuhkan untuk memecahkan masalah infrastruktur pelatihan dan inferensi terdistribusi.
Men-debug kesalahan perangkat keras GPU, mendiagnosis kegagalan komunikasi NCCL, dan mengidentifikasi hambatan kinerja di seluruh klaster terdistribusi besar tetap kompleks dan memakan waktu. Operator seringkali perlu mengakses simpul melalui SSM secara manual, mengurai log di puluhan instans, dan mencocokkan dokumentasi. Kemampuan pemecahan masalah HyperPod yang baru membantu mempercepat waktu penyelesaian masalah dengan kemampuan yang mencakup validasi kesehatan klaster, diagnostik perangkat keras dan komunikasi, penyimpangan versi perangkat lunak, dan pelaporan diagnostik otomatis. Setiap kemampuan menggabungkan praktik terbaik AWS ke dalam alur kerja diagnostik terstruktur yang secara sistematis memandu agen AI untuk mengumpulkan bukti dari simpul klaster Anda melalui AWS Systems Manager, menganalisis pola, dan memberikan rekomendasi yang dapat ditindaklanjuti. Kemampuan ini dapat digunakan dengan infrastruktur HyperPod Anda yang sudah ada — tidak diperlukan modifikasi apa pun.
Kemampuan pemecahan masalah HyperPod bersifat open source dan tersedia saat ini untuk klaster HyperPod yang diatur oleh Slurm dan Amazon EKS melalui plugin kemampuan AI SageMaker. Untuk memulai, kunjungi repositori github AWSLabs untuk menginstal plugin sagemaker-ai di asisten pengkodean pilihan Anda.