Amazon SageMaker HyperPod, gelişmiş yaşam döngüsü komut dosyaları hata ayıklaması sunar
Amazon SageMaker HyperPod artık yaşam döngüsü komut dosyaları için gelişmiş sorun giderme özellikleri sunarak küme düğümü sağlama sırasında sorun tanımlamayı ve çözümlemeyi kolaylaştırıyor. SageMaker HyperPod, yapay zeka/makine öğrenimi iş yüklerini çalıştırmak ve büyük dil modelleri (LLM'ler), difüzyon modelleri ve altyapı modelleri (FM'ler) gibi son teknoloji modelleri geliştirmek için esnek kümeler oluşturmanıza yardımcı olur.
Yaşım döngüsü komut dosyaları küme oluşturma veya düğüm işlemleri sırasında sorunlarla karşılaştığında, artık yaşam döngüsü komut dosyalarının yürütme günlüklerini bulabileceğiniz belirli CloudWatch günlük grubu ve günlük akış adları içeren ayrıntılı hata iletileri alırsınız. Bu hata iletilerini DescribeCluster API'sini çalıştırarak veya SageMaker konsolunda küme ayrıntıları sayfasını görüntüleyerek görüntüleyebilirsiniz. Konsolda ayrıca doğrudan ilgili CloudWatch günlük akışına giden ve günlükleri bulmayı kolaylaştıran bir "Yaşım döngüsü komut dosyası günlüklerini görüntüle" düğmesi bulunur. Ek olarak, yaşam döngüsü komut dosyalarına yönelik CloudWatch günlükleri artık yaşam döngüsü komut dosyası günlüğünün ne zaman başladığına, komut dosyalarının ne zaman indirildiğine, indirmelerin ne zaman tamamlandığına ve komut dosyalarının ne zaman başarılı veya başarısız olduğuna dair göstergeler de dahil olmak üzere yaşam döngüsü komut dosyası yürütme ilerlemesini izlemenize yardımcı olacak belirli işaretler içerir. Bu işaretleyiciler, tedarik etme işlemi sırasında sorunların nerede oluştuğunu hızlı bir şekilde belirlemenize yardımcı olur. Bu geliştirmeler, yaşam döngüsü komut dosyası hatalarını teşhis etmek ve düzeltmek için gereken süreyi kısaltarak HyperPod kümelerinizi daha hızlı çalışır duruma getirmenize yardımcı olur.
Bu özellik, Amazon SageMaker HyperPod'un desteklendiği tüm AWS Bölgelerinde kullanılabilir. Daha fazla bilgi edinmek için Amazon SageMaker Geliştirici Kılavuzu'ndaki SageMaker HyperPod küme yönetimi bölümüne bakın.