Amazon SageMaker HyperPod artık kontrol noktasız eğitimi destekliyor
Amazon SageMaker HyperPod artık hata kurtarma için kontrol noktası tabanlı, iş düzeyinde yeniden başlatma ihtiyacını azaltan yeni bir temel model eğitimi özelliği olan kontrol noktası gerektirmeyen eğitimi destekliyor. Kontrol noktasız eğitim, arızalara rağmen ileriye dönük eğitim ivmesini sürdürür ve iyileşme süresini saatlerden dakikalara indirir. Bu çözüm, geleneksel kontrol noktası tabanlı kurtarmaya göre temel bir değişikliği yansıtır. Geleneksel kurtarmada, arızalar tüm eğitim kümesinin duraklatılmasını, sorunların manuel olarak teşhis edilmesini ve kaydedilen kontrol noktalarından geri yüklenmesini gerektirir. Bu süreç, pahalı yapay zeka hızlandırıcılarının saatlerce atıl kalmasına neden olarak kuruluşunuzun bilgi işlem kaynaklarını boşa harcamasına neden olabilir.
Kontrol noktasız eğitim, dağıtılmış küme genelinde model eğitim durumunu koruyarak, hatalı eğitim düğümlerini anında otomatik olarak değiştirerek ve arıza kurtarma için sağlıklı hızlandırıcıların eşler arası durum aktarımını kullanarak bu paradigmayı dönüştürür. Kontrol noktasız eğitim, kurtarma sırasında kontrol noktası bağımlılıklarını azaltarak kuruluşunuzun atıl yapay zeka hızlandırıcı maliyetlerinden tasarruf etmesine ve süreci hızlandırmasına yardımcı olabilir. Amazon SageMaker HyperPod üzerinde kontrol noktasız eğitim, daha büyük ölçeklerde bile binlerce yapay zeka hızlandırıcısına sahip küme boyutlarında %95'in üzerinde eğitim verimliliği sağlar.
SageMaker HyperPod'da kontrol noktasız eğitim, Amazon SageMaker HyperPod'un şu anda kullanılabildiği tüm AWS bölgelerinde mevcuttur. Llama ve GPT OSS gibi popüler, herkese açık modeller için HyperPod tariflerini kullanarak kod değişikliği yapmadan kontrol noktasız eğitimi etkinleştirebilirsiniz. Özel model mimarilerinde, PyTorch tabanlı iş akışlarına ilişkin minimum değişikliklerle kontrol noktasız eğitim bileşenlerini entegre edebilir ve dağıtılmış eğitim uzmanlıklarından bağımsız olarak ekiplerinizin erişimine sunabilirsiniz.
Kullanmaya başlamak için Amazon SageMaker HyperPod ürün sayfasını ziyaret edin ve uygulama kılavuzu için kontrol noktasız eğitim GitHub sayfasını inceleyin.