Amazon SageMaker HyperPod özellikleri

Binlerce yapay zeka hızlandırıcısında üretken yapay zeka modeli geliştirmeyi ölçeklendirin ve hızlandırın

Görev yönetişimi

Amazon SageMaker HyperPod, eğitim ve çıkarım gibi üretken yapay zekâ modeli geliştirme görevlerinde işlem kaynağı tahsisi üzerinde tam görünürlük ve kontrol sağlar. SageMaker HyperPod görev kuyruklarını otomatik olarak yönetir ve en kritik görevlerin önceliklendirilmesini sağlarken, model geliştirme maliyetlerini düşürmek için bilgi işlem kaynaklarını daha verimli kullanır. Yöneticiler birkaç kısa adımda farklı görevler için öncelikler tanımlayabilir ve her ekibin veya projenin kaç işlem kaynağı kullanabileceğine ilişkin sınırlar belirleyebilir. Ardından, veri bilimcileri ve geliştiricileri, yöneticinin belirlediği bilgi işlem kaynağı sınırlarına ve önceliklerine bağlı kalarak SageMaker HyperPod'un otomatik olarak çalıştırdığı görevler (örneğin, bir eğitim çalışması, belirli bir modelde ince ayar yapma veya eğitimli bir model üzerinde tahminler yapma) oluşturur. Yüksek öncelikli bir görevin hemen tamamlanması gerektiğinde tüm bilgi işlem kaynakları kullanımdaysa, SageMaker HyperPod, bilgi işlem kaynaklarını otomatik olarak düşük öncelikli görevlerden kurtarır. Ek olarak, SageMaker HyperPod, bekleyen görevleri hızlandırmak için boş bilgi işlem kaynaklarını otomatik olarak kullanır. SageMaker HyperPod, yöneticilerin çalışan veya bilgi işlem kaynaklarını bekleyen görevleri izleyebilecekleri ve denetleyebilecekleri bir gösterge tablosu sağlar.

Daha fazla bilgi edinin

Esnek eğitim planları

Eğitim zaman çizelgelerinizi ve bütçelerinizi karşılamak için SageMaker HyperPod, birden fazla bilgi işlem kapasitesi bloğundan bilgi işlem kaynaklarını kullanan en uygun maliyetli eğitim planlarını oluşturmanıza yardımcı olur. Eğitim planlarını onayladıktan sonra, SageMaker HyperPod altyapıyı otomatik olarak sağlar ve bu bilgi işlem kaynakları üzerinde herhangi bir manuel müdahale gerektirmeden eğitim işlerini çalıştırır. İşleri hesaplama kullanılabilirliği ile uyumlu hale getirmek üzere eğitim sürecini yönetmek için haftalarca çabadan tasarruf edersiniz.

Daha fazla bilgi edinin

 

Optimize edilmiş tarifler

SageMaker HyperPod tarifleri, veri bilimcilerinin ve tüm beceri setlerinin geliştiricilerinin, Llama 3.1 405B, Mixtral 8x22B ve Mistral 7B dahil olmak üzere herkese açık üretken yapay zeka modellerini hızla eğitmeye ve ince ayarlara başlarken en son performanstan yararlanmalarına yardımcı olur. Her tarif, AWS tarafından test edilmiş ve farklı model yapılandırmalarını test eden haftalarca süren sıkıcı çalışmaları ortadan kaldıran bir eğitim yığını içerir. Tek satırlı bir tarif değişikliği ile GPU tabanlı ve AWS Trainium tabanlı bulut sunucuları arasında geçiş yapabilir, geliştirilmiş eğitim esnekliği için otomatik model kontrol işaretlemesini etkinleştirebilir ve SageMaker HyperPod üzerinde üretimde iş yüklerini çalıştırabilirsiniz.

 

Yüksek performanslı dağıtılmış eğitim

SageMaker HyperPod, modellerinizi ve eğitim veri kümelerinizi AWS hızlandırıcılar arasında otomatik olarak bölerek dağıtılmış eğitim gerçekleştirmeyi daha hızlı hale getirir. AWS ağ altyapısı ve küme topolojisi için eğitim işinizi optimize etmenize ve kontrol noktalarını kaydetme sıklığını optimize ederek eğitim sırasında minimum ek yük sağlayarak model kontrol işaretlemeyi kolaylaştırmanıza yardımcı olur.

Gelişmiş deney ve gözlemlenebilirlik araçları

Model performansını iyileştirmek için SageMaker HyperPod'daki yerleşik yapay zeka araçlarını kullanabilirsiniz. Örneğin, SageMaker'daki yönetilen TensorBoard, yakınsama sorunlarını tanımlamak ve düzeltmek için model mimarisini görselleştirerek geliştirme süresinden tasarruf etmenize yardımcı olur. Amazon CloudWatch Container Öngörüleri ile entegrasyon; küme performansı, durumu ve kullanım hakkında daha derin öngörüler sağlar. SageMaker'daki yönetilen MLFlow, deneyleri uygun ölçekte verimli bir şekilde yönetmenize yardımcı olur.

İş yükü planlaması ve düzenlemesi

SageMaker HyperPod kullanıcı arabirimi, Slurm veya Amazon Esnek Kubernetes Hizmeti (Amazon EKS) kullanılarak son derece özelleştirilebilir. Gerekli tüm çerçeveleri veya araçları seçebilir ve yükleyebilirsiniz. Tüm kümeler, seçtiğiniz bulut sunucusu türü ve sayısı ile sağlanır ve iş yükleri arasında kullanmanız için saklanır. SageMaker HyperPod'daki Amazon EKS desteği sayesinde, kümeleri tutarlı bir Kubernetes tabanlı yönetici deneyimiyle yönetebilir ve çalıştırabilirsiniz. Eğitimden ince ayarlamaya ve çıkarıma kadar iş yüklerini verimli bir şekilde çalıştırın ve ölçeklendirin. Ayrıca işlem kapasitesini paylaşabilir ve farklı iş yükleri türleri için Slurm ve Amazon EKS arasında geçiş yapabilirsiniz.

Otomatik küme durumu denetimi ve onarımı

Model geliştirme iş yükü sırasında herhangi bir bulut sunucusu arızalanırsa, SageMaker HyperPod altyapı sorunlarını otomatik olarak algılar ve giderir. Hatalı donanımı tespit etmek için SageMaker HyperPod düzenli olarak hızlandırıcı ve ağ bütünlüğüne yönelik bir dizi durum denetimi çalıştırır.