Amazon SageMaker Model Eğitimi

ML ve üretken yapay zeka modellerini eğitin ve ince ayar yapın

SageMaker Model Eğitimi nedir?

Amazon SageMaker Model Eğitimi, makine öğrenimi (ML) modellerini altyapıyı yönetmeye gerek kalmadan geniş ölçekte eğitip ayarlama süresini ve maliyetini azaltır. Hem şu anda mevcut olan en yüksek performanslı ML işlem altyapısından yararlanırsınız hem de Amazon SageMaker AI, altyapı ölçeğini bir ila binlerce GPU arasında otomatik olarak artırıp azaltabilir. SageMaker AI, derin öğrenme modellerini daha hızlı eğitmek için veri kümelerini gerçek zamanlı olarak seçmenize ve iyileştirmenize yardımcı olur. SageMaker'la dağıtılmış eğitim kitaplıkları, büyük modelleri ve eğitim veri kümelerini AWS GPU bulut sunucuları arasında otomatik olarak bölebilir. Dilerseniz DeepSpeed, Horovod ya da Megatron gibi üçüncü taraf kitaplıklarını da kullanabilirsiniz. Eğitim kümelerini otomatik olarak izleyerek ve onararak altyapı modellerini (FM) haftalar ve aylarca kesintisiz olarak eğitin.

Uygun maliyetli eğitimin faydaları

Modelleri geniş ölçekte eğitin

Tam olarak yönetilen eğitim işleri

SageMaker eğitim işleri; büyük ölçekli, dağıtılmış FM eğitimi için tam olarak yönetilen bir kullanıcı deneyimi sunarak altyapı yönetiminin tekdüze ağır işlerini ortadan kaldırır. SageMaker eğitim işleri, esnek bir dağıtılmış eğitim kümesini otomatik olarak çalıştırır, altyapıyı izler ve sorunsuz bir eğitim deneyimi sağlamak için hatalardan otomatik olarak kurtarır. Eğitim tamamlandığında, SageMaker kümeyi döndürür ve net eğitim süresi için faturalandırılırsınız. Ayrıca SageMaker eğitim işlerinde, eğitim bütçenizi daha da optimize etmek için tek bir iş yüküne en uygun bulut sunucusu türünü seçme (örneğin, bir büyük dil modelini (LLM) önceden eğitmek için bir P5 kümesi veya açık kaynak bir LLM üzerinde ince ayar yapmak için p4d bulut sunucuları) esnekliğine sahip olursunuz. Buna ek olarak SagerMaker eğitim işleri, çeşitli teknik uzmanlık seviyelerine ve farklı iş yükü türlerine sahip ML ekipleri arasında tutarlı bir kullanıcı deneyimi sunar.

Daha fazla bilgi edinin

SageMaker HyperPod

Amazon SageMaker HyperPod, altyapı modeli (FM) geliştirmeyi ölçeklendirmek üzere bilgi işlem kümelerini verimli bir şekilde yönetmek için amaca yönelik oluşturulmuş bir altyapıdır. Gelişmiş model eğitimi teknikleri, altyapı kontrolü, performans optimizasyonu ve gelişmiş model gözlemlenebilirliği sağlar. SageMaker HyperPod, SageMaker'ın dağıtılmış eğitim kitaplıklarıyla önceden yapılandırıldığından, kümenin hem işlem hem de ağ altyapısını verimli kullanmak için modelleri ve eğitim veri kümelerini AWS küme bulut sunucuları arasında otomatik olarak bölmenize olanak tanır. Donanım hatalarını otomatik olarak algılayarak, teşhis ederek ve kurtararak daha dayanıklı bir eğitim ortamı sağlar ve FM'leri aylar boyunca kesintisiz olarak eğitmenizi sağlayarak eğitim süresini %40'a kadar azaltır.

Daha fazla bilgi edinin

Yüksek performanslı dağıtılmış eğitim

SageMaker AI, modellerinizi ve eğitim veri kümelerinizi AWS GPU bulut sunucuları arasında otomatik olarak bölerek dağıtılmış eğitim gerçekleştirmeyi daha hızlı hale getirir. Eğitim işinizi AWS ağ altyapısı ve küme topolojisi için optimize etmenize yardımcı olur. Ayrıca denetim noktalarını kaydetme sıklığını optimize ederek tarifler aracılığıyla model denetim noktası işaretlemeyi kolaylaştırır ve eğitim sırasında minimum ek yük sağlar. Tariflerle, veri bilimcileri ve tüm beceri setlerinin geliştiricileri, Llama 3.1 405B, Mixtral 8x22B ve Mistral 7B dahil olmak üzere halka açık üretken yapay zeka modellerini hızla eğitmeye ve ince ayarlara başlarken son teknoloji performanstan yararlanır. Tarifler, AWS tarafından test edilmiş ve farklı model yapılandırmalarını test eden haftalarca süren sıkıcı çalışmaları ortadan kaldıran bir eğitim yığını içerir. Tek satırlık bir tarif değişikliğiyle GPU tabanlı ve AWS Trainium tabanlı bulut sunucuları arasında geçiş yapabilir ve eğitim dayanıklılığını artırmak için otomatik model denetim noktası işaretlemeyi etkinleştirebilirsiniz. Ayrıca, seçtiğiniz SageMaker eğitim özelliğiyle üretimdeki iş yüklerini çalıştırın.

Daha fazla bilgi edinin

En yüksek doğruluk ve en düşük maliyet için yerleşik araçlar

Otomatik model ayarlama

SageMaker AI, en doğru tahminlere ulaşmak üzere binlerce algoritma parametresi kombinasyonu ayarlayarak modelinizde otomatik ayar yapabilir ve sizi bu işler için haftalar boyu çaba harcamaktan kurtarır. Veri kümenizde birçok eğitim işi çalıştırarak bir modelin en iyi sürümünü bulmanıza yardımcı olur.

ML Eğitimi İş Akışları

Yönetilen Spot eğitimi

SageMaker AI, bilgi işlem kapasitesi kullanılabilir hale geldiğinde eğitim işlerini otomatik olarak çalıştırarak eğitim maliyetlerini yüzde 90'a kadar azaltmanıza yardımcı olur. Bu eğitim işleri, kapasite değişikliklerinden kaynaklanan kesintilere karşı da dayanıklıdır.

Daha fazla bilgi edinin

Hata Ayıklama

Amazon SageMaker Hata Ayıklayıcı'nın ölçümleri yakalayıp eğitim işlerini gerçek zamanlı olarak profillendirme özelliği sayesinde modeli üretime dağıtmadan önce performans sorunlarını hızla giderebilirsiniz. Ayrıca, temel eğitim container'ına erişimle hata ayıklama için SageMaker'daki model eğitim ortamına uzaktan bağlanabilirsiniz.

Otomatik model ayarlama

Profil Oluşturucu

Amazon SageMaker Profil Oluşturucu, toplu GPU ve CPU kullanım ölçümleri, yüksek çözünürlüklü GPU/CPU izleme grafikleri, özel ek açıklamalar ve karma hassasiyet kullanımına ilişkin görünürlük dahil olmak üzere ayrıntılı donanım profili oluşturma öngörüleriyle eğitim performansını optimize etmenize yardımcı olur.
Yönetilen Spot Eğitimi

Etkileşim ve izleme için yerleşik araçlar

MLflow ile Amazon SageMaker

Giriş parametrelerini, yapılandırmaları ve sonuçları yakalamak üzere MLflow ve SageMaker eğitiminden yararlanarak kullanım durumunuz için en iyi performans gösteren modelleri hızlı bir şekilde belirleyin. MLflow kullanıcı arabirimi, model eğitim girişimlerini analiz etmenize ve tek bir adımda üretime aday modelleri zahmetsizce kaydetmenize olanak sağlar.

hata ayıklama

TensorBoard ile Amazon SageMaker

TensorBoard özellikli Amazon SageMaker, doğrulama kaybının yakınsamaması veya kaybolan gradyanlar gibi yakınsama sorunlarını belirleyip gidermek için model mimarisini görselleştirerek geliştirme süresinden tasarruf etmenize yardımcı olur.

Deney yönetimi

Esnek ve daha hızlı eğitim

Tam özelleştirme

SageMaker AI, model eğitimini daha kolay ve daha hızlı hale getirmek için hem yerleşik kitaplıklar hem de araçlarla birlikte gelir. SageMaker AI; GPT, BERT ve DALL·E gibi popüler açık kaynaklı ML modelleri, PyTorch veya TensorFlow gibi ML çerçeveleri ve Hugging Face gibi dönüştürücülerle çalışır. SageMaker AI ile birlikte DeepSpeed, Megatron, Horovod, Ray Tune ve TensorBoard gibi popüler açık kaynak kitaplık veya araçlarından ihtiyaçlarınıza uygun olanları kullanabilirsiniz.

Profil Oluşturucu

Yerel kod dönüştürme

Amazon SageMaker Python SDK'si, tercih ettiğiniz entegre geliştirme ortamı (IDE) ve yerel not defterlerinde yazılan ML kodunu ve ilgili çalışma zamanı bağımlılıklarını, geniş ölçekli ML modeli eğitim işleri olarak minimum kod değişikliğiyle çalıştırmanıza yardımcı olur. Yerel ML kodunuza yalnızca bir satır kod (Python dekoratörü) eklemeniz yeterlidir. SageMaker Python SDK'si, kodu hem veri kümeleri hem de çalışma alanı ortamı kurulumuyla birlikte alır ve bir SageMaker eğitim işi olarak çalıştırır.

Daha fazla bilgi edinin

Otomatik ML eğitimi iş akışları

Amazon SageMaker İşlem Hatları'nı kullanarak eğitim iş akışlarını otomatikleştirmek, hızlı deneme ve model yeniden eğitimi için model geliştirme adımlarını düzenlemek üzere tekrarlanabilir bir süreç oluşturmanıza yardımcı olur. Adımları düzenli aralıklarla veya belirli olaylar başlatıldığında otomatik olarak veya gerektiğinde manuel olarak çalıştırabilirsiniz.

Daha fazla bilgi edinin

Esnek eğitim planları

Eğitim zaman çizelgelerinizi ve bütçelerinizi karşılamak için SageMaker AI, birden fazla bilgi işlem kapasitesi bloğundan bilgi işlem kaynaklarını kullanan en uygun maliyetli eğitim planlarını oluşturmanıza yardımcı olur. Eğitim planlarını onayladıktan sonra, SageMaker AI altyapıyı otomatik olarak tedarik eder ve bu bilgi işlem kaynakları üzerindeki eğitim işlerini herhangi bir manuel müdahale gerektirmeden çalıştırır, böylece işleri hesaplama kullanılabilirliği ile uyumlu hale getirmek için eğitim sürecini yönetmek için haftalarca sürecek çabadan tasarruf sağlar.