Amazon SageMaker Model Dağıtımı Nedir?
Amazon SageMaker, her türlü kullanım örneği için en iyi fiyat-performans oranıyla çıkarım taleplerinde bulunmak üzere altyapı modelleri (FM'ler) de dahil makine öğrenimi modellerini dağıtmayı kolaylaştırır. Düşük gecikme süresi (birkaç milisaniye) ve yüksek aktarım hızından (saniyede milyonlarca işlem) doğal dil işleme veya bilgisayarlı görü gibi kullanım durumları için uzun süreli çıkarımlara kadar tüm çıkarım ihtiyaçlarınız için SageMaker'ı kullanabilirsiniz. SageMaker tam olarak yönetilen bir hizmettir ve MLOps araçlarıyla entegre olur. Böylece model dağıtımınızı ölçeklendirebilir, çıkarım maliyetini azaltabilir, modelleri üretimde daha etkili bir şekilde yönetebilir ve operasyonel yükü azaltabilirsiniz.
SageMaker Model Dağıtımı'nın Avantajları
Her kullanım örneği için geniş seçenek yelpazesi
Geniş çıkarım seçenekleri yelpazesi
Düşük gecikme süresi (birkaç milisaniye) ve yüksek aktarım hızından (saniyede milyonlarca işlem) doğal dil işleme veya bilgisayarlı görü gibi kullanım örnekleri için uzun süreli çıkarımlara kadar tüm çıkarım ihtiyaçlarınız için SageMaker'ı kullanabilirsiniz.
Gerçek Zamanlı Çıkarım
İstikrarlı trafik modellerine sahip kullanım durumları için düşük gecikme süresi ve ultra yüksek aktarım hızı.
Sunucusuz Çıkarım
Kesintili trafik modellerine sahip kullanım durumları için düşük gecikme süresi ve yüksek aktarım hızı.
Eşzamansız Çıkarım
Büyük yüklere (1 GB'a kadar) veya uzun işlem sürelerine (15 dakikaya kadar) sahip kullanım durumları için düşük gecikme süresi.
Toplu Dönüşüm
Büyük veri kümeli kullanım durumları için veri yığınları üzerinde çevrimdışı çıkarım.
Ölçeklenebilir ve uygun maliyetli dağıtım seçenekleri
Amazon SageMaker, çok sayıda ML modelini dağıtmak için ölçeklenebilir ve uygun maliyetli yollar sunar. SageMaker'ın tek bir uç noktadaki birden fazla modeliyle, binlerce modeli paylaşılan altyapıda dağıtabilir, maliyet uygunluğunu artırırken modelleri ihtiyaç duyduğunuz sıklıkta kullanma esnekliği sağlayabilirsiniz. Tek bir uç noktadaki birden fazla model, hem CPU hem de GPU bulut sunucusu türlerini destekleyerek çıkarım maliyetini %50'ye kadar azaltmanıza olanak tanır
Tek modelli uç noktalar
Düşük gecikme süresi ve yüksek aktarım hızı için tahsis edilmiş bulut sunucularında veya sunucusuz olarak barındırılan bir container üzerinde çalışan model.
Tek bir uç noktada birden fazla model
Temeldeki hızlandırıcıları daha iyi kullanmak için aynı bulut sunucusunda birden fazla model barındırın ve dağıtım maliyetlerini %50'ye kadar azaltın. Her FM için ölçeklendirme politikalarını ayrı ayrı kontrol edebilir, böylece altyapı maliyetlerini optimize ederken model kullanım şekillerine uyum sağlamayı kolaylaştırabilirsiniz.
Seri çıkarım işlem hatları
Tahsis edilmiş bulut sunucularını paylaşan ve belirli bir sırayla yürüten birden fazla container. Ön işleme, tahminler ve işleme sonrası veri bilimi görevlerini birleştirmek için bir çıkarım işlem hattı kullanabilirsiniz.
Çoğu makine öğrenimi çerçevesi ve model sunucusu için destek
Amazon SageMaker çıkarımı; TensorFlow, PyTorch, ONNX ve XGBoost gibi en yaygın makine öğrenimi çerçevelerinden bazıları için yerleşik algoritmaları ve önceden oluşturulmuş Docker görüntülerini destekler. Önceden oluşturulmuş Docker görüntülerinden hiçbiri ihtiyaçlarınızı karşılamıyorsa CPU destekli çoklu model uç noktalarıyla kullanmak üzere kendi container'ınızı oluşturabilirsiniz. SageMaker çıkarımı; TensorFlow Serving, TorchServe, NVIDIA Triton, AWS çoklu model sunucusu gibi en popüler model sunucularını destekler.
Amazon SageMaker, altyapı modellerinin performansını artırmanıza yardımcı olmak için model paralelliği ve büyük model çıkarımı (LMI) için özel derin öğrenme container'ları (DLC'ler), kitaplıklar ve araçlar sunar. Bu seçeneklerle, altyapı modelleri (FM) dahil modelleri hemen hemen her kullanım örneği için hızlı bir şekilde dağıtabilirsiniz.
Düşük maliyetle yüksek çıkarım performansı elde edin
Düşük maliyetle yüksek çıkarım performansı elde edin
Amazon SageMaker'ın yeni çıkarım optimizasyonu araç seti; Llama 3, Mistral ve Mixtral modelleri gibi üretici yapay zeka modellerinde maliyetleri ~%50'ye kadar düşürürken ~2 kata kadar daha yüksek aktarım hızı sağlar. Örneğin bir Llama 3-70B modeliyle, herhangi bir optimizasyon yapmadan xml.p5.48xlarge bulut sunucusunda önceki ~1200 belirteç/sn yerine ~2400 belirteç/sn elde edebilirsiniz. Sadece birkaç tıklamayla Kurgusal Kod Çözme, Niceleme ve Derleme gibi bir model optimizasyonu tekniği seçebilir veya birkaç tekniği birleştirebilir, modellerinize uygulayabilir, bu tekniklerin çıktı kalitesi ve çıkarım performansı üzerindeki etkisini değerlendirmek için karşılaştırma çalıştırabilir ve modelleri dağıtabilirsiniz.
Modelleri en yüksek performanslı altyapıda dağıtın veya sunucusuz hale getirin
Amazon SageMaker, AWS Inferentia tabanlı Amazon EC2 Inf1 bulut sunucuları, AWS tarafından tasarlanıp üretilen yüksek performanslı ML çıkarım çipleri ve Amazon EC2 G4dn gibi GPU bulut sunucuları da dahil olmak üzere çeşitli düzeylerde işlem veya belleğe sahip 70'ten fazla bulut sunucusu türü sunar. Dilerseniz uç nokta başına binlerce modele, saniyede milyonlarca işlem (TPS) aktarım hızına ve 10 milisaniyenin altındaki ek yük gecikmelerine kolayca ölçeklendirmek için Amazon SageMaker Sunucusuz Çıkarım'ı seçin.
ML modellerinin performansını doğrulamak için gölge testi
Esneklik için otomatik ölçekleme
Çıkarım taleplerindeki dalgalanmaları karşılamak üzere temel işlem kaynaklarını otomatik olarak ölçeklendirmek için ölçeklendirme politikalarını kullanabilirsiniz. Model kullanımındaki değişiklikleri kolayca ele almak ve aynı zamanda altyapı maliyetlerini optimize etmek üzere her ML modeli için ölçeklendirme politikalarını ayrı ayrı kontrol edebilirsiniz.
Gecikme iyileştirme ve Akıllı yönlendirme
Yeni çıkarım taleplerini halihazırda çıkarım talebi sunmakla meşgul olan bulut sunucularına rastgele yönlendirmek yerine, kullanılabilir bulut sunucularına akıllıca yönlendirerek ML modelleri için çıkarım gecikmesini azaltabilir ve ortalama olarak %20 daha düşük çıkarım gecikmesi elde edebilirsiniz.
Operasyonel yükü azaltın ve değer elde etme süresini hızlandırın
Tam olarak yönetilen model barındırma ve yönetimi
Tam olarak yönetilen bir hizmet olan Amazon SageMaker, bulut sunucularının kurulumu, yönetimi, yazılım sürümü uyumlulukları ve düzeltme eki sürümleriyle ilgilenir. Ayrıca uyarıları izleyip almakta kullanabileceğiniz uç noktalar için yerleşik ölçüm ve günlükler sağlar.
MLOps özelliklerine sahip yerleşik entegrasyon
Amazon SageMaker model dağıtım özellikleri; SageMaker İşlem Hatları (iş akışı otomasyonu ve düzenlemesi), SageMaker Projeleri (ML için CI/CD), SageMaker Özellik Deposu (özellik yönetimi), SageMaker Model Kayıt Defteri (kökeni izlemek ve otomatik onay iş akışlarını desteklemek için model ve yapıt kataloğu), SageMaker Clarify (sapma algılama) ve SageMaker Model Monitörü (model ve kavram sapması algılama) dahil olmak üzere MLOps yetenekleriyle yerel olarak entegre edilmiştir. Sonuç olarak ister tek bir modelle ister on binlercesiyle sagemaker-dağıtımı gerçekleştiriyor olun SageMaker, ML modellerini dağıtma, ölçeklendirme ve yönetmeye ilişkin operasyonel yükleri azaltmasının yanında bunları üretime daha hızlı bir şekilde alır.