Amazon SageMaker Model Dağıtımı

Çıkarıma yönelik makine öğrenimi (ML) modellerini kolayca dağıtın ve yönetin

Amazon SageMaker Model Dağıtımı Nedir?

Amazon SageMaker, her türlü kullanım örneği için en iyi fiyat-performans oranıyla çıkarım taleplerinde bulunmak üzere altyapı modelleri (FM'ler) de dahil makine öğrenimi modellerini dağıtmayı kolaylaştırır. Düşük gecikme süresi (birkaç milisaniye) ve yüksek aktarım hızından (saniyede milyonlarca işlem) doğal dil işleme veya bilgisayarlı görü gibi kullanım durumları için uzun süreli çıkarımlara kadar tüm çıkarım ihtiyaçlarınız için SageMaker'ı kullanabilirsiniz. SageMaker tam olarak yönetilen bir hizmettir ve MLOps araçlarıyla entegre olur. Böylece model dağıtımınızı ölçeklendirebilir, çıkarım maliyetini azaltabilir, modelleri üretimde daha etkili bir şekilde yönetebilir ve operasyonel yükü azaltabilirsiniz.

SageMaker Model Dağıtımı'nın Avantajları

Düşük gecikme süresi (birkaç milisaniye) ve yüksek aktarım hızından (saniyede milyonlarca işlem) doğal dil işleme veya bilgisayarlı görü gibi kullanım durumları için uzun süreli çıkarımlara kadar tüm çıkarım ihtiyaçlarınız için SageMaker'ı kullanabilirsiniz.
Amazon SageMaker, en yüksek performanslı altyapıda çeşitli işlem ve bellek düzeylerine sahip 100'den fazla bulut sunucusu türü sunar. Uç nokta başına binlerce modele kolayca ölçeklendirmek için Amazon SageMaker Sunucusuz Çıkarım'ı da seçebilirsiniz. Atıl kapasiteyi önlemek ve çıkarım maliyetini azaltmak üzere kullanım olmadığında bulut sunucularını kapatmak için otomatik ölçeklendirmeyi kullanabilirsiniz.
Tam olarak yönetilen bir hizmet olan Amazon SageMaker, bulut sunucularının kurulumu, yönetimi, yazılım sürümü uyumlulukları ve düzeltme eki sürümleriyle ilgilenir. MLOps özellikleriyle yerleşik entegrasyon sayesinde ML modellerini dağıtma, ölçeklendirme ve yönetme işlemlerinin operasyonel yükünü boşaltmaya ve bunları daha hızlı üretime almaya yardımcı olur.

Her kullanım örneği için geniş seçenek yelpazesi

Geniş çıkarım seçenekleri yelpazesi

Düşük gecikme süresi (birkaç milisaniye) ve yüksek aktarım hızından (saniyede milyonlarca işlem) doğal dil işleme veya bilgisayarlı görü gibi kullanım örnekleri için uzun süreli çıkarımlara kadar tüm çıkarım ihtiyaçlarınız için SageMaker'ı kullanabilirsiniz.

Gerçek Zamanlı Çıkarım

İstikrarlı trafik modellerine sahip kullanım durumları için düşük gecikme süresi ve ultra yüksek aktarım hızı.

Gerçek Zamanlı Çıkarım

Sunucusuz Çıkarım

Kesintili trafik modellerine sahip kullanım durumları için düşük gecikme süresi ve yüksek aktarım hızı.

Sunucusuz Çıkarım

Eşzamansız Çıkarım

Büyük yüklere (1 GB'a kadar) veya uzun işlem sürelerine (15 dakikaya kadar) sahip kullanım durumları için düşük gecikme süresi.

Eşzamansız Çıkarım

Toplu Dönüşüm

Büyük veri kümeli kullanım durumları için veri yığınları üzerinde çevrimdışı çıkarım.

Toplu Dönüşüm

Ölçeklenebilir ve uygun maliyetli dağıtım seçenekleri

Amazon SageMaker, çok sayıda ML modelini dağıtmak için ölçeklenebilir ve uygun maliyetli yollar sunar. SageMaker'ın tek bir uç noktadaki birden fazla modeliyle, binlerce modeli paylaşılan altyapıda dağıtabilir, maliyet uygunluğunu artırırken modelleri ihtiyaç duyduğunuz sıklıkta kullanma esnekliği sağlayabilirsiniz. Tek bir uç noktadaki birden fazla model, hem CPU hem de GPU bulut sunucusu türlerini destekleyerek çıkarım maliyetini %50'ye kadar azaltmanıza olanak tanır

Tek modelli uç noktalar

Düşük gecikme süresi ve yüksek aktarım hızı için tahsis edilmiş bulut sunucularında veya sunucusuz olarak barındırılan bir container üzerinde çalışan model.

Tek modelli uç noktalar

Tek bir uç noktada birden fazla model

Temeldeki hızlandırıcıları daha iyi kullanmak için aynı bulut sunucusunda birden fazla model barındırın ve dağıtım maliyetlerini %50'ye kadar azaltın. Her FM için ölçeklendirme politikalarını ayrı ayrı kontrol edebilir, böylece altyapı maliyetlerini optimize ederken model kullanım şekillerine uyum sağlamayı kolaylaştırabilirsiniz.

Çok modelli uç noktalar

Seri çıkarım işlem hatları

Tahsis edilmiş bulut sunucularını paylaşan ve belirli bir sırayla yürüten birden fazla container. Ön işleme, tahminler ve işleme sonrası veri bilimi görevlerini birleştirmek için bir çıkarım işlem hattı kullanabilirsiniz.

Seri çıkarım işlem hatları

Çoğu makine öğrenimi çerçevesi ve model sunucusu için destek

Amazon SageMaker çıkarımı; TensorFlow, PyTorch, ONNX ve XGBoost gibi en yaygın makine öğrenimi çerçevelerinden bazıları için yerleşik algoritmaları ve önceden oluşturulmuş Docker görüntülerini destekler. Önceden oluşturulmuş Docker görüntülerinden hiçbiri ihtiyaçlarınızı karşılamıyorsa CPU destekli çoklu model uç noktalarıyla kullanmak üzere kendi container'ınızı oluşturabilirsiniz. SageMaker çıkarımı; TensorFlow Serving, TorchServe, NVIDIA Triton, AWS çoklu model sunucusu gibi en popüler model sunucularını destekler.

Amazon SageMaker, altyapı modellerinin performansını artırmanıza yardımcı olmak için model paralelliği ve büyük model çıkarımı (LMI) için özel derin öğrenme container'ları (DLC'ler), kitaplıklar ve araçlar sunar. Bu seçeneklerle, altyapı modelleri (FM) dahil modelleri hemen hemen her kullanım örneği için hızlı bir şekilde dağıtabilirsiniz.


Daha Fazla Bilgi Edinin
 

TensorFlow
PyTorch
mxnet
Huggine Face logosu
TensorFlow

Düşük maliyetle yüksek çıkarım performansı elde edin

Düşük maliyetle yüksek çıkarım performansı elde edin

Amazon SageMaker'ın yeni çıkarım optimizasyonu araç seti; Llama 3, Mistral ve Mixtral modelleri gibi üretici yapay zeka modellerinde maliyetleri ~%50'ye kadar düşürürken ~2 kata kadar daha yüksek aktarım hızı sağlar. Örneğin bir Llama 3-70B modeliyle, herhangi bir optimizasyon yapmadan xml.p5.48xlarge bulut sunucusunda önceki ~1200 belirteç/sn yerine ~2400 belirteç/sn elde edebilirsiniz. Sadece birkaç tıklamayla Kurgusal Kod Çözme, Niceleme ve Derleme gibi bir model optimizasyonu tekniği seçebilir veya birkaç tekniği birleştirebilir, modellerinize uygulayabilir, bu tekniklerin çıktı kalitesi ve çıkarım performansı üzerindeki etkisini değerlendirmek için karşılaştırma çalıştırabilir ve modelleri dağıtabilirsiniz.

Değerlendirme ölçümlerini tek bakışta gösteren bir resim

Modelleri en yüksek performanslı altyapıda dağıtın veya sunucusuz hale getirin

Amazon SageMaker, AWS Inferentia tabanlı Amazon EC2 Inf1 bulut sunucuları, AWS tarafından tasarlanıp üretilen yüksek performanslı ML çıkarım çipleri ve Amazon EC2 G4dn gibi GPU bulut sunucuları da dahil olmak üzere çeşitli düzeylerde işlem veya belleğe sahip 70'ten fazla bulut sunucusu türü sunar. Dilerseniz uç nokta başına binlerce modele, saniyede milyonlarca işlem (TPS) aktarım hızına ve 10 milisaniyenin altındaki ek yük gecikmelerine kolayca ölçeklendirmek için Amazon SageMaker Sunucusuz Çıkarım'ı seçin.

ML çıkarım çiplerinin özelliklerini gösteren bir görsel

ML modellerinin performansını doğrulamak için gölge testi

Amazon SageMaker, canlı çıkarım talepleri kullanarak yeni bir modelin performansını o anda sagemaker dağıtımı yapılan modele karşı gölge testiyle değerlendirmenize yardımcı olur. Gölge testi, potansiyel yapılandırma hatalarını ve performans sorunlarını son kullanıcıları etkilemeden önce yakalamanıza yardımcı olabilir. SageMaker sayesinde kendi gölge testi altyapınızı oluşturmak için haftalarca zaman harcamanıza gerek kalmaz. Sadece test etmek istediğiniz üretim modelini seçersiniz ve SageMaker gölge modunda otomatik olarak yeni modelin sagemaker dağıtımını yaparak üretim modeli tarafından alınan çıkarım isteklerinin bir kopyasını yeni modele gerçek zamanlı bir şekilde yönlendirir.
Gölge testi sürecini gösteren bir görsel

Esneklik için otomatik ölçekleme

Çıkarım taleplerindeki dalgalanmaları karşılamak üzere temel işlem kaynaklarını otomatik olarak ölçeklendirmek için ölçeklendirme politikalarını kullanabilirsiniz. Model kullanımındaki değişiklikleri kolayca ele almak ve aynı zamanda altyapı maliyetlerini optimize etmek üzere her ML modeli için ölçeklendirme politikalarını ayrı ayrı kontrol edebilirsiniz.

Otomatik ölçekleme gruplarını gösteren görsel

Gecikme iyileştirme ve Akıllı yönlendirme

Yeni çıkarım taleplerini halihazırda çıkarım talebi sunmakla meşgul olan bulut sunucularına rastgele yönlendirmek yerine, kullanılabilir bulut sunucularına akıllıca yönlendirerek ML modelleri için çıkarım gecikmesini azaltabilir ve ortalama olarak %20 daha düşük çıkarım gecikmesi elde edebilirsiniz.

Operasyonel yükü azaltın ve değer elde etme süresini hızlandırın

Tam olarak yönetilen model barındırma ve yönetimi

Tam olarak yönetilen bir hizmet olan Amazon SageMaker, bulut sunucularının kurulumu, yönetimi, yazılım sürümü uyumlulukları ve düzeltme eki sürümleriyle ilgilenir. Ayrıca uyarıları izleyip almakta kullanabileceğiniz uç noktalar için yerleşik ölçüm ve günlükler sağlar.

Model yönetimi akışını gösteren bir görsel

MLOps özelliklerine sahip yerleşik entegrasyon

Amazon SageMaker model dağıtım özellikleri; SageMaker İşlem Hatları (iş akışı otomasyonu ve düzenlemesi), SageMaker Projeleri (ML için CI/CD), SageMaker Özellik Deposu (özellik yönetimi), SageMaker Model Kayıt Defteri (kökeni izlemek ve otomatik onay iş akışlarını desteklemek için model ve yapıt kataloğu), SageMaker Clarify (sapma algılama) ve SageMaker Model Monitörü (model ve kavram sapması algılama) dahil olmak üzere MLOps yetenekleriyle yerel olarak entegre edilmiştir. Sonuç olarak ister tek bir modelle ister on binlercesiyle sagemaker-dağıtımı gerçekleştiriyor olun SageMaker, ML modellerini dağıtma, ölçeklendirme ve yönetmeye ilişkin operasyonel yükleri azaltmasının yanında bunları üretime daha hızlı bir şekilde alır.

Eğitim modeli akış şemasını gösteren görsel

Yenilikler

  • Tarih (En Yeniden En Eskiye)
Sonuç bulunamadı
1