Amazon SageMaker, Üretici Yapay Zeka modelleri için daha hızlı otomatik ölçeklendirmeyi kullanıma sunuyor

Yayınlanma Tarihi: 25 Tem 2024

Amazon SageMaker Çıkarım'da müşterilerin Üretici Yapay Zeka modellerinin otomatik olarak ölçeklendirilmesi için gereken süreyi azaltmalarına yardımcı olan yeni bir özelliği duyurmaktan heyecan duyuyoruz. Müşteriler artık bir dakikadan daha kısa sürede elde edilebilen ölçümleri kullanabilir ve yapay zeka modelleri için genel ölçeklendirme gecikmesini önemli ölçüde azaltabilir. Müşteriler bu geliştirmeyi kullanarak, talep dalgalandıkça Üretici Yapay Zeka uygulamalarının yanıt yeteneğini artırabilir.

Bu özellik sayesinde müşteriler daha hızlı otomatik ölçeklendirmeye olanak tanıyan iki yeni yüksek çözünürlüklü CloudWatch ölçümü olan ConcurrentRequestsPerModel ve ConcurrentRequestsPerModelCopy'den yararlanır. Bu ölçümler 10 saniyelik bir aralıkta iletilir ve model tarafından işlenen gerçek eş zamanlılığı veya yürütme sırasında çıkarım isteklerinin sayısını izleyerek uç noktadaki yükün daha doğru bir temsilini sağlar. Müşteriler, SageMaker uç noktalarında dağıtılan modellerini ölçeklendirmek için bu yüksek çözünürlüklü ölçümleri kullanarak otomatik ölçeklendirme politikaları oluşturabilir. Amazon SageMaker, bu otomatik ölçeklendirme politikalarında tanımlanan eşiklere ulaşıldığında bir dakikadan kısa bir sürede yeni bulut sunucuları veya model kopyaları eklemeye başlar. Bu, müşterilerin SageMaker'daki çıkarım iş yükleri için performansı ve maliyet verimliliğini optimize etmelerini sağlar.

Bu yeni özelliğe, Çin ve AWS GovCloud (ABD) Bölgeleri hariç Amazon SageMaker Çıkarım'ın kullanılabildiği tüm AWS bölgelerindeki hızlandırıcı bulut sunucusu ailelerinde (g4dn, g5, g6, p2, p3, p4d, p4de, p5, inf1, inf2, trn1n, trn1) erişilebilir. Daha fazla bilgi edinmek için AWS ML bloguna bakın ve belgelerimizi inceleyin.