Amazon SageMaker meluncurkan penskalaan otomatis yang lebih cepat untuk model AI Generatif
Kami sangat senang mengumumkan kemampuan baru dalam Amazon SageMaker Inference yang membantu pelanggan mengurangi waktu yang dibutuhkan agar model AI Generatif mereka dapat diskalakan secara otomatis. Mereka sekarang dapat menggunakan metrik sub-menit dan secara signifikan mengurangi latensi penskalaan keseluruhan untuk model AI. Dengan menggunakan peningkatan ini, pelanggan dapat meningkatkan responsivitas aplikasi AI Generatif mereka saat permintaan berfluktuasi.
Dengan kemampuan ini pelanggan mendapatkan dua metrik CloudWatch resolusi tinggi baru - ConcurrentRequestsPerModel dan ConcurrentRequestsPerModelCopy - yang memungkinkan penskalaan otomatis lebih cepat. Metrik ini dipancarkan pada interval 10 detik dan memberikan representasi beban yang lebih akurat di titik akhir dengan melacak konkurensi aktual atau jumlah permintaan inferensi yang sedang diproses oleh model. Pelanggan dapat membuat kebijakan penskalaan otomatis menggunakan metrik resolusi tinggi ini untuk menskalakan model mereka yang diterapkan pada titik akhir SageMaker. Amazon SageMaker akan mulai menambahkan instans atau salinan model baru dalam waktu kurang dari satu menit ketika ambang batas yang ditetapkan dalam kebijakan penskalaan otomatis ini tercapai. Hal ini memungkinkan pelanggan untuk mengoptimalkan kinerja dan efisiensi biaya untuk beban kerja inferensi mereka di SageMaker.
Kemampuan baru ini dapat diakses pada keluarga instans akselerator (g4dn, g5, g6, p2, p3, p4d, p4de, p5, inf1, inf2, trn1n, trn1) di semua AWS Region tempat Amazon SageMaker Inference tersedia, kecuali China dan Region AWS GovCloud (AS). Untuk mempelajari lebih lanjut, lihat blog AWS ML dan kunjungi dokumentasi kami.