Amazon SageMaker memperkenalkan Scale Down to Zero untuk inferensi AI guna membantu pelanggan menghemat biaya
Kami sangat senang mengumumkan Scale Down to Zero, kemampuan baru di Amazon SageMaker Inference yang memungkinkan titik akhir untuk menskalakan hingga nol instans selama periode tidak aktif. Fitur ini dapat mengurangi biaya secara signifikan untuk menjalankan inferensi menggunakan model AI, menjadikannya sangat bermanfaat untuk aplikasi dengan pola lalu lintas yang bervariasi, seperti chatbot, sistem moderasi konten, dan penggunaan AI generatif lainnya.
Dengan fitur Scale Down to Zero, pelanggan dapat mengatur titik akhir inferensi SageMaker mereka agar secara otomatis mengurangi jumlah instans menjadi nol saat tidak digunakan, dan kemudian dengan cepat meningkatkan kapasitasnya lagi saat lalu lintas kembali normal. Kemampuan ini efektif untuk skenario dengan pola lalu lintas yang dapat diprediksi, lalu lintas inferensi intermiten, dan lingkungan pengembangan/pengujian. Menerapkan Scale Down to Zero sederhana dengan Komponen Inferensi SageMaker. Pelanggan dapat mengonfigurasi kebijakan penskalaan otomatis melalui AWS SDK for Python (Boto3), SageMaker Python SDK, atau AWS Command Line Interface (AWS CLI). Prosesnya melibatkan pengaturan titik akhir dengan penskalaan instans terkelola diaktifkan, mengonfigurasi kebijakan penskalaan, dan membuat alarm CloudWatch untuk memicu tindakan penskalaan.
Scale Down to Zero kini tersedia secara umum di semua wilayah AWS di mana Amazon SageMaker didukung. Untuk mempelajari lebih lanjut tentang menerapkan Scale Down to Zero dan mengoptimalkan biaya untuk deployment AI generatif, silakan kunjungi halaman dokumentasi kami.