Amazon SageMaker memperkenalkan kemampuan baru untuk mempercepat penskalaan Inference AI Generatif
Kami sangat senang mengumumkan dua kemampuan baru di SageMaker Inference yang secara signifikan meningkatkan deployment dan penskalaan model AI generatif: Caching Kontainer dan Pemuat Model Cepat. Inovasi ini mengatasi tantangan penting dalam penskalaan model bahasa besar (LLM) secara efisien, memungkinkan waktu respons yang lebih cepat terhadap lonjakan lalu lintas dan penskalaan yang lebih hemat biaya. Dengan mengurangi waktu pemuatan model dan mempercepat penskalaan otomatis, fitur-fitur ini memungkinkan pelanggan untuk meningkatkan daya tanggap aplikasi AI generatif mereka saat permintaan berfluktuasi, sehingga menguntungkan layanan dengan pola lalu lintas dinamis.
Caching Kontainer secara signifikan mengurangi waktu yang diperlukan untuk menskalakan model AI generatif untuk inferensi dengan gambar kontainer pra-caching. Ini menghilangkan kebutuhan untuk mengunduhnya saat meningkatkan skala, menghasilkan pengurangan waktu penskalaan yang signifikan untuk titik akhir model AI generatif. Pemuat Model Cepat mengalirkan bobot model langsung dari Amazon S3 ke akselerator, memuat model jauh lebih cepat dibandingkan dengan metode tradisional. Kemampuan ini memungkinkan pelanggan untuk membuat kebijakan penskalaan otomatis yang lebih responsif, memungkinkan SageMaker untuk menambahkan instans baru atau salinan model dengan cepat ketika ambang batas yang ditentukan tercapai, sehingga mempertahankan kinerja optimal selama lonjakan lalu lintas sekaligus mengelola biaya secara efektif.
Kemampuan baru ini dapat diakses di semua region AWS tempat Amazon SageMaker Inference tersedia. Untuk mempelajari lebih lanjut, lihat dokumentasi kami untuk panduan implementasi terperinci.