Amazon SageMaker AI Kini Mendukung Inferensi Aware Kapasitas dengan Fallback Instance Otomatis

Dikirim di: 1 Mei 2026

Titik akhir inferensi Amazon SageMaker AI kini mendukung penyediaan fleksibel berdasarkan daftar prioritas tipe instans. Ketika tipe instans yang Anda pilih tidak memiliki kapasitas yang cukup, SageMaker AI secara otomatis akan menyediakan dari opsi berikutnya dalam daftar—sehingga pembuatan titik akhir dan autoscaling tetap berjalan lancar tanpa intervensi manual. Hal ini memberikan ketahanan bagi tim yang menerapkan model AI/ML di lingkungan produksi untuk menangani keterbatasan kapasitas dengan lebih mulus, sehingga titik akhir dapat tersedia secara andal dan diskalakan sesuai kebutuhan.

Dengan dukungan kumpulan instans, Anda dapat menentukan daftar prioritas tipe instans, dan SageMaker AI akan secara otomatis menyediakan kapasitas dengan memproses daftar tersebut secara berurutan. Ini berlaku di seluruh pembuatan titik akhir, pembaruan, dan penskalaan. Saat melakukan scale down, SageMaker AI akan terlebih dahulu menghapus instans dengan prioritas terendah, sehingga infrastruktur pilihan Anda tetap dipertahankan saat kapasitas berkurang. Fitur ini berlaku untuk Titik Akhir Model Tunggal, titik akhir berbasis InferenceComponent, serta titik akhir Asynchronous Inference —termasuk titik akhir yang berskala ke nol, di mana SageMaker AI akan menyediakan kapasitas dari pool dengan prioritas tertinggi yang tersedia saat melakukan scale up kembali.

Karena tipe instans cadangan memiliki perbedaan pada memori GPU dan kemampuan komputasi, Anda dapat menentukan model yang dioptimalkan berbeda untuk setiap tipe instans dalam daftar prioritas Anda. Anda dapat menyiapkan artefak ini sendiri atau menggunakan rekomendasi inferensi SageMaker AI, yang secara otomatis menghasilkan konfigurasi yang dioptimalkan berdasarkan perangkat keras untuk setiap tipe instans. Selain itu, metrik CloudWatch per tipe instans memberikan visibilitas terhadap latensi, throughput, pemanfaatan GPU, serta jumlah instans berdasarkan jenis perangkat keras dalam satu titik akhir.

Kapabilitas ini tersedia saat ini di AS Timur (Virginia Utara), AS Timur (Ohio), AS Barat (Oregon), Kanada (Pusat), Amerika Selatan (Sao Paulo), Eropa (Irlandia), Eropa (London), Eropa (Frankfurt), Eropa (Stockholm), Eropa (Zurich), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Singapura), Asia Pasifik (Mumbai), Asia Pasifik (Sydney), Asia Pasifik (Mumbai), dan Asia Pasifik (Jakarta). Untuk mempelajari lebih lanjut, kunjungi dokumentasi Amazon SageMaker AI.

Amazon SageMaker AI Kini Mendukung Inferensi Aware Kapasitas dengan Fallback Instance Otomatis

Pelajari

Sumber Daya

Developer

Bantuan