Amazon SageMaker AI meluncurkan rekomendasi inferensi AI generatif yang dioptimalkan

Dikirim di: 21 Apr 2026

Amazon SageMaker AI sekarang mendukung rekomendasi inferensi, sebuah kemampuan baru yang menghilangkan optimasi manual dan benchmarking untuk memberikan kinerja inferensi yang optimal. Dengan memberikan konfigurasi deployment yang divalidasi dan optimal dengan metrik kinerja, SageMaker AI mempercepat jalur menuju produksi agar pengembang model Anda tetap fokus pada pembuatan model yang akurat alih-alih mengelola infrastruktur.

Pelanggan membawa model AI generatif mereka sendiri, menentukan pola lalu lintas yang diharapkan, dan menentukan tujuan kinerja (mengoptimalkan biaya, meminimalkan latensi, atau memaksimalkan throughput). SageMaker AI kemudian menganalisis arsitektur model dan menerapkan optimasi yang selaras dengan tujuan itu di beberapa jenis instans, membandingkan setiap konfigurasi pada infrastruktur GPU nyata menggunakan NVIDIA AIPerf. Dengan mengevaluasi beberapa jenis instans, pelanggan dapat memilih opsi dengan kinerja dan harga paling sepadan untuk beban kerja mereka. Hasilnya adalah konfigurasi siap deploy dengan metrik yang divalidasi, termasuk waktu hingga token pertama, latensi antartoken, persentil latensi permintaan, throughput, dan proyeksi biaya.

Kemampuan ini tersedia saat ini di tujuh Wilayah AWS: AS Timur (Virginia Utara), AS Barat (Oregon), AS Timur (Ohio), Asia Pasifik (Tokyo), Eropa (Irlandia), Asia Pasifik (Singapura), dan Eropa (Frankfurt). Untuk mempelajari lebih lanjut, kunjungi dokumentasi SageMaker AI.

Amazon SageMaker AI meluncurkan rekomendasi inferensi AI generatif yang dioptimalkan

Pelajari

Sumber Daya

Developer

Bantuan