Mengumumkan routing sesi lekat untuk Amazon SageMaker Inference

Dikirim di: 12 Sep 2024

Hari ini, kami mengumumkan ketersediaan perutean sesi lekat di Amazon SageMaker Inference yang membantu pelanggan meningkatkan kinerja dan pengalaman pengguna aplikasi AI generatif mereka dengan memanfaatkan informasi yang diproses sebelumnya. Amazon SageMaker mempermudah melakukan deployment model ML termasuk model fondasi (FM) untuk membuat permintaan inferensi dengan performa harga terbaik untuk setiap kasus penggunaan.

Dengan mengaktifkan sesi lekat, semua permintaan untuk sesi yang sama akan dialihkan ke instans yang sama, memungkinkan aplikasi ML Anda menggunakan kembali informasi yang diproses sebelumnya untuk mengurangi latensi dan meningkatkan pengalaman pengguna. Ini sangat berharga ketika pelanggan ingin menggunakan muatan data yang besar atau membutuhkan pengalaman interaktif yang mulus. Dengan memanfaatkan permintaan inferensi mereka sebelumnya, pelanggan sekarang dapat memanfaatkan fitur ini untuk membangun aplikasi AI sadar keadaan yang inovatif di SageMaker. Untuk melakukan ini, pelanggan harus membuat id sesi dengan permintaan pertama mereka dan kemudian menggunakan id sesi itu untuk menunjukkan bahwa SageMaker harus merutekan semua permintaan berikutnya ke instans yang sama. Sesi juga dapat dihapus ketika selesai untuk membebaskan sumber daya untuk sesi baru.

Fitur ini tersedia di semua wilayah tempat SageMaker tersedia. Anda dapat mempelajari lebih lanjut tentang menerapkan model di SageMaker di sini dan lebih lanjut tentang fitur ini di dokumentasi kami.