Amazon SageMaker AI sekarang mendukung decoding spekulatif EAGLE
Amazon SageMaker AI sekarang mendukung decoding spekulatif EAGLE (Algorithm Extrapolation for Greater Language-model Efficiency) untuk meningkatkan throughput inferensi model bahasa besar hingga 2,5x. Kemampuan ini memungkinkan model untuk memprediksi dan memvalidasi beberapa token secara bersamaan daripada satu per satu, meningkatkan waktu respons untuk aplikasi AI.
Saat pelanggan men-deploy aplikasi AI ke produksi, mereka membutuhkan kemampuan untuk melayani model dengan latensi rendah dan throughput tinggi untuk memberikan pengalaman pengguna yang responsif. Ilmuwan data dan insinyur ML tidak memiliki metode yang efisien untuk mempercepat pembuatan token tanpa mengorbankan kualitas output atau memerlukan arsitektur ulang model yang kompleks, sehingga sulit untuk memenuhi ekspektasi kinerja di bawah lalu lintas dunia nyata. Tim menghabiskan waktu yang signifikan untuk mengoptimalkan infrastruktur daripada meningkatkan aplikasi AI mereka. Dengan decoding spekulatif EAGLE, SageMaker AI memungkinkan pelanggan untuk mempercepat throughput inferensi dengan memungkinkan model menghasilkan dan memverifikasi beberapa token secara paralel daripada satu per satu, mempertahankan kualitas output yang sama sambil meningkatkan throughput secara dramatis. SageMaker AI secara otomatis memilih antara EAGLE 2 dan EAGLE 3 berdasarkan arsitektur model Anda, dan menyediakan pekerjaan pengoptimalan bawaan yang menggunakan set data yang dikuratori atau data aplikasi Anda sendiri untuk melatih kepala prediksi khusus. Anda kemudian dapat men-deploy model yang dioptimalkan melalui alur kerja inferensi AI SageMaker yang ada tanpa perubahan infrastruktur, memungkinkan Anda memberikan aplikasi AI yang lebih cepat dengan kinerja yang dapat diprediksi.
Anda dapat menggunakan decoding spekulatif EAGLE di AWS Region berikut: AS Timur (Virginia Utara), AS Barat (Oregon), AS Timur (Ohio), Asia Pasifik (Tokyo), Eropa (Irlandia), Asia Pasifik (Singapura), dan Eropa (Frankfurt)
Untuk mempelajari selengkapnya tentang decoding spekulatif EAGLE, kunjungi Blog Berita AWS di sini, dan dokumentasi SageMaker AI di sini.