Amazon SageMaker memperkenalkan kemampuan pengoptimalan inferensi AI generatif baru

Dikirim di: 9 Jul 2024

Hari ini, Amazon SageMaker mengumumkan ketersediaan umum kemampuan inferensi baru yang memberikan throughput hingga ~ 2x lebih tinggi sambil mengurangi biaya hingga ~ 50% untuk model AI generatif seperti model Llama 3, Mistral, dan Mixtral. Misalnya, dengan model Llama 3-70B, Anda dapat mencapai hingga ~2400 token/detik pada instans ml.p5.48xlarge v/s ~1200 token/detik sebelumnya tanpa optimisasi apa pun.

Dengan kemampuan baru ini, pelanggan dapat memilih dari menu teknik pengoptimalan model terbaru, seperti decoding spekulatif, kuantisasi, dan kompilasi, dan menerapkannya pada model AI generatif mereka. SageMaker akan melakukan tugas berat penyediaan perangkat keras yang diperlukan untuk menjalankan resep pengoptimalan, bersama dengan kerangka kerja dan pustaka deep learning. Pelanggan mendapatkan dukungan out-of-the-box untuk solusi decoding spekulatif dari SageMaker yang telah diuji kinerjanya sesuai skala untuk berbagai model open source populer, atau mereka dapat membawa solusi decoding spekulatif mereka sendiri. Untuk kuantisasi, SageMaker memastikan kompatibilitas dan dukungan untuk tipe presisi pada arsitektur model yang berbeda. Untuk kompilasi, infrastruktur runtime SageMaker memastikan pemuatan dan caching yang efisien dari model yang dioptimalkan untuk mengurangi waktu penskalaan otomatis.

Pelanggan dapat memanfaatkan kemampuan baru ini dari AWS SDK for Python (Boto3), SageMaker Python SDK, atau AWS Command Line Interface (AWS CLI). Kapabilitas ini saat ini tersedia secara umum di Wilayah AS Timur (Virginia Utara), AS Timur (Ohio), AS Barat (Oregon), Asia Pasifik (Mumbai), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Tokyo), Kanada (Pusat), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Stockholm), dan Amerika Selatan (Sao Paulo).

Pelajari lebih lanjut dengan mengunjungi halaman dokumentasi dan blog AWS ML kami.