Memperkenalkan inferensi yang dioptimalkan latensi untuk model pondasi di Amazon Bedrock

Dikirim di: 2 Des 2024

Inferensi yang dioptimalkan latensi untuk model fondasi di Amazon Bedrock kini tersedia dalam pratinjau publik. Kelebihan dari pratinjau publik ini adalah memberikan waktu respons lebih cepat untuk model dan meningkatkan keresponsifan untuk aplikasi AI. Saat ini, opsi inferensi baru ini mendukung model Claude 3.5 Haiku Anthropic dan model Llama 3.1 405B dan 70B Meta yang menawarkan latensi yang lebih rendah dibandingkan dengan model standar tanpa mengorbankan akurasi. Seperti yang diverifikasi oleh Anthropic, dengan inferensi yang dioptimalkan latensi di Amazon Bedrock, Claude 3.5 Haiku berjalan lebih cepat di AWS daripada di tempat lain. Selain itu, dengan inferensi yang dioptimalkan latensi di Bedrock, Llama 3.1 405B dan 70B berjalan lebih cepat di AWS daripada di penyedia cloud utama lainnya.

Karena semakin banyak pelanggan memindahkan aplikasi AI generatif mereka ke produksi, mengoptimalkan pengalaman pengguna akhir menjadi penting, terutama untuk aplikasi yang sensitif terhadap latensi seperti chatbot layanan pelanggan real-time dan asisten pengodean interaktif. Menggunakan chip AI yang dibuat khusus seperti AWS Trainium2 dan pengoptimalan perangkat lunak tingkat lanjut di Amazon Bedrock, pelanggan dapat mengakses opsi lainnya untuk mengoptimalkan inferensi mereka untuk kasus penggunaan tertentu. Mengakses kemampuan ini tidak memerlukan pengaturan tambahan atau penyempurnaan model, memungkinkan peningkatan langsung pada aplikasi yang ada dengan waktu respons yang lebih cepat.

Inferensi yang dioptimalkan latensi tersedia untuk Claude 3.5 Haiku Anthropic dan Llama 3.1 405B dan 70B Meta di Wilayah AS Timur (Ohio) melalui inferensi lintas wilayah. Untuk memulai, kunjungi konsol Amazon Bedrock. Untuk informasi lainnya seputar Amazon Bedrock dan kemampuannya, kunjungi halaman produk Amazon Bedrock, halaman harga, dan dokumentasi.