Amazon Bedrock memperkenalkan tingkatan layanan inferensi Prioritas dan Fleksibel
Hari ini, Amazon Bedrock memperkenalkan dua tingkatan layanan inferensi baru untuk mengoptimalkan biaya dan kinerja untuk beban kerja AI yang berbeda. Tingkat Flex baru menawarkan harga hemat biaya untuk aplikasi waktu non-kritis seperti evaluasi model dan ringkasan konten sementara tingkat Prioritas sebagai memberikan kinerja premium dan pemrosesan preferensial untuk aplikasi kritis misi. Untuk sebagian besar model yang mendukung Priority Tier, pelanggan dapat mewujudkan latensi token output per detik (OTPS) hingga 25% lebih baik dibandingkan dengan tingkat standar. Ini bergabung dengan tingkatan Standar yang ada untuk aplikasi AI sehari-hari dengan kinerja yang andal.
Tingkatan layanan ini mengatasi tantangan utama yang dihadapi organisasi saat menerapkan AI dalam skala besar. Tingkat Flex dirancang untuk beban kerja non-interaktif yang dapat menoleransi latensi yang lebih lama, sehingga ideal untuk evaluasi model, peringkasan konten, pelabelan dan anotasi, serta alur kerja agen multilangkah, dan harganya lebih murah dibandingkan tingkat Standar. Selama periode permintaan tinggi, permintaan Flex menerima prioritas yang lebih rendah dibandingkan dengan tingkat Standar. Tingkat Prioritas sangat cocok untuk aplikasi misi kritis, interaksi pengguna akhir secara real-time, dan pengalaman interaktif yang membutuhkan respons konsisten dan cepat. Selama periode permintaan tinggi, permintaan Prioritas menerima prioritas pemrosesan, dengan harga premium, dibandingkan tingkatan layanan lainnya. Tingkatan layanan baru ini tersedia saat ini untuk berbagai model fondasi terkemuka, termasuk OpenAI (gpt-oss-20b, gpt-oss-120b), DeepSeek (DeepSeek V3.1), Qwen3 (Coder-480B-A35B-Instruct, Coder-30B-A3B-Instruct, 32B padat, Qwen3-235B-A22B-2507), dan Amazon Nova (Nova Pro dan Nova Premier). Dengan opsi baru ini, Amazon Bedrock membantu pelanggan memperoleh kontrol lebih besar dalam menyeimbangkan efisiensi biaya dengan persyaratan kinerja, yang memungkinkan mereka meningkatkan skala beban kerja AI secara ekonomis sekaligus memastikan pengalaman pengguna yang optimal untuk aplikasi mereka yang paling penting.
Untuk informasi lebih lanjut tentang AWS Region tempat tingkatan layanan inferensi Amazon Bedrock Priority dan Flex tersedia, lihat tabel AWS Region
Pelajari selengkapnya tentang tingkatan layanan di Blog Berita dan dokumentasi kami.