ข้ามไปที่เนื้อหาหลัก

Amazon Bedrock

การแคชพร้อมท์ของ Amazon Bedrock

ภาพรวม

กรณีการใช้งานโมเดลพื้นฐาน (FM) จำนวนมากจะนำพร้อมท์ (ข้อความช่วงแรก) บางส่วนมาใช้ซ้ำในระหว่างการเรียกใช้ API ด้วยการแคชพร้อมท์ โมเดลที่รองรับจะให้คุณแคชข้อความช่วงแรกของพร้อมท์ที่ซ้ำกันเหล่านี้ระหว่างคำขอต่าง ๆ ได้ แคชนี้จะช่วยให้โมเดลข้ามการประมวลผลซ้ำของข้อความช่วงแรกที่ตรงกัน ผลลัพธ์คือ การแคชพร้อมท์ใน Amazon Bedrock สามารถลดต้นทุนได้มากถึง 90% และลดเวลาแฝงได้มากถึง 85% สำหรับโมเดลที่รองรับ

ปรับปรุงประสิทธิภาพสำหรับการใช้งานหลายกรณี

แอปพลิเคชันจำนวนมากต้องการหรือได้รับประโยชน์จากพร้อมท์ที่ยาว เช่น คำถามและคำตอบเกี่ยวกับเอกสาร ตัวช่วยเขียนโค้ด การค้นหาแบบ Agentic หรือการแชทแบบยาว แม้แต่กับโมเดลพื้นฐานที่ชาญฉลาดที่สุด คุณก็มักจะต้องใช้พร้อมท์ที่ครอบคลุมพร้อมคำแนะนำโดยละเอียดและตัวอย่างหลายช็อตเพื่อให้ได้ผลลัพธ์ที่ถูกต้องสำหรับกรณีการใช้งานของคุณ อย่างไรก็ตาม พร้อมท์ที่ยาวซึ่งนำมาใช้ซ้ำในระหว่างการเรียกใช้ API อาจทำให้ค่าเวลาแฝงเฉลี่ยเพิ่มขึ้น ด้วยการแคชพร้อมท์ สถานะของโมเดลภายในไม่จำเป็นต้องถูกประมวลผลใหม่ ถ้าข้อความช่วงแรกของพร้อมท์ถูกแคชไว้แล้ว ซึ่งจะช่วยประหยัดเวลาในการประมวลผล ส่งผลให้เกิดเวลาแฝงในการตอบสนองลดลง

Missing alt text value

ลดต้นทุนที่เกี่ยวข้องกับพร้อมท์ที่ยาวและซ้ำ

ด้วยการแคชพร้อมท์ คุณสามารถแคชส่วนที่เกี่ยวข้องของพร้อมท์ของคุณเพื่อประหยัดค่าใช้จ่ายโทเค็นอินพุต แคชของคุณเป็นข้อมูลเฉพาะสำหรับบัญชีของคุณและประกอบด้วยสถานะของโมเดลภายในที่แสดงถึงพร้อมท์ของคุณ เนื่องจากโมเดลสามารถข้ามการประมวลผลใหม่สำหรับข้อความช่วงแรกที่แคชไว้ได้ ทรัพยากรการประมวลผลที่จำเป็นในการประมวลผลคำขอของคุณจะลดลง เป็นผลให้ค่าใช้จ่ายของคุณลดลง

ผสานรวมเข้ากับฟีเจอร์อื่น ๆ ของ Amazon Bedrock ได้อย่างราบรื่น

การแคชพร้อมท์จะรวมเข้ากับฟีเจอร์ของ Amazon Bedrock เช่น Agent ต่าง ๆ ช่วยให้คุณเร่งงานที่มีหลายขั้นตอนได้ และยังใช้ประโยชน์จากพร้อมท์ระบบที่ยาวขึ้นเพื่อช่วยปรับแต่งพฤติกรรมของ Agent ได้โดยไม่ทำให้การตอบสนองช้าลง