Amazon Redshift เปิดตัวการเพิ่มประสิทธิภาพที่สำคัญสำหรับการสืบค้นแบบ Top-K
Amazon Redshift ปรับปรุงการประมวลผลของการสืบค้นแบบ Top-K (การสืบค้นที่มีคำสั่ง ORDER BY และ LIMIT) เพิ่มเติม โดยข้ามบล็อกข้อมูลที่ไม่เกี่ยวข้องอย่างชาญฉลาดเพื่อให้ส่งคืนผลลัพธ์ได้เร็วขึ้น ลดปริมาณข้อมูลที่ถูกประมวลผลอย่างมาก การปรับปรุงนี้จัดเรียงใหม่และปรับบล็อกข้อมูลที่จะอ่านอย่างมีประสิทธิภาพตามค่าต่ำสุด/ค่าสูงสุดของคอลัมน์ ORDER BY โดยเก็บเฉพาะแถวที่เข้าเกณฑ์ K มากที่สุดไว้ในหน่วยความจำ เมื่อคอลัมน์ ORDER BY ถูกจัดเรียงหรือจัดเรียงบางส่วน Amazon Redshift จะประมวลผลเฉพาะบล็อกข้อมูลขั้นต่ำที่จำเป็นแทนการสแกนทั้งตาราง ช่วยลด I/O และค่าใช้จ่ายด้านการประมวลผลที่ไม่จำเป็น
การปรับปรุงนี้ให้ประโยชน์อย่างยิ่งกับการสืบค้นแบบ Top-K เมื่อข้อมูลถูกจัดเก็บแบบถาวรในลำดับจากมากไปน้อย (ORDER BY ... DESC LIMIT K) บนตารางขนาดใหญ่ที่แถวที่เข้าเกณฑ์ถูกเพิ่มต่อท้ายในพื้นที่เก็บข้อมูล ตัวอย่างทั่วไป ได้แก่
- การค้นหารายการสั่งซื้อ K รายการล่าสุดจากธุรกรรมระดับล้านหรือพันล้านรายการ
- การดึงข้อมูลผลิตภัณฑ์ที่มีประสิทธิภาพดีที่สุดแบบ Top-K หรือผลิตภัณฑ์ที่มีประสิทธิภาพแย่ที่สุดจำนวน K (Top-K ในลำดับแบบมากไปน้อย) จากแค็ตตาล็อกการขายที่มีหน่วยสินค้า (SKU) หลายแสนรายการ และมีธุรกรรมการขายระดับล้านหรือพันล้านรายการที่เชื่อมโยงกับ SKU ของผลิตภัณฑ์ทั้งหมดในแค็ตตาล็อกการขายของคุณ
- การค้นหา Top-K พร้อมท์ล่าสุด หรือ Top-K พร้อมท์ที่เก่าที่สุด (Top-K ในลำดับแบบมากไปน้อย) ที่ถูกอนุมานโดยโมเดลภาษาขนาดใหญ่ (LLM) จากพร้อมท์ระดับพันล้านรายการ
ด้วยการปรับปรุงใหม่นี้ ประสิทธิภาพของการสืบค้นแบบ Top-K ดีขึ้นอย่างมาก การปรับปรุงสำหรับการสืบค้นแบบ Top-K นี้พร้อมใช้งานแล้วใน Amazon Redshift โดยไม่มีค่าใช้จ่ายเพิ่มเติม โดยเริ่มตั้งแต่ รุ่นแพตช์ P199 ใน AWS Region ทุกแห่งที่มี Amazon Redshift ให้บริการ การปรับปรุงนี้จะถูกนำไปใช้กับการสืบค้นที่เข้าเกณฑ์โดยอัตโนมัติ โดยไม่จำเป็นต้องเขียนคำสืบค้นใหม่หรือเปลี่ยนแปลงการกำหนดค่าใด ๆ