ตอนนี้ แค็ตตาล็อกข้อมูลของ AWS Glue รองรับการสร้างสถิติสำหรับตาราง Apache Iceberg แล้ว
ตอนนี้ แค็ตตาล็อกข้อมูลของ AWS Glue รองรับการสร้างสถิติรวมระดับคอลัมน์สำหรับตาราง Apache Iceberg แล้ว สถิติเหล่านี้รวมเข้ากับเครื่องมือเพิ่มประสิทธิภาพตามต้นทุน (CBO) จาก Amazon Redshift Spectrum ส่งผลให้ประสิทธิภาพการสืบค้นดีขึ้นและประหยัดต้นทุนได้
Apache Iceberg รองรับสถิติต่าง ๆ เช่น nulls, min, max แต่ขาดการสนับสนุนการสร้างสถิติการรวม เช่น จำนวนค่าที่แตกต่างกัน (NDV) ด้วยการเปิดตัวครั้งนี้ คุณจะได้ประสบการณ์ครบวงจรแบบผสานรวม ซึ่งรวบรวม NDV ไว้บนคอลัมน์ของตาราง Apache Iceberg และเก็บไว้ในไฟล์ Apache Iceberg Puffin Amazon Redshift ใช้สถิติการรวมเหล่านี้เพื่อเพิ่มประสิทธิภาพการสืบค้นโดยใช้ตัวกรองที่เข้มงวดที่สุดโดยเร็วที่สุดในการประมวลผลการสืบค้น ซึ่งจะจำกัดการใช้หน่วยความจำและจำนวนระเบียนที่อ่านเพื่อให้ผลการสืบค้น
หากต้องการเริ่มต้น คุณสามารถสร้างสถิติสำหรับตาราง Apache Iceberg ได้โดยใช้คอนโซล AWS Glue หรือ AWS Glue API ในการทำงานแต่ละครั้ง แค็ตตาล็อกของ Glue จะคำนวณสถิติสำหรับสแนปช็อตตาราง Iceberg ปัจจุบัน จัดเก็บไว้ในไฟล์ Iceberg Puffin และแค็ตตาล็อกของ Glue เมื่อคุณเรียกใช้การสืบค้นจาก Amazon Redshift Spectrum คุณจะได้รับการปรับปรุงประสิทธิภาพการสืบค้นโดยอัตโนมัติด้วยการผสานรวมในตัวกับ Apache Iceberg
การสนับสนุนการสร้างสถิติแค็ตตาล็อกของ AWS Glue พร้อมให้ใช้งานโดยทั่วไปใน AWS Region ดังต่อไปนี้: สหรัฐอเมริกาฝั่งตะวันออก (โอไฮโอ), สหรัฐอเมริกาฝั่งตะวันตก (แคลิฟอร์เนียเหนือ), ยุโรป (แฟรงก์เฟิร์ต), เอเชียแปซิฟิก (มุมไบ) อ่านบล็อกโพสต์และไปที่เอกสารประกอบแค็ตตาล็อกของ AWS Glue เพื่อเรียนรู้เพิ่มเติม