ตอนนี้แค็ตตาล็อกข้อมูลของ AWS Glue รองรับการสร้างสถิติระดับคอลัมน์ตามกำหนดเวลาแล้ว
ตอนนี้ แค็ตตาล็อกข้อมูลของ AWS Glue รองรับการสร้างสถิติระดับคอลัมน์ตามกำหนดเวลาสำหรับตาราง Apache Iceberg และรูปแบบไฟล์ เช่น Parquet, JSON, CSV, XML, ORC และ ION แล้ว การเปิดตัวนี้ทำให้คุณสามารถลดความซับซ้อนและทำให้การสร้างสถิติเป็นไปโดยอัตโนมัติด้วยการสร้างกำหนดการที่เกิดซ้ำในแค็ตตาล็อกข้อมูลของ Glue สถิติเหล่านี้ผสานรวมเข้ากับเครื่องมือเพิ่มประสิทธิภาพตามต้นทุน (CBO) จาก Amazon Redshift Spectrum และ Amazon Athena ซึ่งส่งผลให้ประสิทธิภาพการสืบค้นดีขึ้นและประหยัดต้นทุนได้
โดยก่อนหน้านี้ หากต้องการตั้งค่ากำหนดเวลาการสร้างสถิติที่เกิดซ้ำ คุณต้องเรียกใช้บริการของ AWS โดยใช้ AWS Lambda และ Amazon EventBridge Scheduler ร่วมกัน เมื่อใช้ฟีเจอร์ใหม่นี้ คุณจะสามารถจัดเตรียมกำหนดเวลาที่เกิดซ้ำเป็นการกำหนดค่าเพิ่มเติมให้กับแค็ตตาล็อกข้อมูลของ Glue พร้อมกับเปอร์เซ็นต์การสุ่มตัวอย่างได้ สำหรับการเรียกใช้งานตามกำหนดเวลาแต่ละครั้ง จะมีการรวบรวมจำนวนค่าที่แตกต่างกัน (NDV) สำหรับตาราง Apache Iceberg และสถิติเพิ่มเติม เช่น จำนวนค่าว่าง ค่าสูงสุด ค่าต่ำสุด และความยาวเฉลี่ยซึ่งจะถูกรวบรวมสำหรับรูปแบบไฟล์อื่น ๆ เมื่อมีการอัปเดตสถิติ Amazon Redshift และ Amazon Athena จะใช้สถิติเพื่อเพิ่มประสิทธิภาพการสืบค้นด้วย โดยใช้การเพิ่มประสิทธิภาพ เช่น คำสั่งการเข้าร่วมที่เหมาะสมหรือพุชดาวน์การรวมตามค่าใช้จ่าย คุณสามารถดูสถานะและช่วงเวลาของการเรียกใช้การสร้างสถิติแต่ละครั้ง ตลอดจนค่าสถิติที่อัปเดต
หากต้องการเริ่มต้นใช้งาน คุณสามารถกำหนดเวลาการสร้างสถิติโดยใช้คอนโซลแค็ตตาล็อกข้อมูลของ AWS Glue หรือ AWS Glue API การรองรับการสร้างสถิติแค็ตตาล็อกของ AWS Glue ตามกำหนดเวลาพร้อมใช้งานโดยทั่วไปในรีเจี้ยนทุกแห่งที่มี Amazon EventBridge Scheduler ให้บริการ ไปที่เอกสารประกอบแค็ตตาล็อกของ AWS Glue เพื่อเรียนรู้เพิ่มเติม