แค็ตตาล็อกข้อมูลของ AWS Glue สร้างสถิติสำหรับตารางใหม่โดยอัตโนมัติได้แล้ว

โพสต์บน: 3 ธ.ค. 2024

แค็ตตาล็อกข้อมูลของ AWS Glue สร้างสถิติสำหรับตารางใหม่โดยอัตโนมัติได้แล้ว ซึ่งสถิติเหล่านี้ผสานการทำงานกับเครื่องมือเพิ่มประสิทธิภาพตามต้นทุน (CBO) จาก Amazon Redshift และ Amazon Athena ซึ่งส่งผลให้ประสิทธิภาพการสืบค้นดีขึ้นและประหยัดต้นทุนได้

เครื่องมือการสืบค้นเช่น Amazon Redshift และ Amazon Athena นำสถิติสำหรับตารางมาใช้ เพื่อกำหนดวิธีที่มีประสิทธิภาพที่สุดในการดำเนินการสืบค้น ก่อนหน้านี้ การสร้างสถิติสำหรับตาราง Apache Iceberg ในแค็ตตาล็อกข้อมูลของ AWS Glue ต้องอาศัยการตรวจสอบและอัปเดตการกำหนดค่าสำหรับตารางจากคุณอย่างต่อเนื่อง ในตอนนี้ แค็ตตาล็อกข้อมูลของ AWS Glue ช่วยให้คุณสามารถสร้างสถิติสำหรับตารางใหม่ได้โดยอัตโนมัติด้วยการกำหนดค่าแค็ตตาล็อกเพียงครั้งเดียว คุณสามารถเริ่มต้นใช้งานได้โดยเลือกแค็ตตาล็อกเริ่มต้นในคอนโซล Lake Formation และเปิดใช้งานสถิติสำหรับตารางในแท็บการกำหนดค่าการเพิ่มประสิทธิภาพตาราง เมื่อมีการสร้างตารางใหม่หรืออัปเดตตารางที่มีอยู่สถิติจะถูกสร้างโดยใช้ตัวอย่างแถวสำหรับคอลัมน์ทั้งหมดและจะได้รับการรีเฟรชเป็นระยะ สำหรับตาราง Apache Iceberg สถิติเหล่านี้จะประกอบด้วยตัวเลขค่าที่ไม่ซ้ำกัน (NDV) สำหรับรูปแบบไฟล์อื่น ๆ เช่น Parquet จะมีการรวบรวมสถิติเพิ่มเติม เช่น จำนวนค่านัล ค่าสูงสุดและต่ำสุด และความยาวเฉลี่ย Amazon Redshift และ Amazon Athena จะใช้สถิติเพื่อเพิ่มประสิทธิภาพการสืบค้น โดยใช้การเพิ่มประสิทธิภาพ เช่น คำสั่งการเข้าร่วมที่เหมาะสมหรือพุชดาวน์การรวมตามค่าใช้จ่าย คอนโซลแค็ตตาล็อกของ Glue ช่วยให้ข้อมูลการแสดงผลเกี่ยวกับสถิติที่อัปเดตและการเรียกใช้การสร้างสถิติได้

การรองรับระบบอัตโนมัติสำหรับสถิติแค็ตตาล็อกของ AWS Glue พร้อมให้บริการโดยทั่วไปใน AWS Region ต่าง ๆ ได้แก่ สหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียร์ฝั่งเหนือ, โอไฮโอ), สหรัฐอเมริกาฝั่งตะวันตก (แคลิฟอร์เนียเหนือ, ออริกอน), ยุโรป (ไอร์แลนด์), เอเชียแปซิฟิก (โตเกียว) อ่านบล็อกโพสต์และไปที่เอกสารประกอบของแค็ตตาล็อกของ AWS Glue เพื่อเรียนรู้เพิ่มเติม