แค็ตตาล็อกข้อมูลของ AWS Glue นำเสนอการเพิ่มประสิทธิภาพขั้นสูงอัตโนมัติสำหรับตาราง Apache Iceberg
ขณะนี้แค็ตตาล็อกข้อมูลของ AWS Glue นำเสนอการเพิ่มประสิทธิภาพอัตโนมัติขั้นสูงสำหรับตาราง Apache Iceberg การอัปเดตนี้รวมถึงการรองรับการบีบอัดไฟล์ที่ลบ ประเภทข้อมูลที่ซ้อนกัน การดำเนินการความคืบหน้าบางส่วน และการรองรับวิวัฒนาการพาร์ติชัน ทำให้การรักษา Data Lake เชิงธุรกรรมที่ดำเนินการอย่างสม่ำเสมอเป็นเรื่องง่ายขึ้น ฟีเจอร์เหล่านี้ตอบสนองต่อความท้าทายที่ลูกค้าต้องเผชิญจากการสตรีมข้อมูลเข้าสู่ตาราง Apache Iceberg อย่างต่อเนื่อง ซึ่งส่งผลให้มีไฟล์ที่ลบจำนวนมากที่ติดตามการเปลี่ยนแปลงในไฟล์ข้อมูล
ด้วยความสามารถใหม่นี้ แค็ตตาล็อกข้อมูลของ Glue จะตรวจสอบพาร์ติชันตารางอย่างต่อเนื่องสำหรับไฟล์ที่ลบตามตำแหน่งและไฟล์ที่ลบที่เหมือนกัน เพื่อเริ่มต้นกระบวนการบีบอัด และดำเนินการความคืบหน้าบางส่วนเป็นประจำเพื่อลดความขัดแย้ง ขณะนี้เครื่องมือเพิ่มประสิทธิภาพแค็ตตาล็อกของ Glue รองรับวิวัฒนาการของสคีมาเมื่อคุณเปลี่ยนลำดับหรือเปลี่ยนชื่อคอลัมน์ ตลอดจนวิวัฒนาการข้อมูลจำเพาะของพาร์ติชัน นอกจากนี้ แค็ตตาล็อกของ Glue ยังขยายการรองรับข้อมูลที่ซับซ้อนกันอย่างมากและรองรับตัวแปลงสัญญาณบีบอัด Parquet ทั้ง zstd, brotli, lz4, gzip และ snappy การเปิดใช้งานการบีบอัดอัตโนมัติจะช่วยลดจำนวนไฟล์ที่ลบและค่าใช้จ่ายสำหรับข้อมูลเมตาบนตาราง Iceberg ของคุณ รวมถึงปรับปรุงประสิทธิภาพการสืบค้น ฟีเจอร์ใหม่เหล่านี้จะถูกนำไปใช้กับเครื่องมือเพิ่มประสิทธิภาพแค็ตตาล็อกของ Glue รุ่นใหม่และที่มีอยู่โดยอัตโนมัติ
นอกจากคอนโซล AWS แล้ว ลูกค้ายังสามารถใช้ AWS CLI หรือ AWS SDK เพื่อเปิดใช้งานการเพิ่มประสิทธิภาพอัตโนมัติสำหรับตาราง Apache Iceberg ได้อีกด้วย ฟีเจอร์นี้พร้อมให้ใช้งานใน AWS Region 14 แห่ง ได้แก่ สหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียฝั่งเหนือ, โอไฮโอ), สหรัฐอเมริกาฝั่งตะวันตก (ออริกอน), ยุโรป (ไอร์แลนด์, ลอนดอน, แฟรงก์เฟิร์ต, สตอกโฮล์ม), แคนาดา (ภาคกลาง), เอเชียแปซิฟิก (โตเกียว, โซล, มุมไบ, สิงคโปร์, ซิดนีย์) และอเมริกาใต้ (เซาเปาลู) หากต้องการเรียนรู้เพิ่มเติม โปรดอ่านบล็อก และไปที่เอกสารประกอบแค็ตตาล็อกข้อมูลของ AWS Glue