แค็ตตาล็อกข้อมูลของ AWS Glue รองรับการเพิ่มประสิทธิภาพพื้นที่เก็บข้อมูลของตาราง Apache Iceberg แล้ว

โพสต์บน: 12 ก.ย. 2024

ตอนนี้ แค็ตตาล็อกข้อมูลของ AWS Glue รองรับการเพิ่มประสิทธิภาพพื้นที่เก็บข้อมูลของตาราง Apache Iceberg โดยการลบไฟล์ข้อมูลที่ไม่จำเป็นอีกต่อไปโดยอัตโนมัติ การเขียนแต่ละครั้งไปยังตาราง Iceberg จะสร้างสแนปช็อตใหม่ หรือเวอร์ชันใหม่ ของตาราง นอกจากนี้ ความล้มเหลวใดๆ ในระหว่างการเขียนไปยังตาราง Iceberg จะสร้างไฟล์ข้อมูลที่ไม่ได้อ้างอิงในสแนปช็อตที่เรียกว่าไฟล์ “กำพร้า” ซึ่งจะเพิ่มค่าใช้จ่ายพื้นที่เก็บข้อมูลยิ่งขึ้นไปอีก การเพิ่มประสิทธิภาพพื้นที่เก็บข้อมูลใหม่ของแค็ตตาล็อกของ AWS Glue พร้อมด้วยการกระชับข้อมูลแบบอัตโนมัติจะช่วยคุณลดค่าใช้จ่ายของข้อมูลเมตา ควบคุมค่าใช้จ่ายพื้นที่เก็บข้อมูล และปรับปรุงประสิทธิภาพการสืบค้น

ด้วยการเปิดตัวครั้งนี้ คุณสามารถเปิดใช้งานการเพิ่มประสิทธิภาพตารางแค็ตตาล็อกของ AWS Glue เพื่อรวมสแนปช็อตและการจัดการข้อมูลกำพร้าได้ คุณสามารถเพิ่มประสิทธิภาพเค้าโครงของ Amazon S3 ได้โดยทำการกำหนดค่า เช่น ระยะเวลาการเก็บรักษาข้อมูลค่าเริ่มต้น และจำนวนวันในการเก็บไฟล์กำพร้า เมื่อเปิดใช้งานแล้ว แค็ตตาล็อกของ AWS Glue จะตรวจติดตามตาราง ลบสแนปช็อตออกจากข้อมูลเมตาตาราง ลบไฟล์ข้อมูล Amazon S3 และลบไฟล์กำพร้าที่ไม่จำเป็นอีกต่อไปเป็นระยะๆ คุณสามารถดูประวัติจำนวนข้อมูล, Manifest, รายการ Manifest และไฟล์กำพร้าที่ถูกลบไปได้จากแท็บการเพิ่มประสิทธิภาพตารางในคอนโซลแค็ตตาล็อกของ Glue

นอกเหนือจากคอนโซล AWS แล้ว ลูกค้ายังสามารถใช้ AWS CLI หรือ AWS SDK เพื่อเปิดใช้งานการเพิ่มประสิทธิภาพตารางของตาราง Apache Iceberg ได้ด้วย การเพิ่มประสิทธิภาพอัตโนมัติสำหรับตาราง Iceberg พร้อมให้ใช้งานใน AWS Region 13 แห่ง ได้แก่ สหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียฝั่งเหนือ, โอไฮโอ), สหรัฐอเมริกาฝั่งตะวันตก (ออริกอน), ยุโรป (ไอร์แลนด์, ลอนดอน, แฟรงก์เฟิร์ต, สตอกโฮล์ม), เอเชียแปซิฟิก (โตเกียว, โซล, มุมไบ, สิงคโปร์, ซิดนีย์), อเมริกาใต้ (เซาเปาลู) หากต้องการเรียนรู้เพิ่มเติม โปรดอ่านบล็อก และไปที่เอกสารประกอบแค็ตตาล็อกข้อมูลของ AWS Glue