Danh mục dữ liệu AWS Glue hiện đã hỗ trợ tối ưu hóa lưu trữ cho các bảng Apache Iceberg

Ngày đăng: 12 Th09 2024

Danh mục dữ liệu AWS Glue hiện đã hỗ trợ tối ưu hóa việc lưu trữ bảng Apache Iceberg bằng cách tự động xóa các tệp dữ liệu không còn cần thiết. Mỗi lần ghi vào bảng Iceberg sẽ tạo ra một bản kết xuất nhanh (hay còn gọi là phiên bản) mới của bảng. Ngoài ra, các lỗi xảy ra trong quá trình ghi vào bảng Iceberg sẽ tạo ra tệp dữ liệu không được tham chiếu trong bản kết xuất nhanh (còn được gọi là tệp "mồ côi"), làm tăng chi phí lưu trữ. Cách tối ưu hóa lưu trữ mới của danh mục AWS Glue kết hợp với tính năng nén tự động sẽ giúp bạn giảm chi phí quản lý siêu dữ liệu, kiểm soát chi phí lưu trữ và cải thiện hiệu suất truy vấn.

Với lần ra mắt này, bạn có thể kích hoạt tính năng tối ưu hóa bảng danh mục AWS Glue để bao gồm tính năng quản lý dữ liệu kết xuất nhanh và dữ liệu mồ côi. Bạn có thể tối ưu hóa bố cục Amazon S3 bằng cách cung cấp cấu hình như thời gian lưu giữ mặc định và số ngày lưu giữ tệp mồ côi. Sau khi được bật, danh mục AWS Glue sẽ định kỳ theo dõi bảng, xóa bản kết xuất nhanh khỏi siêu dữ liệu bảng, xóa tệp dữ liệu Amazon S3 và các tệp mồ côi không còn cần thiết. Bạn có thể xem lịch sử số lượng dữ liệu, bản kê khai, danh sách bản kê khai và tệp mồ côi đã xóa khỏi tab tối ưu hóa bảng trong bảng điều khiển danh mục Glue.

Ngoài bảng điều khiển AWS, khách hàng cũng có thể sử dụng AWS CLI hoặc AWS SDK để kích hoạt tính năng tối ưu hóa bảng của bảng Apache Iceberg. Tính năng tối ưu hóa tự động cho bảng Iceberg hiện được cung cấp ở 13 khu vực AWS: Miền Đông Hoa Kỳ (Bắc Virginia, Ohio), Miền Tây Hoa Kỳ (Oregon), Châu Âu (Ireland, London, Frankfurt, Stockholm), Châu Á Thái Bình Dương (Tokyo, Seoul, Mumbai, Singapore, Sydney), Nam Mỹ (São Paulo). Để tìm hiểu thêm, hãy đọc blog và truy cập tài liệu về Danh mục dữ liệu AWS Glue.