Danh mục dữ liệu AWS Glue cung cấp tính năng tối ưu hóa tự động nâng cao cho bảng Apache Iceberg
Danh mục dữ liệu AWS Glue hiện cung cấp tính năng tối ưu hóa tự động nâng cao cho các bảng Apache Iceberg. Bản cập nhật này hỗ trợ hoạt động nén tệp xóa, loại dữ liệu lồng nhau, mục cam kết tiến trình một phần và hỗ trợ biến đổi phân vùng, giúp duy trì dễ dàng hơn các hồ dữ liệu giao dịch hiệu suất nhất quán. Các tính năng này giải quyết những thách thức của khách hàng trong việc truyền phát dữ liệu được tải nhập liên tục vào bảng Apache Iceberg, dẫn đến một lượng lớn tệp xóa để theo dõi các thay đổi trong tệp dữ liệu.
Với khả năng mới này, Danh mục dữ liệu Glue liên tục giám sát các phân vùng bảng để tìm các tệp xóa vị trí và bình đẳng, khởi tạo quá trình nén và thường xuyên cam kết tiến trình một phần để giảm xung đột. Trình tối ưu hóa của Danh mục Glue hiện hỗ trợ khả năng biến đổi lược đồ khi bạn sắp xếp lại hoặc đổi tên các cột, cũng như biến đổi thông số kỹ thuật của phân vùng. Ngoài ra, Danh mục Glue đã mở rộng khả năng hỗ trợ cho dữ liệu phức tạp lồng nhau nhiều và cho các codec nén parquet (zstd, brotli, lz4, gzip, snappy). Tính năng nén tự động được kích hoạt giúp giảm chi phí tệp xóa và siêu dữ liệu trên bảng Iceberg của bạn, cũng như giúp cải thiện hiệu suất truy vấn. Các tính năng mới này được áp dụng tự động cho các trình tối ưu hóa hiện có và mới của Danh mục Glue.
Ngoài bảng điều khiển AWS, khách hàng còn có thể sử dụng AWS CLI hoặc SDK AWS để tự động hóa quá trình tối ưu hóa bảng Apache Iceberg. Tính năng này được cung cấp ở 14 khu vực AWS: Miền Đông Hoa Kỳ (Bắc Virginia, Ohio), Miền Tây Hoa Kỳ (Oregon), Châu Âu (Ireland, London, Frankfurt, Stockholm), Canada (Miền Trung), Châu Á Thái Bình Dương (Tokyo, Seoul, Mumbai, Singapore, Sydney), Nam Mỹ (São Paulo). Để tìm hiểu thêm, hãy đọc blog và truy cập tài liệu về Danh mục dữ liệu AWS Glue.