Danh mục dữ liệu AWS Glue hiện hỗ trợ tạo số liệu thống kê cho các bảng Apache Iceberg

Ngày đăng: 9 Th07 2024

Danh mục dữ liệu AWS Glue hiện hỗ trợ tạo số liệu thống kê tổng hợp ở cấp độ cột cho các bảng Apache Iceberg. Những số liệu thống kê này hiện được tích hợp với trình tối ưu hóa dựa trên chi phí (CBO) từ Amazon Redshift Spectrum, giúp cải thiện hiệu suất truy vấn đồng thời có thể tiết kiệm chi phí.

Apache Iceberg hỗ trợ các số liệu thống kê như null, min, max, nhưng chưa hỗ trợ tạo số liệu thống kê tổng hợp, chẳng hạn như số giá trị riêng biệt (NDV). Với bản ra mắt này, giờ đây bạn đã có được trải nghiệm tích hợp toàn diện, trong đó NDV được thu thập trên các cột của bảng Apache Iceberg và được lưu trữ trong các tệp Puffin của Apache Iceberg. Amazon Redshift sử dụng các số liệu thống kê tổng hợp này để tối ưu hóa truy vấn bằng cách áp dụng các bộ lọc hạn chế nhất càng sớm càng tốt trong quá trình xử lý truy vấn, từ đó hạn chế mức sử dụng bộ nhớ và số lượng bản ghi được đọc để cung cấp kết quả truy vấn.

Để bắt đầu, bạn có thể tạo số liệu thống kê cho bảng Apache Iceberg bằng Bảng điều khiển AWS Glue hoặc API AWS Glue. Với mỗi lần chạy, Glue Catalog sẽ tính toán số liệu thống kê cho ảnh chụp nhanh của bảng Iceberg hiện tại và lưu trữ trong tệp Puffin Iceberg và Glue Catalog. Khi chạy truy vấn từ Amazon Redshift Spectrum, bạn sẽ tự động nhận được những cải thiện về hiệu suất truy vấn nhờ khả năng tích hợp sẵn với Apache Iceberg.

Tính năng hỗ trợ tạo số liệu thống kê Danh mục AWS Glue được cung cấp rộng rãi ở các khu vực AWS sau: Miền Đông Hoa Kỳ (Ohio), Miền Tây Hoa Kỳ (Bắc California), Châu Âu (Frankfurt), Châu Á Thái Bình Dương (Mumbai). Hãy đọc bài đăng trên blog và truy cập tài liệu về Danh mục AWS Glue để tìm hiểu thêm.