Giờ đây, Danh mục dữ liệu AWS Glue đã tự động tạo số liệu thống kê cho bảng mới

Ngày đăng: 3 Th12 2024

Giờ đây, Danh mục dữ liệu AWS Glue đã tự động tạo số liệu thống kê cho bảng mới. Các số liệu thống kê này được tích hợp với trình tối ưu hóa dựa trên chi phí (CBO) từ Amazon Redshift và Amazon Athena, giúp cải thiện hiệu năng truy vấn và có khả năng tiết kiệm chi phí.

Các công cụ truy vấn như Amazon Redshift và Amazon Athena sẽ sử dụng những số liệu thống kê cho bảng này để xác định cách thực hiện truy vấn hiệu quả nhất. Trước đây, để tạo số liệu thống kê cho bảng Apache Iceberg trong Danh mục dữ liệu AWS Glue, bạn phải liên tục theo dõi và cập nhật cấu hình cho bảng. Giờ đây, Danh mục dữ liệu AWS Glue cho phép bạn tự động tạo số liệu thống kê cho bảng mới mà chỉ cần cấu hình danh mục một lần. Bạn có thể bắt đầu bằng cách chọn danh mục mặc định trong bảng điều khiển Lake Formation và bật số liệu thống kê cho bảng trong tab cấu hình tối ưu hóa bảng. Khi tạo bảng mới hoặc cập nhật bảng có sẵn, hệ thống sẽ tạo số liệu thống kê bằng cách sử dụng các hàng mẫu cho tất cả cột. Số liệu thống kê sẽ được làm mới định kỳ. Đối với bảng Apache Iceberg, số liệu thống kê này bao gồm số lượng giá trị duy nhất (NDV). Đối với các định dạng tệp khác như Parquet, hệ thống sẽ thu thập số liệu thống kê bổ sung, chẳng hạn như số lượng giá trị null, giá trị tối đa, tối thiểu và độ dài trung bình. Amazon Redshift và Amazon Athena sử dụng số liệu thống kê được cập nhật để tối ưu hóa truy vấn, sử dụng các tính năng tối ưu hóa như thứ tự kết hợp tối ưu hoặc đẩy phép tổng hợp xuống dựa trên chi phí. Bảng điều khiển Danh mục Glue cho phép bạn xem số liệu thống kê cập nhật và các lần tạo số liệu thống kê.

Chúng tôi đã hỗ trợ rộng rãi tính năng tự động tạo số liệu thống kê của Danh mục AWS Glue ở các Khu vực AWS sau: Miền Đông Hoa Kỳ (Bắc Virginia, Ohio), Miền Tây Hoa Kỳ (Bắc California, Oregon), Châu Âu (Ireland), Châu Á Thái Bình Dương (Tokyo). Hãy đọc bài đăng trên blog và truy cập tài liệu hướng dẫn về Danh mục AWS Glue để tìm hiểu thêm.