Danh mục dữ liệu AWS Glue hiện hỗ trợ tạo số liệu thống kê cấp cột theo lịch trình
Danh mục dữ liệu AWS Glue hiện hỗ trợ tạo số liệu thống kê cấp cột theo lịch trình cho các bảng Apache Iceberg và các định dạng tệp như Parquet, JSON, CSV, XML, ORC và ION. Khi tính năng này được ra mắt, bạn có thể đơn giản hóa và tự động hóa việc tạo số liệu thống kê bằng cách tạo lịch trình định kỳ trong Danh mục dữ liệu Glue. Các số liệu thống kê này được tích hợp với trình tối ưu hóa dựa trên chi phí (CBO) từ Amazon Redshift Spectrum và Amazon Athena, giúp cải thiện hiệu năng truy vấn và có khả năng tiết kiệm chi phí.
Trước đây, để thiết lập lịch tạo số liệu thống kê định kỳ, bạn phải gọi các dịch vụ AWS bằng cách sử dụng kết hợp AWS Lambda và Trình lập lịch Amazon EventBridge. Khi tính năng mới này được ra mắt, bạn hiện có thể cung cấp lịch định kỳ dưới dạng cấu hình bổ sung cho Danh mục dữ liệu Glue cùng với tỷ lệ lấy mẫu. Đối với mỗi lần chạy theo lịch trình, số lượng giá trị riêng biệt (NDV) được thu thập cho các bảng Apache Iceberg và số liệu thống kê bổ sung như số lượng giá trị null, độ dài tối đa, tối thiểu và trung bình được thu thập cho các định dạng tệp khác. Khi số liệu thống kê được cập nhật, Amazon Redshift và Amazon Athena sử dụng các số liệu đó để tối ưu hóa truy vấn, sử dụng các tính năng tối ưu hóa như thứ tự kết hợp tối ưu hoặc đẩy phép tổng hợp xuống dựa trên chi phí. Bạn có thể giám sát trạng thái và thời gian của mỗi lần chạy tạo số liệu thống kê, cũng như các giá trị dữ liệu thống kê được cập nhật.
Để bắt đầu, bạn có thể lên lịch tạo số liệu thống kê bằng Bảng điều khiển Danh mục dữ liệu AWS Glue hoặc API AWS Glue. Tính năng tạo số liệu thống kê Danh mục AWS Glue theo lịch trình được hỗ trợ rộng rãi ở tất cả các khu vực cung cấp Trình lập lịch Amazon EventBridge. Truy cập tài liệu về Danh mục AWS Glue để tìm hiểu thêm.