AWS Glue DataBrew bổ sung khả năng chỉ định số liệu thống kê chất lượng dữ liệu nào được tạo cho bộ dữ liệu của bạn

Ngày đăng: 23 Th07 2021

AWS Glue DataBrew hiện cho phép khách hàng chỉ định số liệu thống kê chất lượng dữ liệu nào sẽ tự động tạo cho bộ dữ liệu khi chạy công việc hồ sơ. Điều này cho phép người dùng tùy chỉnh thống kê hồ sơ dữ liệu như xác định các giá trị trùng lặp, mối tương quan và ngoại lệ dựa trên bản chất và kích thước của bộ dữ liệu của họ và tạo tổng quan hồ sơ dữ liệu tùy chỉnh chỉ với số liệu thống kê đáp ứng nhu cầu của họ.

DataBrew hiển thị tất cả số liệu thống kê từ một công việc hồ sơ trên bảng điều khiển hồ sơ trực quan và lưu trữ dữ liệu thô dưới dạng đối tượng JSON trong bộ chứa Amazon S3. Khách hàng có thể kiểm soát số liệu thống kê nào sẽ hiển thị, theo dõi chất lượng dữ liệu đến theo thời gian và khám phá các thay đổi đối với dữ liệu trong vòng vài phút mà không cần viết bất kỳ mã nào. Khách hàng cũng có thể thiết lập cảnh báo chất lượng dữ liệu tự động bằng DataBrew và AWS Lambda, như được nêu trong bài đăng trên blog này.

Để bắt đầu, hãy truy cập Bảng điều khiển quản lý AWS hoặc cài đặt plugin DataBrew trong môi trường Notebook của bạn và tham khảo tài liệu về Data Brew.