Hàng trăm ngàn khách hàng xây dựng hồ dữ liệu, vốn có thể trở thành đầm lầy dữ liệu nếu không có chất lượng dữ liệu. Thiết lập chất lượng dữ liệu là một quá trình tốn thời gian và tẻ nhạt. Bạn phải phân tích và tạo các quy tắc về chất lượng dữ liệu theo cách thủ công, cũng như viết mã để cảnh báo khi chất lượng xuống cấp. Chất lượng dữ liệu AWS Glue giúp giảm các nỗ lực chất lượng thủ công này từ vài ngày xuống còn vài giờ. Chất lượng dữ liệu AWS Glue tự động tính toán số liệu thống kê, đề xuất các quy tắc chất lượng, theo dõi và cảnh báo cho bạn khi phát hiện thấy chất lượng đã xuống cấp. Do đó, việc xác định dữ liệu bị thiếu, cũ hoặc kém trước khi dữ liệu đó ảnh hưởng đến doanh nghiệp của bạn trở thành một quy trình hợp lý.

Tổng quan về Chất lượng dữ liệu AWS Glue (1:27)

Tính năng chính

Đề xuất quy tắc tự động được tùy chỉnh theo dữ liệu của bạn

Có thể khó bắt đầu với chất lượng dữ liệu vì bạn phải phân tích dữ liệu theo cách thủ công để tạo các quy tắc chất lượng. Chất lượng dữ liệu AWS Glue tự động tính toán số liệu thống kê cho tập dữ liệu của bạn. Tính năng này sử dụng các số liệu thống kê này để đề xuất bộ quy tắc chất lượng nhằm kiểm tra độ mới, độ chính xác và tính toàn vẹn. Bạn có thể điều chỉnh các quy tắc được đề xuất, loại bỏ quy tắc hoặc thêm quy tắc mới nếu cần. Nếu phát hiện các vấn đề về chất lượng, Chất lượng dữ liệu AWS Glue cũng sẽ cảnh báo cho bạn để bạn có thể hành động.

Đạt được chất lượng dữ liệu đang được lưu trữ và khi trong đường dẫn

Dữ liệu của bạn nằm trong các kho lưu trữ khác nhau và di chuyển từ kho lưu trữ này sang kho lưu trữ khác. Việc giám sát chất lượng dữ liệu cả khi dữ liệu ở nơi lưu trữ và khi đang được truyền đều rất quan trọng. Các quy tắc về Chất lượng dữ liệu AWS Glue có thể được áp dụng cho dữ liệu đang được lưu trữ trong tập dữ liệu và hồ dữ liệu cũng như cho toàn bộ quy trình dữ liệu nơi dữ liệu đang được truyền đi. Bạn có thể áp dụng các quy tắc trên nhiều tập dữ liệu. Đối với quy trình dữ liệu được xây dựng trên AWS Glue Studio, bạn có thể áp dụng một chuyển đổi để đánh giá chất lượng cho toàn bộ quy trình. Bạn cũng có thể xác định các quy tắc để dừng đường dẫn nếu chất lượng giảm sút, ngăn dữ liệu xấu xuất hiện trong hồ dữ liệu của bạn.

Chất lượng dữ liệu ở quy mô petabyte phi máy chủ, tiết kiệm chi phí mà không cần khóa

AWS Glue phi máy chủ, vì vậy bạn có thể mở rộng quy mô mà không cần phải quản lý cơ sở hạ tầng. AWS Glue mở rộng quy mô cho mọi kích thước dữ liệu và có tính năng thanh toán theo mức sử dụng để tăng tính linh hoạt và cải thiện chi phí. Chất lượng dữ liệu AWS Glue sử dụng Deequ, khung mã nguồn mở do Amazon xây dựng dùng để quản lý các tập dữ liệu quy mô petabyte. Do được xây dựng bằng nguồn mở, Chất lượng dữ liệu AWS Glue cung cấp tính linh hoạt và tính di động mà không cần khóa.

Hiểu và khắc phục các vấn đề về chất lượng dữ liệu

Khi các vấn đề về chất lượng dữ liệu xảy ra, bạn có thể sử dụng Chất lượng dữ liệu AWS Glue để tìm hiểu kỹ càng về dữ liệu của mình, từ đó đánh giá và khắc phục những vấn đề này. Bạn có thể sử dụng thông tin chuyên sâu về chất lượng dữ liệu này để triển khai các quy tắc và quy trình mới nhằm cải thiện dữ liệu của bạn trong tương lai.