Chất lượng dữ liệu AWS Glue

Cung cấp dữ liệu chất lượng cao trên các hồ dữ liệu và quy trình

Hồ dữ liệu có thể trở thành đầm lầy dữ liệu nếu không có biện pháp giám sát thích hợp. Việc thiết lập các đợt kiểm tra chất lượng dữ liệu vừa tốn thời gian, tẻ nhạt vừa dễ bị lỗi. Bạn phải tạo thủ công các quy tắc chất lượng dữ liệu và viết mã để giám sát quy trình dữ liệu và cảnh báo đối tượng dùng dữ liệu khi chất lượng dữ liệu xuống cấp. Chất lượng dữ liệu AWS Glue giúp giảm các nỗ lực chất lượng thủ công này từ vài ngày xuống còn vài giờ. Tính năng này tự động tính toán số liệu thống kê, đề xuất các quy tắc chất lượng, giám sát và cảnh báo bạn khi phát hiện sự cố. Đối với các vấn đề tiềm ẩn và khó tìm, Chất lượng dữ liệu Glue sử dụng thuật toán ML. Sức mạnh kết hợp của cách tiếp cận dựa trên quy tắc và công nghệ ML, cùng với giải pháp mở phi máy chủ và có quy mô linh hoạt, cho phép bạn cung cấp dữ liệu chất lượng cao để tự tin đưa ra quyết định kinh doanh. 

Tổng quan về Chất lượng dữ liệu AWS Glue (1:27)

Các tính năng của Chất lượng dữ liệu AWS Glue

AWS Glue phi máy chủ, vì vậy bạn có thể mở rộng quy mô mà không cần phải quản lý cơ sở hạ tầng. AWS Glue mở rộng quy mô cho mọi kích thước dữ liệu và có tính năng thanh toán theo mức sử dụng để tăng tính linh hoạt và cải thiện chi phí. Chất lượng dữ liệu AWS Glue sử dụng Deequ, khung mã nguồn mở do Amazon xây dựng dùng để quản lý các tập dữ liệu quy mô petabyte. Do được xây dựng bằng nguồn mở, Chất lượng dữ liệu AWS Glue cung cấp tính linh hoạt và tính di động mà không cần khóa.
Chất lượng dữ liệu AWS Glue tự động tính toán số liệu thống kê cho tập dữ liệu của bạn. Tính năng này sử dụng các số liệu thống kê này để đề xuất bộ quy tắc chất lượng nhằm kiểm tra độ mới, độ chính xác, tính toàn vẹn và thậm chí là các vấn đề khó phát hiện. Bạn có thể điều chỉnh các quy tắc được đề xuất, loại bỏ quy tắc hoặc thêm quy tắc mới nếu cần. Nếu phát hiện các vấn đề về chất lượng, Chất lượng dữ liệu AWS Glue cũng sẽ cảnh báo cho bạn để bạn có thể xử lý.
Chất lượng dữ liệu AWS Glue là một tính năng thông minh. Tính năng này sẽ học các mẫu trong thống kê dữ liệu được thu thập theo thời gian bằng cách sử dụng các thuật toán ML. Tính năng này phát hiện các bất thường, các mẫu dữ liệu bất thường và cảnh báo người dùng. Tính năng này cũng tự động tạo các quy tắc để theo dõi những mẫu cụ thể để bạn có thể dần dần xây dựng các quy tắc chất lượng về dữ liệu.
Dữ liệu của bạn nằm trong các kho lưu trữ khác nhau và di chuyển từ kho lưu trữ này sang kho lưu trữ khác. Việc giám sát chất lượng dữ liệu cả khi dữ liệu ở nơi lưu trữ và khi đang được truyền đều rất quan trọng. Các quy tắc về Chất lượng dữ liệu AWS Glue có thể được áp dụng cho dữ liệu đang được lưu trữ trong tập dữ liệu và hồ dữ liệu cũng như cho toàn bộ quy trình dữ liệu nơi dữ liệu đang được truyền đi. Bạn có thể áp dụng các quy tắc trên nhiều tập dữ liệu. Đối với các quy trình dữ liệu được xây dựng trên AWS Glue Studio, bạn có thể áp dụng quy trình chuyển đổi để đánh giá chất lượng của toàn bộ quy trình ở mức phí rất thấp vì dữ liệu đã có trong bộ nhớ. Bạn cũng có thể xác định các quy tắc để dừng đường dẫn nếu chất lượng giảm sút, ngăn dữ liệu xấu xuất hiện trong hồ dữ liệu của bạn.
Sử dụng hơn 25 quy tắc chất lượng dữ liệu AWS Glue sẵn có để xác thực dữ liệu của bạn và xác định dữ liệu cụ thể gây ra vấn đề. Thực hiện kiểm tra chất lượng dữ liệu để so sánh các tập dữ liệu khác nhau trong những nguồn dữ liệu khác biệt trong vài phút với các quy tắc sẵn có. Khi sử dụng Glue ETL, bạn có thể dễ dàng khắc phục những vấn đề này và tải nhập dữ liệu chất lượng cao vào kho dữ liệu của mình.