Amazon DataZone và thế hệ tiếp theo của Amazon SageMaker hiện đã có tính năng Dòng dữ liệu

Ngày đăng: 3 Th12 2024

AWS công bố phát hành rộng rãi Dòng dữ liệu trong Amazon DataZone và thế hệ Amazon SageMaker tiếp theo. Khả năng này sẽ tự động thu thập dòng từ AWS Glue và Amazon Redshift để trực quan hóa các sự kiện dòng từ nguồn đến bước tiêu thụ. Tính năng này tương thích với OpenLineage, cho phép các nhà sản xuất dữ liệu bổ sung vào dòng tự động các sự kiện dòng thu thập được từ các hệ thống hỗ trợ OpenLineage hoặc thông qua API, để người dùng dữ liệu có thể theo dõi chuyển động dữ liệu toàn diện.

Tính năng này tự động hóa việc thu thập lược đồ và chuyển đổi tài sản dữ liệu cùng các cột từ các hoạt động thực thi AWS Glue, Amazon Redshift và Spark trong các công cụ, giúp duy trì tính đồng nhất và giảm thiểu sai sót. Nhờ khả năng tự động hóa tích hợp sẵn, quản trị viên miền và nhà sản xuất dữ liệu có thể tự động hóa việc thu thập cũng như lưu trữ các sự kiện dòng khi dữ liệu được cấu hình để chia sẻ trong danh mục dữ liệu doanh nghiệp. Nhờ khả năng theo dõi toàn bộ dòng dữ liệu, người dùng dữ liệu có thể tin tưởng vào nguồn gốc của tài sản. Còn nhà sản xuất dữ liệu có thể tìm hiểu mức tiêu thụ dữ liệu, từ đó đánh giá tác động của những thay đổi đối với tài sản. Ngoài ra, tính năng dòng dữ liệu sẽ lập phiên bản dòng với từng sự kiện, cho phép người dùng trực quan hóa dòng tại bất kỳ thời điểm nào hoặc so sánh các chuyển đổi trong lịch sử của tài sản hoặc công việc. Dòng dữ liệu lịch sử này giúp bạn hiểu rõ hơn về cách dữ liệu đã phát triển, cần thiết cho hoạt động khắc phục sự cố, kiểm tra và xác thực tính toàn vẹn của nội dung dữ liệu.

Tính năng dòng dữ liệu được phát hành rộng rãi ở mọi Khu vực AWS có Amazon DataZone và thế hệ tiếp theo của Amazon SageMaker.

Vui lòng truy cập Amazon DataZone và thế hệ tiếp theo của Amazon SageMaker để tìm hiểu thêm.