AWS Glue Data Quality (預覽版)

跨資料湖和管道提供高品質資料

數十萬名客戶建置資料湖,其成為了沒有資料品質的資料沼澤。設定資料品質是一項既耗時又乏味的過程。您必須手動分析以及建立資料品質規則,還要撰寫程式碼,以在品質惡化時發出提醒。AWS Glue Data Quality 將手動品質控管時間從幾天縮短到幾小時。AWS Glue Data Quality 會自動運算統計資料,建議品質規則,監控,還會在偵測到品質惡化時提醒您。因此在資料影響到您的業務之前,辨識遺失、過時或惡意資料成了一項簡化的流程。

AWS Glue Data Quality 簡介 (0:29)

主要功能

根據您的資料自訂的自動品質建議

開始使用資料品質可能是件困難的事,因為您必須手動分析資料來建立資料規則。AWS Glue Data Quality 會自動為資料集運算統計資料。其使用這些統計資料來推薦一組品質規則,這些規則會檢查新舊程度、準確度與完整性。您可以視需要調整建議規則、捨棄規則或新增規則。如果偵測到品質問題,AWS Glue Data Quality 也會提醒您,您就可以採取行動。

達成靜態與管道中的資料品質

您的資料位於不同的儲存庫中,並且會從一個儲存庫移動到另一個儲存庫。在資料到達後和資料傳輸時監測資料品質是非常重要的事。AWS Glue Data Quality 規則可套用到資料集和資料湖中的靜態資料,還能套用到傳輸資料中的整個資料管道。針對建置於 AWS Glue Studio 上的資料管道,您可以套用轉換來評估整個管道的品質。您也可以定義規則,在品質惡化時停止管道,避免惡意資料登陸資料湖。

不須鎖定的無伺服器、經濟實惠、PB 級資料品質

AWS Glue 為無伺服器,所以可以在無須管理基礎設施的情況下擴展。其會為任何資料大小進行擴展,並且具有依用量計費的特點,可提升靈活性並降低成本。AWS Glue Data Quality 使用了 Deequ,其為一種由 Amazon 建置的開放原始碼架構,用來管理 PB 級資料的資料集。由於是使用開放原始碼架構建置而成的,AWS Glue Data Quality 在不須鎖定的情形下,提供了靈活性和可攜性。