AWS 現已在 Amazon DataZone 和下一代 Amazon SageMaker 中正式推出資料譜系功能
AWS 宣佈正式推出 Amazon DataZone 和下一代 Amazon SageMaker 中的資料譜系功能,這項功能可自動擷取 AWS Glue 和 Amazon Redshift 的譜系,以視覺化從來源到取用的譜系事件。此功能與 OpenLineage 相容,可讓資料生產者透過譜系事件 (透過啟用 OpenLineage 的系統或 API 擷取) 來擴增自動化譜系,從而為資料取用者提供全面的資料移動檢視。
此功能可在工具中自動化 AWS Glue、Amazon Redshift 和 Spark 執行的結構描述譜系擷取作業和資料資產與資料欄轉換作業,以維持一致性並減少錯誤。透過內建的自動化功能,當在企業資料目錄內為資料設定資料共用時,網域管理員和資料生產者能夠自動擷取與儲存譜系事件。資料取用者可以從資產譜系的全面檢視中獲得對資產來源的信心,而資料生產者可以透過了解資產的取用情況來評估資產變更的影響。此外,資料譜系功能會對每個事件的譜系進行版本控制,讓使用者能夠在任何時間點以視覺呈現譜系,或比較資產或作業歷史記錄中的轉換。這種歷史譜系可以讓人們更深入了解資料的演進過程,這對於疑難排解、稽核和驗證資料資產的完整性至關重要。
AWS 已在所有提供 Amazon DataZone 和下一代 Amazon SageMaker 的 AWS 區域正式推出資料譜系功能。
若要進一步了解,請前往 Amazon DataZone 和下一代 Amazon SageMaker 頁面。