La data lineage di Apache Spark è ora disponibile in Amazon SageMaker Unified Studio per i domini basati su IDC

Inserito il: 4 feb 2026

Amazon SageMaker rende disponibile al pubblico la funzionalità di data lineage per i processi Apache Spark eseguiti su Amazon EMR e AWS Glue in SageMaker Unified Studio per domini basati su IDC. La data lineage fornisce le informazioni necessarie per individuare la causa principale di problemi complessi e comprendere l'impatto delle modifiche.

La funzionalità supporta l'acquisizione della data lineage di schemi e trasformazioni di risorse e colonne di dati dalle esecuzioni Spark in EMR-EC2, EMR-serverless, EMR-EKS e AWS Glue. È quindi possibile esplorare tale data lineage in modo visivo sotto forma di grafico in SageMaker Unified Studio oppure eseguire query tramite API. È anche possibile utilizzare la data lineage per confrontare le trasformazioni nella cronologia dei processi Spark.

La data lineage di Spark è disponibile in tutte le regioni in cui è supportato SageMaker Unified Studio. Per informazioni dettagliate su come iniziare a utilizzare la data lineage con queste nuove funzionalità, consulta la relativa documentazione.