Amazon DataZone: rilevamento automatico dei dati

Panoramica

Nessuna necessità di inserimento manuale degli attributi dei dati nel catalogo dati, riducendo così il rischio di errori. Generazione di un contesto aziendale e consigli di analisi per i set di dati, il che determina un miglioramento dei risultati della scoperta dei dati. Scopri da dove provengono i tuoi dati e quali origini saranno influenzate dalle modifiche. Inoltre, un aumento della ricchezza dei dati nel catalogo aziendale migliora anche l'esperienza di ricerca. Riduzione del tempo dedicato alla ricerca e all'utilizzo dei dati da alcune settimane a pochi giorni.

Caratteristiche principali

Il catalogo di dati aziendali di Amazon DataZone funge da registro organizzativo federato in cui i metadati tecnici possono essere pubblicati come risorse ed è possibile aggiungere un contesto aziendale arricchito. Puoi rendere i dati visibili con il contesto aziendale affinché tutti gli utenti possano trovarli, comprenderli e fidarsi di essi in modo semplice e rapido.

L'aggiunta di nomi e descrizioni delle aziende ai dati è automatizzata, agevolando la comprensione del contesto ed evitando nomi tecnici che possono risultare criptici. Questa automazione è supportata da modelli linguistici di grandi dimensioni (LLM) per aumentare la precisione e la coerenza. 

La ricerca con facet si integra al catalogo di dati aziendali per aiutare i consumatori e i produttori di dati a trovare risorse di dati utilizzando informazioni strutturali familiari, come nomi di tabelle e colonne, nonché termini commerciali.

Per ogni set di dati, è possibile generare un elenco delle colonne con dati più preziosi e dei probabili utilizzi delle analisi. 

Con le statistiche sulla qualità dei dati in Amazon DataZone, i consumatori di dati possono visualizzare i parametri di qualità dei dati provenienti da sistemi di qualità dei dati di AWS Glue o di terze parti. I consumatori di dati possono fidarsi delle origini dati che utilizzano per le decisioni e avere un contesto di qualità dei dati mentre ricercano le risorse. I produttori e i team IT possono anche utilizzare le API per incorporare le statistiche sulla qualità dei dati provenienti da sistemi di terze parti in un portale unificato fuori dalla console. I produttori di dati possono introdurre i risultati della qualità dei dati di AWS Glue in base a una pianificazione per assicurarsi che i punteggi siano aggiornati, anche se i dati continuano a cambiare.

Comprendi il movimento dei dati nel tempo. La derivazione dei dati può aumentare l'attendibilità e la comprensione dei dati dell’organizzazione aiutando i clienti a capire da dove provengono i dati, come sono cambiati e il loro consumo. Puoi ridurre il tempo impiegato nella mappatura di un asset di dati e delle sue relazioni, nella risoluzione dei problemi e nello sviluppo di pipeline, così come nell'applicazione delle pratiche di governance dei dati.

Raggruppa le risorse di dati in pacchetti definiti (prodotti di dati) su misura per casi d'uso aziendali specifici; in questo modo semplificherai la catalogazione e permetterai ai consumatori di dati di scoprire e abbonarsi facilmente ai dati. I produttori di dati possono curare una raccolta di risorse pertinenti, aggiungere un contesto aziendale e pubblicarlo come unità di prodotto di dati. Ciò semplifica il processo per i consumatori di dati di individuare tutte le risorse di dati necessarie per particolari casi d'uso. I consumatori possono abbonarsi a tutte le risorse all'interno di un prodotto di dati tramite un unico flusso di lavoro di approvazione. I produttori di dati possono gestire il ciclo di vita del prodotto, tra cui la modifica della raccolta di risorse, l'annullamento della pubblicazione, l'eliminazione e la gestione degli abbonamenti. Amazon DataZone offre anche il supporto API per i flussi di lavoro dei prodotti di dati, facilitando l'integrazione e l'automazione.

Casi d'uso

Video

AWS re:Invent 2023 - How to build a business catalog with Amazon DataZone (21:37)
AWS re:Invent 2023 - Understand your data with business context (55:40)

Domande frequenti

Che tipo di informazioni si trovano nel catalogo di dati aziendali di Amazon DataZone?

Nel catalogo dei dati aziendali di Amazon DataZone, i metadati aziendali forniscono informazioni create o utilizzate dai membri dell’azienda e forniscono un contesto ai dati organizzativi. Ciò potrebbe includere le seguenti informazioni:

  • Proprietà: le moderne organizzazioni incentrate sui dati utilizzano un processo di gestione dei dati distribuito in cui le linee di business (LOB) sono responsabili della gestione dei propri dati. Un catalogo tiene traccia di tale proprietà in modo che le parti interessate possano trovare e richiedere l'accesso ai dati nell'ambito delle loro attività aziendali.
  • Classificazione: il rilevamento dei dati è un'attività chiave che i metadati aziendali possono supportare. Questo processo utilizza ontologie e tassonomie aziendali definite centralmente per classificare le origini dati e aiuta a trovare oggetti di dati pertinenti.
  • Relazioni: puoi utilizzare il catalogo di dati aziendali di Amazon DataZone per aggiungere informazioni sulle relazioni come metadati. Come per uno schema di set di dati tecnici, il catalogo di dati aziendali mostra le relazioni tra gli oggetti del catalogo, ad esempio quelle tra database, set di dati e le relative colonne.
  • Schema: i suggerimenti dell'IA per le descrizioni possono utilizzare lo schema tecnico e aziendale per generare descrizioni e utilizzi consigliati per i dati.
  • Origine e consumo: la derivazione dei dati e l'analisi dell'impatto, nonché le mappature personalizzate di OpenLineage, sono collegate al catalogo dei dati aziendali.

Cosa posso catalogare con Amazon DataZone?

Amazon DataZone supporta le risorse di dati pubblicati direttamente dal Catalogo dati AWS Glue e Amazon Redshift. Queste due origini possono essere utilizzate per catalogare i dati nelle seguenti posizioni:

  • Data lake Amazon Simple Storage Service (Amazon S3)
  • Molti dei database AWS dedicati come Amazon Relational Database Service (Amazon RDS) tramite un crawler AWS Glue
  • Oltre 100 connettori Amazon AppFlow, per importare dati da applicazioni di terze parti come Snowflake, Salesforce e Google Analytics