Amazon DataZone : Automatiser la découverte des données

Présentation

Accélérez la saisie manuelle des attributs de données dans le catalogue de données, qui peut être source d'erreurs. Générez le contexte commercial et recommandez des analyses pour des jeux de données afin d'améliorer les résultats de la découverte des données. L'ajout de données en l'enrichissement des données dans le catalogue de données commerciales améliore également l'expérience de recherche. Réduisez votre temps de recherche et d'utilisation des données de plusieurs semaines à plusieurs jours.

Caractéristiques principales

Le catalogue de données commerciales Amazon DataZone agit comme un registre organisationnel fédéré dans lequel les métadonnées techniques peuvent être publiées sous forme de ressources, et vous pouvez ajouter un contexte commercial enrichi. Vous pouvez rendre les données visibles grâce au contexte commercial afin que tous vos utilisateurs puissent les trouver, les comprendre et leur faire confiance rapidement et facilement.

Automatisez l'ajout de descriptions et de noms commerciaux aux données afin de comprendre facilement le contexte et d'éviter d'avoir à utiliser des noms techniques cryptiques. Cette automatisation est alimentée par de grands modèles de langage (LLM) pour une précision et une cohérence accrues. 

La recherche à facettes s'ajoute au catalogue de données commerciales pour aider les consommateurs et les producteurs de données à trouver des actifs de données à l'aide d'informations structurelles familières, telles que les noms de tables et de colonnes, ainsi que les termes commerciaux.

Pour chaque jeu de données, générez une liste des colonnes les plus utiles et des utilisations analytiques potentielles. 

Grâce aux statistiques de qualité des données d'Amazon DataZone, les consommateurs de données peuvent consulter les indicateurs de qualité des données provenant de systèmes de qualité des données d’AWS Glue ou de systèmes tiers. Les consommateurs de données peuvent faire confiance aux sources de données qu'ils utilisent pour prendre des décisions et bénéficier d'un contexte de qualité des données lors de leurs recherches d’actifs. Les producteurs et les équipes informatiques peuvent également utiliser des API pour intégrer les statistiques de qualité des données provenant de systèmes tiers dans un portail unifié, hors console. Les producteurs de données peuvent importer les résultats de qualité des données d’AWS Glue selon un calendrier afin de s'assurer que les scores sont à jour, même si les données sont en constante évolution.

Cas d'utilisation

Réduisez le temps consacré à l'obtention d'informations en trouvant les bonnes données, dans le bon contexte. Les données ne peuvent être fiables que si elles sont cohérentes, précises, complètes, opportunes, traçables et si leur score de qualité est transparent. Grâce à la propriété distribuée, chaque département ou équipe d'analytique assure la fidélité des actifs afin que les consommateurs de données sachent qu'ils utilisent les bonnes données.

Créez un catalogue de données commerciales en explorant vos actifs et en introduisant les métadonnées techniques (et non les données réelles) pour l'enrichir en fonction du contexte commercial. Le contexte commercial peut être enrichi à l'aide de glossaires et de termes normalisés. Vous pouvez également personnaliser des métadonnées supplémentaires à l'aide de formulaires de métadonnées.

Pour utiliser les bonnes données, vous devez comprendre le contexte des données. Amazon DataZone permet de créer ce contexte pour toutes les données cataloguées à l'aide de glossaires et de formulaires de métadonnées. Désormais, le propriétaire des données peut partager autant d'informations que possible afin de définir le contexte des données afin que le consommateur puisse les trouver, les comprendre, puis s'y abonner. Le score de qualité des données aide les consommateurs de données à comprendre si un actif de données est adapté à son objectif.

Vidéos

AWS re:Invent 2023 – Comment créer un catalogue professionnel avec Amazon DataZone (21:37)
AWS re:Invent 2023 – Comprenez vos données dans leur contexte commercial (55:40)

Questions fréquentes (FAQ)

Quel est le type d'informations utilisé dans le catalogue de données commerciales Amazon DataZone ?

Dans le catalogue de données commerciales Amazon DataZone, les métadonnées commerciales fournissent des informations créées ou utilisées par des professionnels et fournissent un contexte aux données organisationnelles. Cela peut inclure les informations suivantes :

  • Propriété : Les organisations modernes centrées sur les données utilisent un processus de gestion des données distribué dans lequel les secteurs d'activité (LOB) sont responsables de la gestion de leurs propres données. Un catalogue permet de suivre cette propriété de manière à ce que les parties intéressées puissent rechercher et demander l'accès aux données dans le cadre de leurs tâches professionnelles.
  • Classification : La découverte des données est une tâche clé que les métadonnées d'entreprise peuvent prendre en charge. La découverte de données utilise des ontologies et des taxonomies d'entreprise définies de manière centralisée pour classer les sources de données et vous aide à trouver les objets de données pertinents.
  • Relations : Vous pouvez utiliser le catalogue de données commerciales Amazon DataZone pour ajouter des informations de relations sous forme de métadonnées. Comme dans le cas d'un schéma de jeu de données techniques, le catalogue de données commerciales indique les relations qui existent entre les objets du catalogue, notamment entre les bases de données, les jeux de données et leurs colonnes.
  • Schéma : la fonctionnalité de recommandations de l'IA pour les descriptions peut utiliser le schéma technique et commercial pour générer des descriptions recommandées et afficher l'utilisation des données.

Quels éléments puis-je cataloguer avec Amazon DataZone ?

Amazon DataZone prend en charge les ressources de données publiées directement à partir du catalogue de données AWS Glue et d'Amazon Redshift. Ces deux sources permettent de cataloguer les données aux emplacements suivants :

  • Lacs de données Amazon Simple Storage Service (Amazon S3)
  • De nombreuses bases de données sur mesure AWS, comme Amazon Relational Database Service (Amazon RDS) via un crawler AWS Glue
  • Plus de 100 connecteurs Amazon AppFlow, pour importer des données provenant d'applications tierces telles que Snowflake, Salesforce et Google Analytics