Amazon DataZone: Automatización del descubrimiento de datos

Información general

Elimine el tiempo que supone el ingreso manual de atributos de datos en el catálogo correspondiente, lo que también genera posibles errores. Genere un contexto empresarial y recomiende análisis para conjuntos de datos para optimizar los resultados del descubrimiento de datos. El aumento de datos más detallados en el catálogo de datos empresariales también mejora la experiencia de búsqueda. Reduzca el tiempo de búsqueda y uso de datos de semanas a días.

Características principales

El catálogo de datos empresariales de Amazon DataZone opera como un registro federado de la organización en el que los metadatos técnicos pueden publicarse como activos y se puede agregar contexto empresarial enriquecido. Puede lograr que los datos sean visibles con el contexto empresarial para que todos los usuarios los encuentren, comprendan y se fíen de ellos de manera rápida y sencilla.

Automatice la inclusión de nombres y descripciones de empresas en los datos. Esto facilita la comprensión del contexto y evita tener que lidiar con nombres técnicos crípticos. Esta automatización se apoya en modelos de lenguaje de gran tamaño (LLM) a fin de aumentar la precisión y la coherencia. 

La búsqueda por facetas funciona sobre el catálogo de datos empresariales para que los consumidores y productores puedan encontrar activos de datos a partir de información estructural conocida, como nombres de tablas y columnas, así como terminología empresarial.

Para cada conjunto de datos, genere una lista de las columnas más importantes y los usos probables de análisis. 

Con las estadísticas de calidad de los datos de Amazon DataZone, los consumidores de datos pueden ver las métricas de Calidad de datos de AWS Glue o de sistemas de terceros. Los consumidores de datos pueden confiar en los orígenes de datos que utilizan para tomar decisiones y tener un contexto de calidad de datos mientras buscan activos. Los productores y los equipos de TI también pueden usar las API para incorporar estadísticas de calidad de los datos de sistemas de terceros en un portal unificado y fuera de la consola. Además, los productores de datos pueden incluir los resultados de Calidad de datos de AWS Glue según un cronograma para asegurarse de que las puntuaciones estén actualizadas, aunque los datos sigan cambiando.

Casos de uso

Reduzca el tiempo que tarda en obtener información mediante la búsqueda de los datos adecuados en el contexto correcto. Solo se puede confiar en los datos cuando son coherentes, precisos, completos, oportunos, fáciles de rastrear y tienen una puntuación de calidad de datos transparente. Con la propiedad distribuida, cada departamento o el equipo de análisis mantiene la fidelidad de los activos para que los consumidores de datos tengan la certeza de que utilizan los datos correctos.

Cree un catálogo de datos empresarial a partir del rastreo de sus activos e incorpore los metadatos técnicos (no los datos reales) para enriquecerlos con el contexto empresarial. El contexto empresarial puede enriquecerse con glosarios y términos normalizados. También puede personalizar metadatos adicionales a través del formulario correspondiente.

Para utilizar los datos correctos es necesario comprender su contexto. En este sentido, Amazon DataZone permite crear ese contexto para todos los datos que se cataloguen con glosarios y formularios de metadatos. Así, el propietario puede compartir toda la información que sea necesaria para establecer el contexto de los datos, de modo que el consumidor pueda encontrarlos, comprenderlos y suscribirse a ellos. La puntuación de calidad de los datos ayuda a los consumidores de datos a comprender si un activo de datos es adecuado para su propósito.

Vídeos

AWS re:Invent 2023: Cómo crear un catálogo empresarial con Amazon DataZone (21:37)
AWS re:Invent 2023: comprenda sus datos con el contexto empresarial (55:40)

Preguntas frecuentes

¿Qué tipo de información se utiliza en el catálogo de datos empresarial de Amazon DataZone?

En el catálogo de datos empresarial de Amazon DataZone, los metadatos empresariales proporcionan información cuya autoría o uso corresponde a los empresarios y dan contexto a los datos de la organización. Puede incluir la siguiente información:

  • Propiedad: las organizaciones modernas centradas en los datos emplean un proceso de administración de datos distribuido en el que las líneas de negocio (LOB) se encargan de administrar sus propios datos. Un catálogo hace un seguimiento de esa propiedad para que las partes interesadas puedan buscar datos y solicitar acceso a los mismos como parte de sus tareas empresariales.
  • Clasificación: el descubrimiento de datos es una tarea clave que los metadatos empresariales pueden respaldar. El descubrimiento de datos utiliza ontologías y taxonomías corporativas definidas de forma centralizada para clasificar el origen de los datos y ayudarlo a encontrar objetos de datos relevantes.
  • Relaciones: puede utilizar el catálogo de datos empresarial de Amazon DataZone para agregar información de relaciones como metadatos. Al igual que ocurre con un esquema de conjunto de datos técnico, el catálogo de metadatos empresarial muestra las relaciones entre los objetos del catálogo, como las que existen entre las bases de datos, los conjuntos de datos y sus columnas.
  • Esquema: las recomendaciones de IA para las descripciones pueden utilizar el esquema técnico y empresarial para generar descripciones y usos recomendados para los datos.

¿Qué puedo catalogar con Amazon DataZone?

Amazon DataZone admite activos de datos publicados directamente desde el Catálogo de datos de AWS Glue y Amazon Redshift. Estos dos orígenes pueden utilizarse para crear catálogos de datos en las siguientes ubicaciones:

  • Lagos de datos de Amazon Simple Storage Service (Amazon S3)
  • Muchas de las bases de datos personalizadas por AWS como Amazon Relational Database Service (Amazon RDS) a través de un rastreador AWS Glue
  • Más de 100 conectores Amazon AppFlow, para importar datos de aplicaciones de terceros como Snowflake, Salesforce y Google Analytics.