Что такое каталог данных?

Каталог данных – это совокупность всех данных, которые организация собирает и обрабатывает. Нормативные требования обязывают организации обеспечивать безопасность и защиту своих данных на всех этапах: от сбора до использования. В каталоге данные упорядочиваются и классифицируются для облегчения управления ими и их обнаружения. Это повышает операционную эффективность за счет совместного использования контекста, поскольку каждый может быстро понять, почему и как тот или иной набор данных используется в организации.

В чем преимущества каталога данных?

Каталог данных является организационным инструментом, который упрощает поиск данных и контроль их использования. Далее мы опишем некоторые преимущества.

Быстрое обнаружение ресурсов

Каталог данных упрощает процесс идентификации данных, повышая производительность сотрудников. Он позволяет искать данные по описательным тегам, быстро обнаруживать связанные данные и оценивать контекст и назначение каждого набора данных. Он дает представление о том, откуда поступают данные, как они перемещаются по системам и как преобразуются.  Благодаря этому специалисты по анализу данных могут применять данные, не привлекая ИТ-специалистов, что позволяет быстрее получать аналитические данные.

Улучшение качества данных

Каталоги данных содержат несколько полей, которые сотрудники должны заполнить при получении новых данных. Обращаясь к каталогу, пользователи могут получить сведения об источниках данных, процессах преобразования и времени редактирования, что позволяет более уверенно взаимодействовать с этой информацией. Высокая степень полноты помогает улучшить качество данных и упростить управление ими. Также компании могут автоматически генерировать метаданные для каталога данных, чтобы с меньшими усилиями создавать каталоги данных с высокой полнотой. 

Повышение эффективности

Каталог данных поддерживает единообразие названий, определений и показателей, обеспечивая согласованное понимание и применение данных различными подразделениями организации. Хорошая видимость всех ресурсов данных позволяет снизить избыточность данных, чтобы не дублировать усилия и снизить затраты на хранение. Повышение производительности специалистов по обработке данных также помогает снизить общие затраты.

Усиленная безопасность

Правила конфиденциальности требуют, чтобы организации всегда могли знать, где находятся личные данные и кто к ним обращался. Каталог данных поможет обеспечить правильную обработку конфиденциальных данных и контроль доступа к ним. Организации могут отслеживать, откуда поступили данные, кто к ним обращался и как они использовались. Это повышает эффективность любых инициатив по обеспечению соответствия нормативным требованиям. 

Каковы варианты использования каталога данных?

Организации могут использовать каталоги данных для оптимизации операций хранения данных и управления ими. Ниже перечислено несколько примеров использования каталога данных.

Аналитика самостоятельного использования

Каталог данных содержит подробное описание того, что содержится в данных и как они используются в компании. Он также позволяет различать множество похожих фрагментов данных и ускорять любой процесс, связанный с извлечением и использованием данных, особенно в корпоративных средах. Повышение прозрачности позволяет пользователям быстро определять, какие именно данные им нужны, и получать всю необходимую информацию в одном месте. Вы можете создавать аналитические рабочие процессы самообслуживания для пользователей без технических навыков, даже при больших объемах данных в хранилище.

Обмен знаниями

Совместная работа – ключ к получению полезной информации на основе данных. Каталог данных способствует созданию среды, поощряющей совместную работу, позволяя пользователям комментировать, оценивать и просматривать наборы данных. Делясь опытом и знаниями о конкретных наборах данных, пользователи могут снижать риски и ускорять аналитику в масштабе всей организации.

Анализ происхождения данных

Понимание того, откуда поступают данные и как они проходят через организационные системы, имеет решающее значение для устранения проблем с данными, анализа воздействия или соблюдения стандартов соответствия. Каталог данных обеспечивает прозрачность происхождения данных и дает пользователям четкое представление о пути данных от источника до пункта назначения. Компании могут создавать внутренние документы по таксономии, чтобы сотрудники знали правильные названия всех ресурсов данных. Наличие справочного документа или листа в каталоге данных повышает согласованность данных в организации.

Какую информацию содержит каталог данных?

Каталоги данных содержат метаданные, которые предоставляют дополнительную информацию о том, какие существуют ресурсы данных и какие данные в них содержатся. Поля метаданных позволяют быстро находить данные и ресурсы. Каталог данных может содержать метаданные разного характера, ниже представлены некоторые примеры.

Бизнес-метаданные

Бизнес-метаданные описывают любую информацию о ценности ресурсов данных для бизнеса. Например, это может быть информация об использовании данных в бизнесе, о соответствии нормативным требованиям или бизнес-контекст, который будет полезным для других пользователей. Также здесь могут содержаться аннотации для проектов данных, определяющие уровни конфиденциальности данных, описания, местоположение, пользователей, отделы и так далее. Каждая организация сама определяет, какие бизнес-данные ей нужны, и добавляет несколько соответствующих полей.

Технические метаданные

Технические метаданные описывают общую структуру набора данных. Здесь описывается структура объектов данных в виде комментарием о связях, зависимостях, индексах, строках, столбцах и форматах таблиц. Эти метаданные также предоставляют специалистам по обработке данных контекстные сведения о процессах, которые нужно выполнять для определенных данных при преобразовании или анализе. Они позволяют пользователям быстро понять, как организована и отображается эта информация в компании. 

Оперативные метаданные

Оперативные метаданные содержат комментарии о происхождении данных и их преобразованиях, обновлениях, мерах кардинальности и других параметрах идентификации процессов. Изучив оперативные метаданные, вы узнаете, как эти данные попали в вашу организацию, какие преобразования для них выполнялись и как изменялся их статус. Поля оперативных метаданных позволяют увидеть, когда пользователи в последний раз редактировали определенные данные и у кого есть разрешение на их редактирование.

Каковы основные функции каталога данных?

Современные платформы каталогов данных используют множество функций для оптимизации их использования и повышения эффективности. 

Автоматизация

Автоматизация позволяет компаниям управлять каталогом данных с меньшими усилиями. Возможности для интеграции позволяют каталогу автоматически извлекать метаданные из разных источников. Каталог сохраняет актуальность при добавлении новых или обновлении существующих ресурсов данных. Некоторые современные системы применяют машинное обучение для постепенного улучшения процессов классификации данных. Функции автоматизации в каталоге данных повышают гибкость даже при постоянном росте объемов данных.

Эффективные варианты поиска

Функции поиска по каталогу данных не ограничиваются простым поиском по ключевым словам и рекомендациями. Сюда относятся также фильтры, позволяющие пользователям находить данные по множеству критериев. Пользователь взаимодействует с ними, как с самыми современными поисковыми системами, и получает релевантные, ранжированные и быстро доступные результаты. Эффективное извлечение данных экономит время, поощряя поиск и изучение данных. 

Универсальный глоссарий

Универсальный глоссарий содержит стандартизированные определения терминов и показателей в масштабах всей организации. Это гарантирует, что все термины в метаданных имеют единое и четкое определение. Когда пользователь находит в каталоге незнакомый термин, он может обратиться к глоссарию и узнать его значение, что обеспечивает единообразное понимание и использование концепций во всей организации. Это особенно важно для поддержания целостности данных и четкой коммуникации между подразделениями.

В чем разница между управлением данными и каталогом данных?

Управление данными – это методология, обеспечивающая надлежащее состояние данных для поддержки бизнес-инициатив и операций. ​Правильная система управления должна обеспечить удачный компромисс между доступом к данным и контролем над ними, чтобы повышать доверие и уверенности людей и поощрять проведение экспериментов. Созданная на ее основе платформа применяется при любом использовании корпоративных данных и технологий. Управление данными требуется для обеспечения высокого качества данных и их надлежащего использования в условиях нормативных ограничений.

Каталоги данных – это технология реализации политик управления данными. Система управления данными определяет политики использования данных, а каталоги данных контролируют их соблюдение. Эти каталоги позволяют компаниям более эффективно отслеживать управление данными. 

Как AWS может удовлетворить ваши требования к каталогу данных?

AWS Glue – это бессерверный сервис интеграции данных, который упрощает поиск, подготовку, перемещение и интеграцию данных из множества источников для анализа, машинного обучения (ML) и разработки приложений. Каталог данных AWS Glue – это центральный репозиторий для хранения структурных и операционных метаданных любых наборов данных. Для определенного набора данных можно сохранять определения таблиц и физическое местоположение, добавлять релевантные бизнес‑атрибуты, а также отслеживать изменения данных с течением времени.

Каталог данных также интегрируется с сервисами Amazon Athena, Amazon EMR и Amazon Redshift Spectrum. Добавив в каталог данных определения таблиц, вы сможете получить общее представление о данных, используемых этими сервисами.

AWS Glue предлагает несколько способов для отправки метаданных в каталог данных. Ниже приведены несколько примеров.

  • Поисковые боты AWS Glue исследуют различные хранилища данных для автоматического обнаружения схем, структуры разделов и наполнения каталога данных соответствующими определениями таблиц и статистикой.
  • Поисковые боты можно запускать по расписанию, чтобы метаданные всегда были актуальными и соответствовали реальным данным. 
  • Сведения о таблицах можно добавлять и обновлять вручную с помощью консоли AWS Glue или через вызов API. 

Начните работу с каталогами данных в AWS, создав бесплатный аккаунт уже сегодня.

AWS: дальнейшие шаги

Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS.

Регистрация 
Начать разработку в консоли

Начните разработку в Консоли управления AWS.

Вход