Что такое управление данными?
Что такое управление данными?
Управление данными включает процессы и политики, обеспечивающие надлежащее состояние данных для поддержки бизнес-инициатив и операций. Современные организации собирают данные из различных источников в требуемом масштабе для повышения эффективности операций и предоставления услуг. Однако принятие решений на основе данных эффективно только в том случае, если данные соответствуют требуемым стандартам качества и целостности.
В рамках управления данными определяются роли, обязанности и стандарты в отношении использования данных. В нем описывается, кто какие действия может предпринимать, на основе каких данных, какими способами и в каких ситуациях. Поскольку все больше данных служат для поддержки примеров использования искусственного интеллекта и машинного обучения, становится крайне важно, чтобы использование всех данных соответствовало нормативным и этическим требованиям. Управление данными позволяет установить баланс между безопасностью данных и тактическими и стратегическими целями, чтобы достичь максимальной эффективности.
Почему управление данными важно?
Исторически сложилось так, что программы управления данными использовались для сбережения данных в разрозненных хранилищах в целях предотвращения их утечки или неправильного использования. Однако разрозненность данных приводит к тому, что законным пользователям приходится преодолевать барьеры, чтобы получить доступ к ним в нужное время. Непреднамеренно инновации, основанные на данных, подавляются.
Результаты опроса, проведенного сообществом MIT CDOIQ в 2024 году среди 350 CDO и эквивалентных CDO должностей, показали, что 45 % директоров по данным считают управление данными главным приоритетом. Эти лидеры в области данных хотят создать систему управления данными, которая позволит им предоставлять данные нужным людям и приложениям в нужное время, обеспечивая при этом безопасность и защиту данных с помощью соответствующих средств контроля.
Баланс между доступом и контролем
Превратить управление в фактор инноваций можно с помощью двух рычагов: доступ и контроль. Ключ к успеху заключается в том, чтобы найти правильный баланс между ними, поскольку точка баланса в каждой организации своя. Когда вы используете слишком большой контроль, данные оказываются заперты в разрозненных хранилищах и пользователи не могут получить к ним доступ в нужное время. Это подавляет творческий подход и приводит к созданию теневых ИТ-систем, в которых данные устаревают и не защищены. Напротив, если вы предоставляете слишком большой доступ, данные могут оказаться нерегулируемыми в приложениях и хранилищах данных, что повышает риск несанкционированного доступа и влияет на качество данных.
Процессы управления данными обеспечивают баланс между доступом и контролем, так что пользователи могут доверять данным и быть уверенны в них. Они способствуют надлежащему обнаружению, курированию, защите и передаче данных, побуждают к инновациям и гарантируют безопасность данных.
Каковы преимущества управления данными?
Управление данными обеспечивает структурированную основу для управления данными в организации. Ниже перечислены несколько ключевых преимуществ.
Повышение качества данных
Управление данными устанавливает стандарты точности, полноты и согласованности данных. Вы получаете актуальные, текущие и легко интерпретируемые данные, которым доверяют все заинтересованные стороны. Эти высококачественные данные уменьшают количество ошибок и позволяют получать точную и своевременную аналитическую информацию для принятия стратегических и оперативных решений.
Поддержка культуры, ориентированной на данные
Эффективная стратегия управления данными способствует формированию культуры, в которой ценятся данные и которая побуждает всех сотрудников использовать и понимать данные в своей работе. Это мотивирует бизнес-сообщество к участию и способствует интеграции данных в участвующих сферах бизнеса. Согласованность действий между инженерами по обработке данных и бизнес-пользователями повышает общую грамотность в области данных и аналитические возможности организации.
Повышение эффективности работы
Управление данными помогает определить правильную операционную модель, особенно необходимый уровень централизации и децентрализации. Можно внедрить согласованные методы управления данными, которые упрощают операции. Четко определенные права собственности на данные и доступ к ним облегчают сотрудничество между отделами и позволяют всем работать с одними и теми же надежными источниками данных. Согласовывайте усилия различных команд, чтобы сократить дублирование, снизить операционные расходы и повысить производительность.
Соответствие нормативным требованиям
В системах управления данными используется упреждающий подход к управлению рисками, который гарантирует соответствие методов работы с данными правовым и отраслевым нормам. Можно предотвратить несанкционированный доступ с помощью централизованно определенных политик, которые устанавливают, кто может получать доступ к данным или изменять их. Инструменты управления данными поддерживают соблюдение правил конфиденциальности для защиты конфиденциальных данных.
Кто создает управление данными?
Создание надежной стратегии управления данными требует выполнения множества должностных функций.
Исполнительные спонсоры
Они определяют и устанавливают принципы, стандарты и политики управления данными в организации. Кроме того, исполнительные спонсоры понимают многие бизнес-инициативы, включенные в корпоративную дорожную карту, и могут помочь определить приоритеты для поддержки мероприятий по управлению данными.
Распорядители данных
Они работают в бизнесе и изо дня в день участвуют в деталях проектов. Распорядители данных помогают понять проблемы с данными, которые могут стать препятствиями при реализации целевых бизнес-инициатив. Они также внедряют процесс управления данными в свои проекты и обеспечивают надлежащее управление данными. Распорядители данных контролируют соблюдение нормативных требований сотрудниками и клиентами и при возникновении любых проблем передают их на рассмотрение на вышестоящий уровень.
Владельцы данных
Они разрабатывают политики в отношении данных, в том числе о том, кто и при каких обстоятельствах должен иметь доступ к ним, как интерпретировать и применять нормативные акты, а также определения ключевых терминов. Владельцы данных также отвечают за техническое администрирование наборов данных и средства контроля доступа.
Инженеры данных
Они работают в сфере ИТ, выбирают и внедряют лучшие инструменты управления данными для защиты данных, их интеграции из различных источников, управления качеством данных и поиска нужных данных.
Какие существуют стили управления данными?
Ваша программа управления данными должна сочетать централизацию и децентрализацию (включая самообслуживание). В вашей организации будет сочетаться централизованное, федеративное и децентрализованное управление – опять же, в зависимости от требований бизнеса. Вам следует максимально расширить возможности доменных команд, сохраняя при этом согласованность между доменами (например, возможность связывать данные).
Централизованное управление данными
Центральные организации в конечном итоге отвечают за формулирование задач, политики, выбор инструментов и многое другое. Тем не менее повседневные действия часто переносятся в сферы бизнеса (LOB).
Федеративное управление данными
Федеративное управление данными позволяет отдельным подразделениям или инициативам работать в соответствии со своими потребностями. Однако небольшая централизованная группа сосредоточена на решении часто повторяющихся проблем, включая, например, общекорпоративные инструменты обеспечения качества данных.
Самостоятельное или децентрализованное управление данными
Каждый отдел делает то, что ему необходимо для конкретного проекта, соблюдая при этом централизованные политики. В каждом проекте используются любые инструменты или процессы из других проектов, где они пригодны для использования. По мере роста популярности таких тем, как сетка данных (сама по себе децентрализованная), растет и популярность самостоятельного управления данными.
Каков принцип работы управления данными?
Для управления данными требуются люди, процессы и технологические решения с широким спектром возможностей.
Курирование данных в нужном масштабе для ограничения их разрастания
Курирование данных в нужном масштабе означает выявление наиболее ценных источников данных, включая базы данных, озера данных и хранилища данных, и управление ими. Вы можете ограничить распространение и преобразование критически важных массивов данных. Курирование данных также означает обеспечение точности, актуальности и отсутствия конфиденциальной информации, чтобы пользователи могли быть уверены в решениях, основанных на данных, и в данных, которые используются в приложениях.
Возможности: управление качеством данных, интеграция данных и управление основными данными
Обнаружение и понимание данных в контексте
Понимание данных в контексте означает, что все пользователи могут узнать и понять значение своих данных, чтобы уверенно использовать их для повышения ценности бизнеса. Благодаря централизованному каталогу данных можно легко найти данные, запросить доступ и использовать данные для принятия бизнес-решений.
Возможности: профилирование данных, происхождение данных и каталоги данных
Защита данных и их безопасная передача при сохранении контроля и надежности
Защита данных означает достижение правильного баланса между конфиденциальностью, безопасностью и доступом к данным. Очень важно управлять доступом к данным из-за пределов организации с помощью инструментов, интуитивно понятных как для бизнес-пользователей, так и для инженеров.
Возможности: жизненный цикл данных, соответствие требованиям и безопасность данных
Снижение бизнес-рисков и улучшение соответствия нормативным требованиям
Снижение рисков означает понимание того, как и кем используются эти данные. Сервисы AWS помогают отслеживать и проверять доступ к данным, в том числе с помощью моделей машинного обучения, для обеспечения безопасности данных и соответствия нормативным требованиям. Машинное обучение также требует прозрачности аудита для обеспечения ответственного использования и упрощения отчетности.
Возможности: аудит использования данных и машинного обучения
Каковы передовые практики управления данными?
Ключ к эффективному управлению данными – участие в уже профинансированных бизнес-инициативах. Убедитесь, что ваша команда понимает, какие домены данных, источники и элементы необходимы для поддержки этих инициатив.
- Создайте дорожную карту управления данными, демонстрирующую поддержку целевых бизнес-инициатив. Затем начните определять общие данные для выбранных бизнес-инициатив.
- Определите сферы применения и примеры использования интеллектуальной обработки бизнес-данных, где необходимы данные, в том числе требования к актуальности и конфиденциальности.
- Разберитесь в том, какие данные подходят для каждой из выбранных бизнес-инициатив.
- Поддержите и расширьте управление данными, встроив его в операционную модель предприятия, чтобы планирование и внедрение данных стали неотъемлемой частью деятельности организации.
- Организуйте сообщество аналитиков для самообслуживания и обеспечения согласованности.
- Поддерживайте искусственный интеллект (ИИ) и машинное обучение (ML) с помощью управления данными и машинного обучения. Используйте ту же программу управления данными, но примените ее к хранилищам функций и моделям машинного обучения.
Как управление данными влияет на аналитику, машинное обучение и искусственный интеллект?
Управление данными играет ключевую роль в примерах использования большого количества данных.
Управление аналитикой
Управление аналитикой регулирует как данные для использования в аналитических приложениях, так и использование аналитических систем. Ваша команда по управлению аналитикой может создать механизмы, такие как управление версиями аналитических отчетов и ведение документации. Как всегда, следите за нормативными требованиями, устанавливайте политику компании и создавайте ограничения для организации в целом.
Управление ИИ
Управление ИИ предусматривает применение к примерам использования искусственного интеллекта и машинного обучения многих из тех же методов управления данными. Качество и интеграция данных должны обеспечивать данные, необходимые для обучения моделей и развертывания в производственной среде (одним из важных аспектов этого является хранилище функций). Ответственный искусственный интеллект уделяет особое внимание использованию конфиденциальных данных для построения моделей. Дополнительные возможности управления ИИ включают предоставление людям права участвовать в создании, развертывании и мониторинге моделей; документирование обучения моделей, управление версиями, поддерживаемые примеры использования и рекомендации по этичному использованию моделей; а также мониторинг моделей в производстве на предмет точности, дрейфа, переобучения и недообучения.
Генеративный искусственный интеллект требует дополнительных возможностей управления данными, таких как качество и целостность данных, в целях поддержки адаптации базовых моделей для обучения и получения выводов, управления токсичностью и предвзятостью генеративного искусственного интеллекта, а также операций с базовыми моделями (FM) – FMOps.
Вы можете поддерживать искусственный интеллект и машинное обучение с помощью той же программы управления данными. Подготовка данных необходима для преобразования данных в форму, которую модели искусственного интеллекта и машинного обучения могут использовать для обучения и анализа производственных выводов, но самая эффективная подготовка данных – это подготовка, которую вам не нужно делать. Специалисты по работе с данными тратят слишком много времени на подготовку данных для каждого примера использования – ваша команда по управлению данными поможет облегчить эту недифференцированную тяжелую работу. Кроме того, управление данными может обеспечить контроль за созданием хранилищ сформированных функций для примеров использования искусственного интеллекта и машинного обучения.
Наконец, конфиденциальные данные необходимо надлежащим образом защитить, чтобы ваша команда могла снизить риски использования конфиденциальных данных для обучения базовых моделей.
Как и в случае с аналитикой, вы должны регулировать использование моделей искусственного интеллекта и машинного обучения, которые вы создаете или настраиваете. В идеале это должно быть тесно связано с управлением аналитикой, поскольку этот функциональный отдел будет знать, как поддерживать различные сферы бизнеса.
Каковы основные проблемы управления данными?
Наиболее распространенная стратегическая задача управления данными заключается в приведении программы в соответствие с бизнес-инициативами, а не в том, чтобы напрямую предлагать преимущества управления данными. Например, вы можете предложить облегчить конечным пользователям поиск нужных данных или решить проблемы с качеством данных. Но это решения, направленные на поиск проблемы. Если вы сделаете это таким образом, вы в конечном итоге будете конкурировать за финансирование и спонсорство с бизнес-инициативами, которые вам следует поддерживать. Вместо этого используйте управление данными для поддержки бизнес-инициатив. Каждая крупная бизнес-инициатива требует данных. Управление данными должно обеспечивать надлежащее состояние данных для поддержки успеха бизнес-инициативы. Не забывайте использовать методы отчетности и аудита для проверки того, как управление данными поддерживает эти инициативы.
Еще одна распространенная стратегическая проблема заключается в том, чтобы не применять управление данными слишком узко. Слишком узкое применение может означать приведение программы в соответствие с отдельными сферами бизнеса или примерами использования без более широкого анализа сфер бизнеса. Узкое применение также может означать, что управление данными определяется только одной или двумя возможностями. Например, наличие каталога данных не является программой управления данными.
Какие существуют предложения AWS для управления данными?
Благодаря комплексному управлению данными на AWS организации могут контролировать, где находятся их данные, кто имеет к ним доступ и что с ними можно делать на каждом этапе рабочего процесса. Управление данными с помощью AWS помогает организациям ускорить принятие решений на основе данных, позволяя нужным людям и приложениям безопасно находить нужные данные, получать к ним доступ и делиться ими в любое время. Для того чтобы ограничить увеличение объема данных, вы можете курировать их, автоматизируя их интеграцию и качество. Вы можете находить и анализировать свои данные с помощью централизованных каталогов, повышающих грамотность данных. Вы можете защитить свои данные с помощью точных разрешений, позволяющих безопасно делиться данными.
Мониторинг и аудит доступа к данным позволяют снизить риски и повысить соответствие нормативным требованиям.
- Amazon SageMaker Catalog (создан на основе Amazon DataZone). Безопасное обнаружение данных, управление ими и совместная работа над ними с использованием ИИ.
- AWS Glue. Поиск, подготовка и интеграция данных в любом масштабе.
- AWS Lake Formation. Создание озер данных, управление ими и их защита за несколько дней.
- Amazon QuickSight. Создание, обнаружение значимых аналитических данных и их передача за считаные секунды. Это позволяет быстрее превращать полученные сведения в результаты.
- Amazon SageMaker. Создание, обучение и развертывание моделей машинного обучения для любого стандартного примера использования с полностью управляемыми инфраструктурой, инструментами и рабочими процессами.
- Веб-страница управления машинным обучением.
- Amazon Bedrock. Создание и масштабирование приложений генеративного искусственного интеллекта на основе базовых моделей (FM).
- Amazon Macie. Обнаружение и защита конфиденциальных данных в любом масштабе.
- Точки доступа Amazon Simple Storage Service (Amazon S3). Объектное хранилище, созданное для получения любого объема данных из любого места.
- Обмен данными AWS. Легкий поиск, подписка и использование данных третьих лиц в облаке.
- AWS Clean Rooms. Создание пустых комнат за считаные минуты для совместной работы с партнерами без передачи необработанных данных.
Начните управлять данными на AWS, создав бесплатный аккаунт уже сегодня.