Что такое виртуализация данных?
Что такое виртуализация данных?
Виртуализация данных – это процесс абстрагирования операций с данными от базового хранилища данных. Современные организации хранят данные в различных системах и платформах в различных формата – от традиционных таблиц до сообщений и файлов в реальном времени. Физическое перемещение этих данных в единую центральную систему не всегда может быть практичным или экономичным.
Виртуализация данных использует метаданные, данные о данных, для создания виртуального слоя для обработки данных. Конечные пользователи могут интегрированно читать и изменять данные на виртуальном уровне без необходимости разбираться в основных технических особенностях. Вместо конечного пользователя виртуальный уровень взаимодействует с базовым уровнем хранения для отправки или извлечения данных по мере необходимости.
Почему виртуализация данных важна?
В современных организациях данные часто разбросаны по разным источникам данных в локальных системах, облачных сервисах и других изолированных системах. Возможности объединения физических данных ограничены из-за следующих проблем:
- Ручное управление исходными данными на нескольких платформах может занять много времени и привести к ошибкам.
- Контроль доступа к нескольким независимым источникам может быть сложным из-за обязательного управления данными.
- Поддержание прямых связей между источниками данных может быть сложной задачей при добавлении новых источников или пользователей.
Другие традиционные методы интеграции данных требуют перемещения данных в хранилища или озера данных. Такой подход обеспечивает централизацию, но требует синхронизации нескольких копий, что, в свою очередь, может повлиять на возможности составления отчетов в реальном времени.
Системы виртуализации данных обладают рядом ключевых преимуществ по сравнению с другими подходами.
Абстрагирование
Запросы абстрагируются от реальных источников, поэтому вы можете работать со сложными наборами данных без необходимости разбираться пользователями или разработчиками во всех технических деталях.
Объединенное управление
Поскольку виртуализация данных основана на метаданных, вы можете реализовать централизованное управление на уровне виртуализации. Также легко создавать и повторять модели данных, которые доступны быстро и могут быть повторно использованы для будущих проектов.
Доступ в реальном времени
Виртуализация данных позволяет запрашивать несколько источников в режиме реального времени. Вам не нужно ждать запланированных синхронизаций. Ваши бизнес-пользователи могут работать с одним приложением вместо того, чтобы подключаться к каждой системе по отдельности.
Единственный источник правды
Вы устраняете избыточность и путаницу, вызванные устаревшими данными в одной системе из-за задержек синхронизации с другой системой. Вы также сокращаете затраты на хранение, отказываясь от копирования данных в централизованные хранилища данных или озера.
Каковы варианты использования виртуализации данных?
Упрощая доступ к данным в реальном времени, виртуализация может поддерживать несколько важных функций.
Бизнес-аналитика
Инициативы в области аналитики, такие как внутренняя отчетность или соответствие нормативным требованиям, часто требуют интеграции данных из многих источников в организации. Виртуализированный доступ к данным позволяет аналитикам и командам бизнес-аналитики легко изучать данные и уточнять запросы без негативного влияния на производственные источники данных.
Поддержка миграции в облако
Перенос больших систем в облако может быть медленным и полным ошибок. Виртуализация данных – мощный инструмент для эффективного планирования миграции. Ваша команда может тестировать сценарии переключения и валидировать процессы интеграции данных без прерывания работы работающих систем.
Упрощение основных обновлений системы
Создание тестовых сред для крупных проектов, таких как модернизация системы планирования ресурсов предприятия (ERP), может занять много времени и потребовать тщательной координации между несколькими командами. Используя технологию виртуализации данных, команды могут быстро создавать сложные структуры данных для эффективной работы. Это поможет снизить затраты на инфраструктуру и сократить время развертывания.
Поддержка производственной системы
При устранении сложных проблем в продакшене иногда нужно воссоздать рабочую среду. Технология виртуализации данных позволяет ИТ-отделам быстро создавать и тестировать среды без необходимости копирования данных. Это позволяет им проверить исправления и выявить непредвиденные побочные эффекты.
Рабочие процессы DevOps
При подготовке приложений к выпуску разработчики и тестировщики могут работать с полной виртуальной средой данных. Они могут моделировать работу программного обеспечения в реальном мире без необходимости репликации больших наборов данных.
Каковы возможности уровня виртуализации данных?
Программное обеспечение для виртуализации данных может предоставить несколько ключевых возможностей, упрощающих управление данными.
Семантическое моделирование
Значимые бизнес-концепции, такие как «клиент» или «линейка продуктов», могут быть представлены в виртуальных данных, фрагментированных по нескольким системам. Уровень виртуализации позволяет легко использовать данные для определения значимых понятий в нескольких источниках.
Универсальное подключение
Получая доступ к источникам данных в организации с помощью уровня виртуализации, вы можете легко преодолеть разрозненность данных и предоставить каждой команде доступ к унифицированному набору данных в режиме реального времени.
Высокопроизводительные запросы
Программное обеспечение для виртуализации данных может использовать интеллектуальные методы повышения производительности для оптимизации сложных запросов в единое эффективное выражение. Он не будет делать избыточных запросов к разным системам.
Каталоги данных
Виртуализация позволяет хранить метаданные или информацию о данных в одной системе. Эти данные можно использовать для отслеживания информации о существующем наборе данных и создания каталога данных, обеспечивающего возможность обнаружения данных.
Как работает виртуализация данных?
Виртуализация данных – это один из видов интеграции данных. Вместо работы напрямую с самими данными сервисы виртуализации оперируют только метаданными – информацией о том, где хранятся данные, как они классифицированы и как связаны с другими данными.
Пример запроса
Допустим, у вашей компании есть база данных CRM и отдельная система управления запасами. Вы хотите найти все заказы, сделанные клиентами по фамилии «Смит» за последние два месяца – запрос, затрагивающий обе системы. Вы вводите этот запрос в сервис виртуализации данных.
Интеграция данных
Сервис разбивает запрос на более мелкие части. Используя метаданные, он определяет, где находятся данные для каждой части запроса в ваших источниках. Затем создаются подзапросы для получения данных о клиентах из CRM и информации о заказах из системы учета запасов.
Представление данных
Когда источники возвращают данные, сервис виртуализации преобразует их в оперативной памяти, корректируя форматирование и имена полей. Он устраняет дубли, выявленные с помощью метаданных, и после завершения преобразований выдает интегрированный результат вашему приложению.
Каковы подходы к виртуализации данных в облаке?
Существует три основных подхода к реализации виртуализации данных в облаке: самостоятельные (кастомные) решения, коммерческие инструменты и облачные нативные решения.
Самостоятельная виртуализация данных
Вы можете создать собственное решение, используя облачную инфраструктуру. Такой подход дает больше контроля над дизайном и функциональностью, но требует значительных усилий по разработке и поддержке.
Коммерческие инструменты виртуализации данных
Другой вариант – использовать готовую платформу виртуализации данных от поставщика. Эти инструменты обычно предлагают встроенные коннекторы для многих источников данных и оптимизацию производительности. Они также могут поддерживать интеграцию с существующими корпоративными стандартами метаданных.
Облачная виртуализация данных
В этом подходе используются управляемые сервисы, предоставляемые поставщиками облачных услуг, такими как Amazon Web Services (AWS), для упрощения развертывания и текущих операций. Это позволяет организациям, которые уже работают в облаке или переходят на него, внедрить виртуализацию данных без необходимости в обширных технических знаниях.
Как AWS может поддержать ваши требования к виртуализации данных?
AWS предлагает встроенные возможности, которые во многом совпадают с функциями коммерческих сервисов виртуализации данных. Эти нативные средства могут поддерживать широкий спектр сценариев виртуализации данных.
Amazon Redshift обеспечивает современные аналитические возможности в масштабах предприятия. Независимо от того, где хранится ваш растущий объем данных – в операционных хранилищах, озерах данных, потоковых сервисах или сторонних наборах данных, – Amazon Redshift помогает безопасно получать доступ, объединять и делиться данными с минимальными перемещениями или копированием.
Amazon Athena – это интерактивный аналитический сервис, работающий напрямую с данными, хранящимися в Amazon S3. Он бессерверный и не требует настройки инфраструктуры, поэтому вы можете начать анализ данных сразу же.
AWS Glue – бессерверный сервис интеграции данных, упрощающий процесс их обнаружения, подготовки и объединения. Amazon Athena и Amazon Redshift имеют встроенную интеграцию с AWS Glue Data Catalog, централизованным хранилищем метаданных, поддерживающим виртуализацию.
С помощью AWS Lake Formation можно упростить централизованное управление, защиту и глобальный обмен данными для аналитики и машинного обучения. Вы можете централизовать безопасность данных и управление доступом с помощью Каталога данных AWS Glue, управляя метаданными и разрешениями в одном месте с использованием привычных инструментов, похожих на функции баз данных. Он также обеспечивает детализированный контроль доступа к данным.
Начните работу с виртуализацией данных в AWS, создав бесплатную учетную запись уже сегодня.