Каковы различия между хранилищем данных, озером данных и банком данных?

Хранилища, озера и банки данных – это разные облачные решения для хранения данных. В хранилище данных данные хранятся в структурированном формате. Это центральный репозиторий предварительно обработанных данных, используемых для бизнес-аналитики. Банк данных – это хранилище данных, предназначенное для определенного бизнес-подразделения, например финансового, маркетингового или коммерческого отдела компании. Озеро данных – это центральный репозиторий необработанных и неструктурированных данных. Вы можете сначала сохранять данные, а затем их обрабатывать.

Сходства между хранилищами, банками и озерами данных

Сегодня организации имеют доступ к постоянно растущим объемам данных. Однако им необходимо сортировать, обрабатывать, фильтровать и анализировать необработанные данные, чтобы получить практически применимые результаты. В то же время им нужно следовать жестким рекомендациям по защите данных, чтобы соблюдать нормативные требования. Ниже приведены примеры рекомендаций, которых должны придерживаться организации.

  • Собирать данные их различных источников, в том числе от приложений, поставщиков, датчиков Интернета вещей (IoT) и других сторонних источников.
  • Преобразовывать данные в надежный, доверенный и применимый формат. Например, организации могут обрабатывать данные, чтобы приводить все даты в системе к общему формату или подводить итоги по ежедневным отчетам.
  • Подготавливать данные путем перевода данных в формат XML для программного обеспечения для машинного обучения или создания отчетности для людей.

Организации используют различные инструменты и решения для достижения целей, поставленных перед аналитикой данных. Хранилища, банки и озера данных – это решения, которые помогают хранить данные.

Подробнее об XML »

Преимущества облачного хранилища, озера и банка данных

Все три решения для хранения данных помогают повысить доступность, надежность и безопасность данных. Далее приведены примеры их возможного использования.

  • Безопасное хранение данных для аналитики
  • Хранение неограниченного объема данных, пока они нужны
  • Устранение разрозненности путем интеграции данных, получаемых от множества бизнес-процессов
  • Анализ исторических данных или устаревших баз данных
  • Анализ данных в режиме реального времени и пакетный анализ данных

Кроме того, эти три решения экономичны: вы платите только за использованный объем хранилища. Вы можете хранить все свои данные, анализировать их для выявления шаблонов и тенденций и использовать полученную информацию в экономической деятельности.

Ключевые отличия между хранилищами данных и банками данных

Хранилище данных – это реляционная база данных, в которой хранятся данные, поступающие из транзакционных систем и бизнес-приложений. Все данные в хранилище либо структурированы, либо заранее сведены в таблицы, соответствующие моделям. Структура и схема данных оптимизированы для быстрого выполнения SQL-запросов. Еще одно маркетинговое название этой технологии – банк данных. Это тоже реляционная база данных, но ее практическое применение очень отличается от применения хранилища данных. Основные различия приведены ниже.

Подробнее об SQL »

Источники данных

Хранилища данных используют много источников данных: как внутренних, так и внешних. Вы можете извлекать данные, откуда угодно, преобразовывать их в структурированный формат и загружать в хранилище. Банки данных используют меньше источников данных и обычно меньше по размеру.

Фокус

В хранилищах данных обычно хранятся данные нескольких бизнес-подразделений. Они централизованно интегрируют данные, поступающие из разных подразделений организации, для проведения всестороннего анализа. Банки данных сосредоточены на одной теме и более децентрализованы по своей природе. Обычно они фильтруют и суммируют информацию из другого существующего хранилища данных.

Применение

При наличии множества пользователей и проектов необходимо хранить данные в хранилищах. Поэтому жизненный цикл хранилищ обычно дольше, и они более сложные по своей природе. С другой стороны, банки данных могут быть сконцентрированы на проектах и иметь ограниченное применение. Подразделения предпочитают создавать банки данных на основе корпоративного хранилища данных и удалять их после завершения сценария использования.

Подход к проектированию

Специалисты по обработке данных применяют к проектированию хранилищ данных подход «сверху вниз». Сначала они составляют общий план архитектуры, а затем решают проблемы по мере их возникновения. Однако в случае банка данных специалист по работе с данными уже знает подробности: значения, типы данных и внешние источники данных. Он может сразу планировать реализацию и проектировать банк данных «снизу вверх».

 

Характеристики Хранилище данных Витрина данных
Охват

Централизовано, содержит данные из разных областей

Децентрализована, содержит данные из определенной области

Пользователи

Вся организация

Отдельное сообщество или отдел

Источник данных

Множество источников

Один или несколько источников либо часть данных из хранилища данных

Размер

Большой, от сотен гигабайт до петабайтов

Небольшой, обычно до десятков гигабайт

Проектирование

Сверху вниз

Снизу вверх

Детализация данных

Полные подробные данные

Может содержать обобщенные данные

 

Подробнее о хранилищах данных

Подробнее о банках данных

Ключевые отличия между хранилищами данных и озерами данных

Хранилище данных и озеро данных – это две связанные, но в корне различные технологии. В то время как в хранилище данных содержатся структурированные данные, озеро данных является централизованным хранилищем, которое позволяет хранить данные в любом масштабе. Озеро данных предлагает больше вариантов хранения данных, оно более сложное и имеет иные применения, чем хранилище данных. Основные различия приведены ниже.

Источники данных

Озера и хранилища данных могут использовать неограниченное количество источников данных. Но перед размещением данных в хранилище нужно спроектировать схему данных. В систему можно загружать только структурированные данные. Озера данных, напротив, не выдвигают таких требований. В них могут храниться неструктурированные и полуструктурированные данные, например журналы веб-серверов, данные навигации, социальных сетей и показания датчиков.

Предварительная обработка

Перед размещением данных в хранилище обычно требуется их предварительная обработка. Инструменты ETL (извлечение, преобразование и загрузка) используются для предварительной очистки, фильтрации и структурирования наборов данных. Озера данных, напротив, хранят любые данные. Вы получаете гибкость благодаря возможности выбора: проводить предварительную обработку или нет. Обычно организации используют инструменты ELT (извлечение, загрузка и преобразование). Они сразу загружают данные в озеро, а преобразуют их только по требованию.

Качество данных

Хранилище данных более надежно, потому что вы можете проводить обработку заранее. Некоторые функции, такие как дедупликация, сортировка, суммирование и проверка, можно применить заранее, чтобы гарантировать точность данных. В озере данных могут храниться дублирующиеся, ошибочные и непроверенные данные, если они не были проверены заблаговременно.

Производительность

Хранилище данных оптимизировано для обеспечения наивысшей скорости выполнения запросов. Бизнес-пользователи предпочитают хранилища данных, чтобы более эффективно создавать отчеты. Архитектура озера данных отдает больший приоритет объему хранилища и снижению затрат, чем производительности. Вы можете получить намного больший объем хранилища по меньшей цене и при этом использовать данные с достаточно приемлемой скоростью.

 

Характеристики Хранилище данных Озеро данных
Доступность/надежность

Реляционные данные из транзакционных систем, операционных баз данных и групп бизнес-приложений

Любые данные, в том числе структурированные, частично структурированные или неструктурированные

Схема

Часто разрабатывается еще до реализации хранилища данных, но может создаваться и на этапе анализа

(схема при записи или схема при чтении)

Записывается в момент анализа (схема при чтении)

Соотношение цены и производительности

Самая высокая скорость выполнения запросов за счет использования локального хранилища

Ускоренное выполнение запросов за счет использования недорогого хранилища и разделения процессов вычисления и хранения

Качество данных

Данные, прошедшие строгую проверку для использования в качестве главной и достоверной версии

Любые данные, проверенные и не проверенные (необработанные данные)

Пользователи

Бизнес-аналитики, разработчики и специалисты по работе с данными

Бизнес‑аналитики (используют проверенные данные), специалисты по работе с данными, разработчики и инженеры, создатели архитектур данных

Аналитика

Пакетные отчеты, бизнес-аналитика и визуализация

Машинное обучение, исследовательская аналитика, изучение данных, потоковая передача, операционная аналитика, большие данные, профилирование

  Подробнее о хранилищах данных Подробнее об озерах данных

Когда следует использовать озера, хранилища или банки данных?

Большинство крупных организаций используют в своей инфраструктуре хранения данных сочетание озер, хранилищ и банков данных. Обычно все данные собираются в озеро данных, а затем загружаются в различные хранилища и банки для соответствующих примеров использования. Технологическое решение зависит от различных факторов, которые подробно описаны ниже. 

Гибкость

В целом озера данных дают больше гибкости при меньших затратах. Различные подразделения могут обращаться к одним и тем же данным с помощью тех аналитических инструментов и платформ, которые они предпочитают. Вы можете экономить время, поскольку не нужно определять структуры, схемы и преобразования данных.

Типы данных

Хранилище данных больше подойдет тем, кому требуется хранить реляционные данные, например о клиентах и бизнес-процессах. Если у вас большой объем реляционных данных, то ваше подразделение может рассмотреть вариант создания нескольких банков данных в соответствии с отдельными потребностями бизнеса. Например, бухгалтерия может создать банк данных, чтобы вести балансовую отчетность и подготавливать выписки по счетам для клиентов, а подразделение маркетинга может создать еще один банк данных для оптимизации рекламных кампаний.

Стоимость и объем

Хранилище данных может эффективно управлять сотнями петабайтов (ПБ) данных. Озера данных предлагают сравнительно более низкую цену за больший объем, особенно при большом количестве изображений и видео. Однако не каждой организации может потребоваться такой масштаб. 

Как AWS может удовлетворить ваши потребности в хранении данных?

AWS предоставляет самый широкий выбор аналитических услуг, которые удовлетворят все ваши потребности в анализе данных. Мы даем отраслям и организациям всех размеров возможность перестроить свой бизнес по-новому с помощью данных. Далее приведены примеры возможного использования AWS.

  • Используйте Amazon Redshift для своих хранилищ и банков данных. Получите полезные результаты по всем имеющимся данным, выполняя интерактивный и прогностический анализ по сложным данным огромного размера во всех корпоративных базах данных, озерах данных, хранилищах данных и тысячам наборов данных сторонних организаций. Можно с легкостью автоматически создавать, обучать и развертывать модели машинного обучения.
  • Используйте AWS Lake Formation, чтобы создать и защитить свое озеро данных и начать управлять им за считаные дни. С высокой скоростью импортируйте данные из всех источников, а затем описывайте их и управляйте ими в централизованном каталоге данных.
  • Используйте Amazon S3, чтобы создать пользовательское озеро данных для приложений аналитики больших данных, искусственного интеллекта, машинного обучения и высокопроизводительных вычислений.

Начните работу с хранилищем данных в AWS, создав бесплатный аккаунт уже сегодня.

AWS: дальнейшие шаги

Подробнее о сервисах баз данных
Начало разработки с хранилищами данных

Узнайте, как начать работу с хранилищами данных в AWS

Подробнее 
Зарегистрировать бесплатный аккаунт
Начало разработки с банками данных

Узнайте, как начать работу с банками данных в AWS

Подробнее 
Начало разработки в консоли
Начало разработки с озерами данных

Узнайте, как начать работу с озерами данных в AWS

Подробнее