Что такое банк данных?

Банк данных – это система хранения данных, содержащая информацию, которая относится к определенному подразделению организации. Он содержит небольшую и избранную часть данных, которые компания хранит в более крупной системе хранения. Компании используют банк данных для более эффективного анализа информации по отделам. В нем представлены обобщенные данные, которые ключевые заинтересованные стороны могут использовать для быстрого принятия обоснованных решений. 

Например, компания может хранить данные из различных источников, таких как информация о поставщиках, заказы, данные датчиков, информация о сотрудниках и финансовые записи в своем хранилище данных или озере данных. Однако компания хранит информацию, относящуюся, например, к отделу маркетинга, такую как обзоры в социальных сетях и записи клиентов, в банке данных.

Как банк данных соотносится с другими типами систем хранения данных?

Компании используют несколько различных типов систем хранения данных для управления данными и аналитики. Давайте рассмотрим некоторые распространенные типы хранения данных, чтобы понять контекст, в котором компании используют банки данных.

База данных

База данных – это организованное хранилище, которое компьютерные системы используют для хранения, поиска, извлечения и анализа информации. Существуют различные типы баз данных, например реляционные базы данных. Реляционная база данных хранит информацию в таблицах, состоящих из строк и столбцов. Данные в разных таблицах связаны уникальным идентификатором, называемым ключом. Ключи – это неповторяющиеся значения в определенных столбцах.

Банк данных и база данных

Банк данных служит передовым элементом для данных отдела.  Банк данных можно использовать для извлечения и анализа информации. Тем временем база данных собирает, управляет и хранит информацию. Затем можно использовать инструменты для обработки, форматирования и передачи сохраненной информации в банк данных. 

Хранилище данных

Хранилище данных – это обширная система баз данных, в которой хранится информация для всего бизнеса. В нем необработанная информация собирается из различных источников, таких как программное обеспечение для бизнеса и каналы социальных сетей, и обрабатывается в структурированные данные, хранящиеся в табличном формате. Компании могут подключить корпоративное хранилище данных к инструментам бизнес-аналитики для принятия более разумных решений. 

Хранилище данных и банк данных

Банк данных обладает многими качествами хранилища данных. Их отличие заключается в том, что хранилище данных содержит общекорпоративные данные по различным темам. Между тем, банк данных хранит информацию, тесно связанную с конкретным предметом. Например, хранилище данных может содержать информацию для отделов маркетинга, управления персоналом, закупок и поддержки клиентов. Однако банк данных может хранить только транзакционные данные, относящиеся к одному отделу. Привлекательность создания банка данных заключается в том, что отделы, которые управляют своими банками данных, имеют полный контроль над загрузкой своих данных и управлением ими. 

Многие организации используют такие технологии, как совместное использование данных, для публикации банков данных в центральном хранилище данных.  Благодаря этому они могут стать более гибкими, распределяя права собственности и изолируя рабочие нагрузки.  Аналогичным образом, совместное использование данных позволяет банкам данных отделов использовать данные из хранилища данных или других банков данных.

Озеро данных

Озеро данных – это хранилище данных, в котором хранится необработанная и неструктурированная информация. Оно не хранит информацию в файлах и папках. Вместо этого оно хранит необработанную информацию в плоской иерархии в огромном хранилище. В озерах данных хранятся различные типы необработанной информации, включая текстовые документы, изображения, видео и аудио. 

Аналитики данных используют озера данных для прогнозного анализа неструктурированных данных. Например, в озере данных могут храниться тексты из обзоров в социальных сетях, которые компании могут использовать для анализа тональности. Аналитики данных могут использовать анализ настроений для выявления тенденций негативного мнения для компании. 

Банк данных и озеро данных

Поскольку в озерах данных хранятся необработанные данные, часть информации может дублироваться или не иметь значения для компании. Между тем банк данных хранит обработанные данные, отвечающие конкретным потребностям. Озеро данных может быть источником банка данных. Компании определяют тенденции данных, просматривая исторические данные в банках данных, но используют озера данных для глубокого анализа хранимой информации. 

OLAP

Онлайн-аналитическая обработка (OLAP) – это метод представления данных в нескольких измерениях. Например, аналитики данных используют куб OLAP для одновременного отображения доходов от продаж в зависимости от месяцев, городов и продуктов. Структуры данных OLAP обширны, поля классифицируются как факты или измерения и приводят к дублированию данных.  Это контрастирует с обычными реляционными базами данных, которые предпочитают узкие структуры и небольшое дублирование данных.

Банк данных и куб OLAP

OLAP – это особая стратегия хранения информации, которая денормализует данные в широкие таблицы. OLAP упрощает сложные представления многомерных данных. Некоторые банки данных могут использовать OLAP для структурирования своей информации, в то время как другие используют обычные нормализованные структуры. Бизнес-аналитики используют структуры OLAP для визуализации информации из банка данных. 

Хранилище рабочих данных

Оперативное хранилище данных (СОД) – это хранилище информации, которое выступает в качестве посредника между источниками данных и хранилищем данных. Аналитики данных используют ODS для предоставления отчетов о транзакционных данных в режиме, близком к реальному времени. ODS поддерживает простые запросы и предоставляет лишь ограниченный объем информации. Например, в СОД могут храниться записи о продажах только в течение последних 12 часов. 

Банк данных и ODS

Банк данных извлекает предметную информацию из хранилища данных, а ODS отправляет информацию в хранилище данных для обработки. Банки данных предоставляют историческую информацию, которую можно проанализировать, но ODS предоставляет обновленное представление о текущих операциях. Например, банк данных можно использовать для определения моделей продаж за последний квартал, но получать почасовые обновления данных о продажах из ODS. 

Почему банк данных важен?

Вот несколько веских причин, по которым компании могут использовать банк данных. 

Более эффективное извлечение данных

Используя банк данных, компании могут более эффективно получать доступ к конкретной информации. По сравнению с хранилищем данных банк данных содержит актуальную и подробную информацию, к которой отдел часто обращается. Поэтому бизнес-менеджерам не нужно искать информацию во всем хранилище данных для создания отчетов о производительности или графиков.

Оптимизация процесса принятия решений

Компании могут создавать подмножество данных из хранилища данных с банком данных. Затем сотрудники отдела могут анализировать данные и принимать решения на основе того же набора информации. 

Более эффективное управление информацией

Банк данных предоставляет сотрудникам высокодетализированные привилегии доступа. Это означает, что компания может разрешить определенному лицу просматривать или извлекать определенные данные. Это помогает компаниям улучшить управление данными и обеспечить соблюдение политик доступа к информации. Например, банки данных можно использовать для предоставления сотрудникам доступа к определенной информации в хранилище данных.

Гибкое управление данными

Банк данных меньше и содержит меньше таблиц, чем хранилище данных. Это означает, что инженеры по обработке данных могут управлять информацией в банке данных и изменять ее, не вызывая серьезных изменений в базе данных.

Как работает банк данных?

Банк данных превращает необработанную информацию в структурированный, значимый контент для конкретного бизнес-отдела. Для этого инженеры по обработке данных создали банк данных для получения информации либо из хранилища данных, либо непосредственно из внешних источников данных. 

При подключении к хранилищу данных банк данных извлекает подборку информации, относящейся к подразделению. Часто информация содержит обобщенные данные и исключает ненужные или подробные данные. 

ETL

Извлечение, преобразование и загрузка (ETL) – это процесс интеграции и передачи информации из различных источников данных в единую физическую базу данных. Банки данных используют ETL для извлечения информации из внешних источников, когда она не поступает из хранилища данных. Процесс включает в себя указанные ниже шаги.

  • Extract: сбор необработанной информации из различных источников
  • Transform: структурирование информации в единый формат
  • Load: передача обработанных данных в базу данных

Инструменты ETL копируют информацию из внешних источников, таких как электронные таблицы, приложения и текстовые документы. Затем банк данных обрабатывает, упорядочивает и хранит информацию в структурированной форме. 

Аналитика

Бизнес-аналитики используют программные инструменты для извлечения, анализа и представления данных из банка. Например, информация, хранящаяся в банках данных, используется для проведения бизнес-анализа, создания информационных панелей и использования облачных приложений. 

Каждый банк данных обслуживает небольшое количество пользователей. Например, менеджер по маркетингу и старшие маркетологи имеют доступ к банку данных, поэтому создание отчетов и графиков или выполнение прогнозного анализа занимает меньше времени.

Какие существуют типы банков данных?

Это разные типы банков данных. 

Зависимый банк данных

Зависимый банк данных заполняет свое хранилище подмножеством информации из централизованного хранилища данных. Хранилище данных собирает всю информацию из источников данных. Затем банк данных запрашивает и извлекает информацию о конкретном субъекте из хранилища данных. 

Преимущества и недостатки

Большинство работ по управлению и администрированию данных выполняется в хранилище данных. Это означает, что бизнес-аналитикам не нужно обладать высокой квалификацией в управлении базами данных, чтобы использовать информацию из банка данных. Хотя зависимые банки данных значительно упрощают извлечение информации, они представляют собой единую точку отказа. Если хранилище данных выйдет из строя, все подключенные банки данных также выйдут из строя. 

Независимый банк данных

Независимый банк данных не зависит от центрального хранилища данных или любого другого банка данных. Каждый банк данных собирает информацию из своих источников, а не из хранилища данных. Независимые банки данных подходят для небольших компаний, но доступ к информации и ее анализ требуется только определенным отделам.

Преимущества и недостатки

Компании могут относительно легко создавать независимые банки данных. Однако управлять ими может быть сложно. Это связано с тем, что бизнес-аналитикам необходимо выполнять административную работу касательно базы данных в каждом банке данных. Обмениваться данными между различными банками данных легко, используя такие стратегии, как совместное использование данных; отделы могут считывать данные другого отдела и даже дополнять их своими собственными данными.  Однако необходимо внедрить надежную стратегию каталогизации данных, чтобы каждый отдел знал, что искать. 

Гибридный банк данных

Гибридные банки данных собирают информацию из хранилища данных и из внешних источников. Это позволяет компаниям гибко тестировать независимые источники данных перед отправкой данных в хранилище данных. 

Например, предположим, что вы запускаете новый продукт и хотите проанализировать его первоначальные данные о продажах. Банк данных использует информацию о продажах, поступающую непосредственно из программного обеспечения для электронной коммерции, и извлекает записи о продажах других продуктов из банка данных. После того как продукт станет постоянным атрибутом в вашем магазине, вы направляете данные транзакции в хранилище данных.

Каковы структуры банка данных?

Банки данных используют эти структуры для хранения и представления информации. 

Звездная структура

Звездная структура имеет таблицу фактов в центре и ответвляется на несколько таблиц измерений. В результате получается соединение в форме звезды. Таблица фактов – это таблица данных, содержащая сводные данные, которые можно использовать в аналитических целях. В то же время таблицы измерений содержат описательную информацию в таблице фактов. Каждая таблица измерений связана с таблицей фактов с помощью внешнего ключа. Внешний ключ – это уникальный идентификатор, например идентификатор продукта или поставщика. 

Например, таблица фактов для проводок продажи содержит указанные ниже столбцы.

  • Идентификатор продаж
  • Идентификатор продукта
  • Идентификатор поставщика
  • Сумма продаж

В таблице измерений для продуктов хранится указанная ниже информация.

  • Идентификатор продукта
  • Название продукта
  • Себестоимость продукта

Таблица аналитик поставщика содержит указанные ниже столбцы.

  • Идентификатор поставщика
  • Название поставщика
  • Город

Преимущества

В структуре «звезда» таблица размеров денормализована, чтобы не распространяться на дополнительные таблицы. Это означает, что таблица измерений может содержать избыточные данные, но повышает скорость поиска и извлечения. Кроме того, для хранения таблиц измерений требуется меньше места.

Бизнес-аналитики могут использовать банк данных со звездообразной структурой для упрощения сложных запросов. При поиске конкретной записи о продажах система управления данными выполняет поиск в таблице фактов. Когда система банка данных находит правильную запись, она использует идентификатор продукта и идентификатор поставщика для запроса данных из соответствующих таблиц измерений. 

Денормализованная структура

Денормализованная структура хранит все связанные данные в одной таблице. Она не имеет сложных соединений между таблицами фактов и таблицами измерений. Аналитики данных используют денормализованный банк данных, потому что это повышает скорость выполнения запросов. Например, поиск записи о продажах происходит в одной денормализованной таблице указанным ниже образом.

  • Идентификатор продаж
  • Продукт 
  • Название продукта
  • Себестоимость продукта
  • Название модели
  • Вес 
  • Размер
  • Поставщик 
  • Название поставщика
  • Город
  • Сумма продаж

Денормализованный банк данных подходит для отчетности в реальном времени благодаря подходу с одной таблицей. Однако денормализация банка данных приводит к избыточности данных. Например, одно и то же название продукта может отображаться в нескольких записях. Это создает дополнительное пространство для хранения данных и приводит к дорогостоящим затратам на внедрение.

Каковы шаги по внедрению банка данных? 

Инженеры облачных данных создали банк данных, выполнив следующие действия:

  1. Запустите свою платформу данных, оптимизированную для облака.
  2. Заполните банк бизнес-данными. Это гарантирует, что данные имеют правильный формат и актуальны для бизнес-пользователей.
  3. Настройте банк данных так, чтобы несколько пользователей могли получить доступ к данным из него. Например, они устанавливают панель управления отчетами в банке данных. 
  4. Продолжайте отслеживать, оптимизировать и устранять проблемы во время работы банка данных.

Как внедрить банк данных на AWS?

Компаниям необходимо обрабатывать растущие объемы данных, которые максимально расширяют обычное хранилище банка данных. Банки данных, установленные на локальных серверах, трудно масштабировать. Облачная архитектура предлагает более дешевую, масштабируемую и управляемую интеграцию банков данных корпоративного уровня.

Amazon Redshift – это решение для хранения данных, которое можно использовать для внедрения банков данных в облаке. Получите полезные результаты по всем имеющимся данным, выполняя интерактивный и прогностический анализ по сложным данным огромного размера во всех корпоративных базах данных, озерах данных, хранилищах данных и тысячам наборов данных сторонних организаций. Можно с легкостью автоматически создавать, обучать и развертывать модели машинного обучения (ML). В Amazon Redshift можно создавать банки данных и использовать их для принятия более разумных решений. 

Amazon Redshift обладает некоторыми ключевыми функциями, которые делают его отличным решением для банка данных:

  • При использовании Amazon Redshift Serverless все вопросы, связанные с размером и масштабом кластера, решаются за вас. 
  • Благодаря встроенной функции совместного использования данных, данные в вашем банке могут обращаться к данным в хранилище данных или могут быть переданы в ваше хранилище данных.

Создайте учетную запись AWS и начните работу с банками данных уже сегодня.

Банк данных на AWS: дальнейшие шаги

Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Начните разработку в консоли

Начните разработку в Консоли управления AWS.

Вход