Облако AWS
Начало работы с Amazon Redshift

Хранилище данных – это центральный репозиторий информации, которую можно анализировать для принятия более обоснованных решений. Данные поступают в хранилище из транзакционных систем, реляционных баз данных и других источников – как правило, с определенной периодичностью. Бизнес-аналитики, специалисты по работе с данными и лица, ответственные за принятие решений, получают доступ к данным с помощью инструментов бизнес-аналитики, SQL-клиентов и других приложений для аналитики.

Данные и инструменты аналитики стали незаменимы для компаний, стремящихся сохранить конкурентоспособность. Чтобы превращать данные в полезную аналитическую информацию, следить за эффективностью ведения бизнеса и принимать обоснованные решения, компании используют отчеты, панели управления и различные аналитические инструменты. За всеми этими отчетами, панелями управления и аналитическими инструментами стоят хранилища данных. В них данные хранятся более эффективно, с меньшим количеством операций чтения и записи, а результаты запросов к хранилищам молниеносно доставляются сотням и тысячам пользователей одновременно.

Загрузить техническое описание: Enterprise Data Warehousing on AWS

Архитектура хранилища данных состоит из трех уровней. Нижний уровень архитектуры – сервер базы данных, отвечающий за загрузку и хранение данных. Средний уровень – аналитический механизм, который используется для доступа к данным и их анализа. Верхний уровень – интерфейсный клиент, предоставляющий результаты с использованием инструментов формирования отчетов, поиска и анализа данных.

Для упорядочивания данных в хранилище данных используется схема, описывающая расположение и типы данных (например, целое число, поле данных или строка). После поступления данные хранятся в различных таблицах, описанных в этой схеме. С ее помощью инструменты запросов определяют, к каким таблицам данных следует обратиться для анализа.

Хранилище данных предоставляет ряд преимуществ:

  • возможность принимать более обоснованные решения;
  • консолидация данных из множества источников;
  • высокое качество, непротиворечивость и точность данных;
  • возможность анализа исторических данных;
  • изолирование операций аналитики от транзакционных БД для повышения производительности обеих систем.

 

Хранилище данных предназначено для аналитики, что предусматривает чтение больших объемов данных для выявления тенденций и связей между ними. База данных используется для захвата и хранения данных, например для записи сведений о транзакциях.

Характеристики Хранилище данных Транзакционная база данных
Подходящие рабочие нагрузки Аналитика, отчеты, большие данные Обработка транзакций
Источник данных Сбор и нормализация данных из множества источников Захват данных в исходном виде из одного источника, например из транзакционной системы
Захват данных Пакетные операции записи, обычно по заданному расписанию

Непрерывные операции записи по мере поступления новых данных для повышения пропускной способности транзакций

Нормализация данных Денормализованные схемы, например «звезда» или «снежинка» Статические схемы с высокой степенью нормализации
Хранилище данных Рассчитано на упрощение доступа и повышение скорости выполнения запросов за счет использования столбчатых хранилищ Рассчитана на операции записи в один строчно-ориентированный физический блок с высокой пропускной способностью
Доступ к данным Рассчитано на уменьшение количества операций ввода-вывода и достижение максимальной пропускной способности при работе с данными Большое количество мелких операций чтения

В отличие от хранилища данных, озеро данных представляет собой централизованный репозиторий для всех данных, как структурированных, так и неструктурированных. Хранилище данных использует предопределенную схему, оптимизированную для аналитики. Озеро данных не использует предопределенную схему, что позволяет выполнять аналитические операции других типов, например анализ больших данных, полнотекстовый поиск, анализ в режиме реального времени и машинное обучение.

Характеристики Хранилище данных Озеро данных
Данные Реляционные данные из транзакционных систем, операционных баз данных и групп бизнес-приложений Нереляционные и реляционные данные с устройств IoT и веб-сайтов, из мобильных приложений, социальных сетей и корпоративных приложений
Схема Создается до реализации хранилища данных (схема при записи) Записывается в момент анализа (схема при чтении)
Соотношение цены и производительности Самая высокая скорость выполнения запросов при более высокой стоимости хранилища Ускоренное выполнение запросов при использовании недорогого хранилища
Качество данных Данные, прошедшие строгую проверку для использования в качестве главной и достоверной версии Любые данные, проверенные и не проверенные (необработанные данные)
Пользователи Бизнес-аналитики, разработчики и специалисты по работе с данными Разработчики и специалисты по работе с данными, бизнес-аналитики (используют проверенные данные)
Аналитика Пакетные отчеты, бизнес-аналитика и визуализация Машинное обучение, прогнозная аналитика, обнаружение данных и профилирование

Витрина данных – это хранилище данных, предназначенное для определенного отдела или подразделения, например финансового отдела, отдела маркетинга или продаж. Витрина данных меньше по объему, имеет определенную специализацию и может содержать обобщенные данные, наиболее актуальные для пользователей.

Характеристики Хранилище данных Транзакционная база данных
Охват Централизовано, содержит данные из разных областей Децентрализована, содержит данные из определенной области
Пользователи Вся организация Отдельное сообщество или отдел
Источник данных Множество источников Один или несколько источников либо часть данных из хранилища данных
Размер Большой, от сотен гигабайт до петабайтов Небольшой, обычно до десятков гигабайт
Проектирование Сверху вниз Снизу вверх
Детализация данных Полные подробные данные Может содержать обобщенные данные

AWS позволяет использовать все основные преимущества, связанные с предоставлением вычислительных ресурсов по требованию: доступ к практически бесконечным ресурсам хранилища и вычислительным ресурсам, а также возможность масштабирования системы параллельно с увеличением объема собираемых, хранимых и запрашиваемых данных. При этом оплате подлежат только используемые ресурсы. Кроме того, AWS предлагает широкий перечень управляемых сервисов с возможностью интеграции, которые позволяют быстро развертывать комплексные аналитические решения и решения для хранения данных.

На приведенном ниже рисунке показаны основные этапы процесса обработки данных, используемые в ходе анализа, а также управляемые сервисы, доступные на каждом этапе.

Аналитический конвейер на платформе AWS

Amazon Redshift – это быстрое и экономичное полностью управляемое хранилище данных, позволяющее в рамках одного сервиса хранить петабайты данных и анализировать озера данных, объем которых измеряется эксабайтами.

Amazon Redshift работает в десять раз быстрее традиционных локальных хранилищ данных. Можно выполнять запросы к петабайтам данных в Redshift и эксабайтам структурированных данных или файлов открытого формата в Amazon S3 для получения уникальной аналитической информации без перемещения и преобразования данных.

Amazon Redshift стоит в десять раз дешевле традиционных локальных хранилищ данных. Работу с сервисом можно начать по цене 0,25 USD в час без каких-либо обязательств, а затем перейти на использование петабайтов данных по цене 250–333 USD за терабайт несжатых данных в год. Кроме того, сервис позволяет выполнять анализ данных из озер данных в Amazon S3 по цене всего 0,05 USD за 10 ГБ считанных данных. Подробнее