Начать работу с проектом

7 шагов | 60 минут

Вопрос. Что такое хранилище данных?

Аналитика требуется повсюду. Мы используем отчеты и панели управления в повседневной работе, сообщаем об успехах акционерам, прибегаем к специализированной аналитике при принятии решений. За всеми этими отчетами, панелями управления и инструментами бизнес-аналитики стоят хранилища данных. В них данные хранятся более эффективно, с меньшей частотой запросов на чтение и запись, и запросы из них молниеносно доставляются сотням и тысячам пользователей одновременно. В отличие от транзакционных баз данных, в хранилищах данных используются специализированные архитектуры и инструменты хранения, повышающие скорость обработки запросов и загрузки данных. К тому же хранилища данных очень легко масштабируются, что позволяет при необходимости без труда добавить больше источников данных и повысить эффективность аналитики и сбора информации. Наконец, хранилища данных обыкновенно без труда интегрируются со сторонними инструментами бизнес-аналитики и SQL-клиентами и поддерживают стандартные SQL-запросы, что позволяет использовать привычные навыки и инструменты.

Вопрос. Почему стоит развертывать хранилище данных на AWS?

Amazon Redshift, наше хранилище данных, отличается скоростью, простотой в работе и полной управляемостью. В данном решении автоматизированы инфраструктурные задачи, связанные с выделением и управлением ресурсами, включая создание резервных копий, репликацию и установку обновлений. Система эффективно интегрируется со сторонними инструментами бизнес-аналитики и ETL, так что первый отчет будет готов уже через пару минут. При этом никаких ограничений на объемы анализируемых данных нет. При росте объема данных больше не придется беспокоиться о дорогостоящих обновлениях и падении производительности. Amazon Redshift работает быстро при любом масштабе, потому что в нем используются столбчатые хранилища и ряд технологий оптимизации. Сервис Amazon Redshift также отличается низкой стоимостью, и клиент платит только за то, что действительно использует. В завершение заметим, что с этим сервисом любое количество пользователей может выполнять любое количество операций аналитики для всех имеющихся данных всего за 1000 USD за терабайт в год. 

Вопрос. Что такое Amazon Redshift?

Amazon Redshift – это высокоскоростное, полностью управляемое, масштабируемое до петабайтов хранилище данных, которое упрощает анализ всех данных с помощью имеющихся инструментов бизнес-аналитики и помогает экономить. Вы можете начать всего лишь с 0,25 USD за час без каких-либо обязательств и выполнять масштабирование до нескольких петабайтов по цене 1000 USD за терабайт в год. Это в десять раз меньше стоимости традиционных решений. Как правило, за счет трехкратного сжатия клиенты уменьшают стоимость каждого терабайта до 333 USD в год.

Вопрос. Какую производительность демонстрирует Amazon Redshift в сравнении с традиционно используемыми решениями БД для хранения и анализа данных?

За счет применения различных инноваций Amazon Redshift удалось достичь десятикратного повышения производительности по сравнению с традиционными решениями БД для хранения данных и выполнения аналитических задач.

  • Массово‑параллельная обработка. Amazon Redshift обеспечивает высокую скорость выполнения запросов к наборам данных объемом от нескольких гигабайтов до нескольких эксабайтов. В Redshift применяются столбчатое хранилище, сжатие данных и карты зон для сокращения количества операций ввода‑вывода при выполнении запросов. Сервис основан на архитектуре хранилища с массово‑параллельной обработкой (MPP), которая распределяет и параллельно выполняет операции SQL в целях эффективного использования всех доступных ресурсов. Базовое оборудование сервиса предназначено для высокопроизводительной обработки данных. Использование локально подключенного хранилища увеличивает пропускную способность соединения между ЦПУ и дисками, а эффективный обмен данными между узлами обеспечивает высокоскоростная сеть с ячеистой топологией.
  • Машинное обучение. Amazon Redshift использует технологии машинного обучения для обеспечения высокой пропускной способности вне зависимости от рабочих нагрузок клиента или объема параллельно выполняемых операций. Redshift применяет сложные алгоритмы, чтобы прогнозировать скорость выполнения входящих запросов, и по итогам анализа приписывает запросы к подходящей очереди, чтобы оптимизировать их обработку. Например, запросы для панелей управления и отчетов с высокими требованиями к количеству параллельных операций направляются в экспресс‑очередь, где обрабатываются моментально. По мере нарастания числа параллельных операций Amazon Redshift прогнозирует момент, когда может начаться формирование очереди, и благодаря возможности параллельного масштабирования автоматически развертывает временные ресурсы. Это позволяет обеспечить высокую производительность вне зависимости от изменения нагрузки на кластер.
  • Кэширование результатов. Благодаря возможности кэширования результатов в Amazon Redshift можно обрабатывать повторяющиеся запросы за доли секунды. Благодаря этому значительно увеличивается производительность панелей управления, а также инструментов визуализации и бизнес‑аналитики, которые выполняют повторяющиеся запросы. При получении запроса Redshift выполняет поиск по кэшу, в котором может храниться результат прошлой обработки такого запроса. Если результат был найден в кэше и данные не изменились, сервис незамедлительно выдает этот результат вместо повторного выполнения запроса. 

Вопрос. Как получить доступ к работающему кластеру хранилища данных?

После создания кластера хранилища данных можно получить его адрес, а также строку подключения JDBC и ODBC, воспользовавшись Консолью управления AWS или API Redshift. Полученная строка подключения может быть использована при работе с любым привычным инструментом баз данных или бизнес‑аналитики, а также языком программирования. Для выполнения сетевых запросов к созданному кластеру хранилища данных потребуется авторизация. Подробные инструкции см. в руководстве по началу работы.

Вопрос. Совместим ли Amazon Redshift с моими программами бизнес-аналитики и инструментами ETL?

В Amazon Redshift используется стандартный язык SQL, а доступ к нему осуществляется посредством стандартных драйверов JDBC и ODBC. Драйвера JDBC и ODBC для Amazon Redshift можно загрузить на вкладке «Подключение клиента» в Консоли. Мы проверили интеграцию сервиса с широко распространенными решениями бизнес‑аналитики и ETL. Для многих из них доступны бесплатные пробные версии, с помощью которых можно приступить к загрузке и анализу данных. В AWS Marketplace также можно найти решения для работы с Amazon Redshift, развертывание и настройка которых выполняется за считаные минуты.

Вопрос. Как начать работу с Amazon Redshift?

Вы можете начать работу с Amazon Redshift бесплатно. Пользователям, которые ранее не создавали кластеров Amazon Redshift, доступна двухмесячная бесплатная пробная версия узла DC1.Large. Вы получите 750 часов в месяц бесплатно. Этого достаточно для поддержки одного узла DC1.Large с SSD-хранилищем сжатых данных объемом 160 ГБ. Можно также создать кластеры со множеством узлов для тестирования больших наборов данных, однако в этом случае бесплатные часы будут расходоваться быстрее. По окончании срока действия двухмесячной бесплатной пробной версии или при превышении 750 часов в месяц можно остановить кластер, избежав дополнительных затрат, или продолжить его использование с оплатой согласно стандартному тарифу предоставления ресурсов по требованию.

Начать работу с проектом