Начать работу с проектом

7 шагов  |  60 минут

Вопрос: Что такое хранилище данных?

Аналитика требуется повсюду. Мы используем отчеты и панели управления в повседневной работе, сообщаем об успехах акционерам, прибегаем к специализированной аналитике при принятии решений. За всеми этими отчетами, панелями управления и инструментами бизнес-аналитики стоят хранилища данных. В них данные хранятся более эффективно, с меньшей частотой запросов на чтение и запись, и запросы из них молниеносно доставляются сотням и тысячам пользователей одновременно. В отличие от транзакционных баз данных, в хранилищах данных используются специализированные архитектуры и инструменты хранения, повышающие скорость обработки запросов и загрузки данных. К тому же хранилища данных очень легко масштабируются, что позволяет при необходимости без труда добавить больше источников данных и повысить эффективность аналитики и сбора информации. Наконец, хранилища данных обыкновенно без труда интегрируются со сторонними инструментами бизнес-аналитики и SQL-клиентами и поддерживают стандартные SQL-запросы, что позволяет использовать привычные навыки и инструменты.

Вопрос: Почему стоит развертывать хранилище данных на AWS?

Amazon Redshift, наше хранилище данных, отличается скоростью, простотой в работе и полной управляемостью. В данном решении автоматизированы инфраструктурные задачи, связанные с выделением и управлением ресурсами, включая создание резервных копий, репликацию и установку обновлений. Система эффективно интегрируется со сторонними инструментами бизнес-аналитики и ETL, так что первый отчет будет готов уже через пару минут. При этом никаких ограничений на объемы анализируемых данных нет. При росте объема данных больше не придется беспокоиться о дорогостоящих обновлениях и падении производительности. Amazon Redshift работает быстро при любом масштабе, потому что в нем используются столбчатые хранилища и ряд технологий оптимизации. Сервис Amazon Redshift также отличается низкой стоимостью, и вы платите только за то, что действительно используете. В завершение заметим, что с этим сервисом любое количество пользователей может выполнять любые объемы аналитики на всех имеющихся данных всего за 1000 USD за терабайт в год. 

Вопрос: Что такое Amazon Redshift?

Amazon Redshift – это высокоскоростное, полностью управляемое, масштабируемое до петабайт хранилище данных, которое делает анализ всех данных с помощью имеющихся у вас инструментов бизнес-аналитики проще и дешевле. Вы можете начать всего лишь с 0,25 USD за час без каких-либо обязательств и выполнять масштабирование до нескольких петабайт по цене 1000 USD за терабайт в год. Это в десять раз меньше стоимости других решений. Как правило, за счет трехкратного сжатия клиенты получают ежегодную экономию в 333 USD на каждый терабайт без сжатия.

Вопрос: Насколько производителен Amazon Redshift в сравнении с традиционно используемыми решениями БД для хранения и анализа данных?

Amazon Redshift удалось достичь десятикратного повышения производительности по сравнению с традиционными решениями БД для хранения данных и выполнения аналитических задач за счет применения различных инноваций.

  • Колоночное хранилище данных. В Amazon Redshift данные хранятся в виде столбцов, а не наборов строк. В отличие от систем на основе строк, которые хороши для обработки транзакций, системы на основе столбцов идеально подходят для хранения, а также для анализа данных, когда при выполнении запросов часто приходится совместно обрабатывать большие наборы данных. В связи с тем, что обрабатываются лишь столбцы, которых касаются запросы, а данные столбца хранятся на накопителе последовательно, колоночные системы требуют выполнения гораздо меньшего числа операций ввода-вывода, что значительно повышает производительность запросов.
  • Улучшенное сжатие данных. Сжатие данных в столбцах выполняется гораздо эффективнее, чем сжатие строчных данных, поскольку сходные данные хранятся на диске последовательно. Amazon Redshift использует целый ряд методик сжатия данных и зачастую обеспечивает более эффективное сжатие по сравнению с обычными реляционными хранилищами данных. Кроме того, Amazon Redshift не требует создания индексов или материализованных представлений, а значит, занимает меньший объем по сравнению с обычными системами реляционных баз данных. При загрузке данных в пустую таблицу Amazon Redshift автоматически определяет тип данных и выбирает наиболее подходящую схему их сжатия.
  • Массово-параллельная обработка. Amazon Redshift автоматически распределяет данные и запросы по всем узлам. Сервис позволяет легко добавлять к хранилищу данных новые узлы для поддержания высокой производительности при выполнении запросов по мере роста хранилища.

Вопрос: Как получить доступ к работающему кластеру хранилища данных?

После создания кластера хранилища данных можно получить его адрес, а также строку подключения JDBC и ODBC, воспользовавшись Консолью управления AWS или API Redshift. Полученная строка подключения может быть использована при работе с любым привычным инструментом баз данных или бизнес-аналитики, а также языком программирования. Для выполнения сетевых запросов к созданному кластеру хранилища данных потребуется авторизация. Подробные инструкции см. в Руководстве по началу работы.

Вопрос: Совместим ли Amazon Redshift с моими программами бизнес-аналитики и инструментами ETL?

В Amazon Redshift используется стандартный язык SQL, а доступ к нему осуществляется посредством стандартных драйверов JDBC и ODBC. Драйвера JDBC и ODBC для Amazon Redshift можно загрузить на вкладке «Подключение клиента» в Консоли. Проверенная интеграция с широко распространенными решениями бизнес-аналитики и ETL; для многих из них доступны бесплатные пробные версии, с помощью которых можно приступить к загрузке и анализу данных. В AWS Marketplace также можно найти решения для работы с Amazon Redshift, развертываемые и настраиваемые за несколько минут.

Вопрос: Как начать использовать Amazon Redshift?

Вы можете начать работу с Amazon Redshift бесплатно. Пользователям, которые ранее не создавали кластеров Amazon Redshift, доступна двухмесячная бесплатная пробная версия узла DC1.Large. Вы получите 750 часов в месяц бесплатно. Этого достаточно для поддержки одного узла DC1.Large с SSD-хранилищем сжатых данных объемом 160 ГБ. Вы также сможете разрабатывать кластеры с несколькими узлами для тестирования больших наборов данных, однако бесплатные часы работы будут расходоваться быстрее. По окончании двухмесячной бесплатной пробной версии или при превышении 750 часов в месяц можно остановить кластер, избежав дополнительных затрат, или продолжить его использование с оплатой согласно стандартному тарифу по требованию.

Начать работу с проектом