Общие

Подробнее о новых возможностях Amazon Redshift см. по ссылке.

Подробная информация и руководство по использованию приведены в документации.

Вопрос: Что такое Amazon Redshift?
Amazon Redshift – это полностью управляемое высокоскоростное хранилище данных, которое позволяет выполнять анализ данных проще и экономичнее с помощью стандартного языка SQL и существующих инструментов бизнес‑аналитики (BI). Сервис позволяет выполнять комплексные аналитические запросы к петабайтам структурированных данных, используя сложную оптимизацию запросов, высокопроизводительные столбчатые хранилища и массово‑параллельное выполнение операций. Большинство результатов могут быть получены за считаные секунды. Вы можете начать работу с Redshift всего за 0,25 USD в час без каких‑либо обязательств и масштабироваться до нескольких петабайтов данных по цене 1000 USD за терабайт в год. Это в десять раз меньше стоимости традиционных хранилищ. Amazon Redshift также включает в себя Amazon Redshift Spectrum, что позволяет отправлять SQL‑запросы непосредственно к эксабайтам неструктурированных данных в озерах данных Amazon S3. Загрузка или преобразование данных не требуются. Можно использовать открытые форматы данных, такие как Avro, CSV, Ion, JSON, ORC, Parquet и т. п. Redshift Spectrum автоматически масштабирует вычислительные ресурсы, необходимые для выполнения запроса к извлекаемым данным, поэтому запросы к Amazon S3 выполняются быстро при любых объемах данных.

Amazon Redshift обеспечивает возможность быстрого выполнения запросов к структурированным данным с помощью привычных клиентов на основе SQL, а также с использованием инструментов бизнес‑аналитики (BI) посредством стандартных подключений ODBC и JDBC. Запросы распределены по множеству физических ресурсов и выполняются параллельно. Хранилище данных Amazon Redshift можно без труда масштабировать как в сторону увеличения, так и в сторону уменьшения всего за несколько щелчков мышью в Консоли управления AWS или за один вызов API. Amazon Redshift обеспечивает автоматическую установку исправлений ПО и резервное копирование данных хранилища, сохраняя копии на протяжении заданного пользователем периода. Путем репликации и непрерывного резервного копирования Amazon Redshift повышает доступность и сохранность данных и обеспечивает автоматическое восстановление при сбоях компонентов и узлов. Благодаря поддержке облака Amazon Virtual Private Cloud (Amazon VPC), протокола SSL, шифрования AES‑256 и аппаратных модулей безопасности (HSM) Amazon Redshift позволяет защищать данные как при передаче, так и при хранении.

Как и при работе с другими сервисами AWS, здесь не требуются предварительные капиталовложения. Плата начисляется только за используемые ресурсы. Вы оплачиваете только то, что фактически используете. Более того, Amazon Redshift можно попробовать бесплатно.

Сведения о доступности Amazon Redshift по регионам см. в таблице регионов AWS.

Вопрос: Почему стоит использовать Amazon Redshift, а не локальное хранилище данных?

Администрирование локальных хранилищ данных требует значительных затрат времени и ресурсов, особенно если речь идет о больших наборах данных. При этом создание, обслуживание и расширение самостоятельно управляемых локальных хранилищ обходится очень дорого. По мере увеличения объема данных приходится постоянно делать выбор, какие данные загружать в хранилище данных и какие данные архивировать, чтобы оптимизировать расходы, избегать сложных ETL‑процессов и обеспечивать хорошую производительность. Amazon Redshift не только значительно снижает стоимость хранилища данных и связанные операционные издержки. С помощью Redshift Spectrum теперь можно без труда анализировать большие объемы данных в исходном формате без предварительной загрузки.

Вопрос: Как использовать возможности Amazon Redshift, которые доступны в режиме ознакомления?

При создании кластера Amazon Redshift можно выбрать одно из трех вариантов обслуживания: Current (Актуальный), Trailing (Устаревший) и Preview (Ознакомление). Чтобы использовать возможности Redshift, доступные в режиме ознакомления, в варианте Preview необходимо выбрать опцию PREVIEW_FEATURES.

Вопрос: Что представляет собой AQUA (Advanced Query Accelerator) для Amazon Redshift?

AQUA – это новый распределенный кэш с аппаратным ускорением для Redshift. Подробности и регистрация для доступа в режиме ознакомления.

Вопрос: Что представляет собой Redshift Spectrum?

Redshift Spectrum – это возможность Amazon Redshift, которая позволяет выполнять запросы к эксабайтам неструктурированных данных в Amazon S3 без загрузки и использования ETL. При отправке запроса он поступает на SQL‑сервер Amazon Redshift, который генерирует и оптимизирует план запроса. Amazon Redshift определяет, какие данные являются локальными, а какие находятся в Amazon S3, генерирует план минимизации объема данных Amazon S3, которые необходимо прочитать, и запрашивает исполнителей Amazon Redshift Spectrum из общего пула ресурсов, чтобы прочитать и обработать данные из Amazon S3.

Redshift Spectrum при необходимости масштабируется до тысяч инстансов, поэтому запросы выполняются быстро при любых объемах данных. Кроме того, при работе с данными в Amazon S3 можно использовать тот же синтаксис SQL, что и для запросов Amazon Redshift, и подключаться к тому же адресу Amazon Redshift, используя привычные инструменты бизнес‑аналитики. Redshift Spectrum позволяет разделить вычислительные ресурсы и хранилища и масштабировать их независимо друг от друга. Можно настроить необходимое количество кластеров Amazon Redshift, чтобы выполнять запросы к озеру данных Amazon S3, обеспечивая высокую доступность и неограниченную параллельную обработку. С Redshift Spectrum можно хранить данные где угодно и в каком угодно формате, при этом они всегда будут под рукой для обработки.

Сведения о доступности Redshift Spectrum по регионам см. на странице цен на Amazon Redshift.

Вопрос: Какие виды управления берет на себя Amazon Redshift?

Amazon Redshift выполняет все операции по созданию, обслуживанию и масштабированию хранилища данных, от выделения ресурсов инфраструктуры до автоматизации текущих задач администрирования, таких как резервное копирование и установка исправлений ПО. Кроме того, Amazon Redshift обеспечивает автоматический мониторинг работы узлов и накопителей, обеспечивая восстановление после сбоев. Для Redshift Spectrum сервис Amazon Redshift управляет всей вычислительной инфраструктурой, балансировкой нагрузки, планированием и выполнением запросов к данным, хранящимся в Amazon S3.

Вопрос: Какую производительность демонстрирует Amazon Redshift в сравнении с традиционно используемыми решениями БД для хранения и анализа данных?

За счет применения различных инноваций Amazon Redshift удалось достичь десятикратного повышения производительности по сравнению с традиционными решениями БД для хранения данных и выполнения аналитических задач.

  • Столбчатое хранилище данных. В Amazon Redshift данные хранятся в виде столбцов, а не наборов строк. В отличие от систем на основе строк, которые хороши для обработки транзакций, системы на основе столбцов идеально подходят для хранения, а также для анализа данных, когда при выполнении запросов часто приходится обрабатывать большие наборы данных совместно. В связи с тем, что обрабатываются лишь столбцы, которых касаются запросы, а данные столбца хранятся на накопителе последовательно, столбчатые системы требуют выполнения гораздо меньшего количества операций ввода‑вывода, что значительно повышает производительность запросов.
  • Улучшенное сжатие данных. Сжатие столбчатых данных выполняется гораздо эффективнее, чем сжатие строчных данных, поскольку сходные данные хранятся на диске последовательно. Amazon Redshift использует целый ряд методик сжатия данных и во многих случаях обеспечивает более эффективное сжатие, чем обычные реляционные хранилища данных. При загрузке данных в пустую таблицу Amazon Redshift автоматически определяет тип данных и выбирает наиболее подходящую схему сжатия.
  • Массово‑параллельная обработка. Amazon Redshift автоматически распределяет данные и запросы по всем узлам. По мере роста хранилища сервис позволяет просто добавлять к хранилищу данных новые узлы для поддержания высокой производительности при выполнении запросов.
  • Redshift Spectrum. Redshift Spectrum позволяет выполнять запросы к данным в Amazon S3, объем которых измеряется эксабайтами. Загрузка данных или ETL‑операции не требуются. Даже если никакие данные не хранятся в Amazon Redshift, можно использовать Redshift Spectrum для выполнения запросов к наборам данных в Amazon S3 объемом несколько эксабайтов. При отправке запроса он поступает на SQL‑сервер Amazon Redshift, который генерирует план запроса. Amazon Redshift определяет, какие данные являются локальными, а какие находятся в Amazon S3, генерирует план сокращения объема данных Amazon S3, которые необходимо считать, запрашивает исполнителей Amazon Redshift Spectrum из общего пула ресурсов, чтобы считать и обработать данные из Amazon S3, и возвращает результаты в кластер Amazon Redshift для любой последующей обработки.

Вопрос: Как начать работу с Amazon Redshift?

Зарегистрироваться и начать работу с Amazon Redshift можно на странице сведений о сервисе или в Консоли управления AWS. Для этого потребуется лишь несколько минут. Если у вас еще нет аккаунта AWS, его будет предложено создать.

Чтобы использовать возможность Redshift Spectrum, сначала необходимо сохранить данные в Amazon S3. После этого можно указать метаданные этих данных в кластере Amazon Redshift или зарегистрировать в кластере метаданные, которые уже имеются в Hive Metastore. Можно выполнить в кластере Amazon Redshift команду SQL CREATE EXTERNAL SCHEMA, чтобы определить или зарегистрировать в качестве внешней схемы в Amazon Redshift базу данных, находящуюся в каталоге клиента. После этого можно создавать запросы к Amazon S3, используя тот же синтаксис SQL, который используется для локальных таблиц и любых инструментов бизнес‑аналитики, поддерживаемых в настоящее время сервисом Amazon Redshift. Определение внешней базы данных, созданное с помощью Amazon Redshift SQL, регистрируется в том же каталоге данных, который использует Amazon Athena. Управлять внешним определением базы данных также можно из каталога Amazon Athena.

Перейдите на страницу начала работы, чтобы попробовать Amazon Redshift бесплатно.

Вопрос: Как создать кластер хранилища данных Amazon Redshift и получить доступ к нему?

Кластер хранилища данных Amazon Redshift можно без труда создать с помощью Консоли управления AWS или API Amazon Redshift. Начать можно с одного узла и хранилища размером 160 ГБ, а затем постепенно расширить его до нескольких петабайтов и даже более за один вызов API или несколько щелчков мышью в Консоли управления AWS.

Конфигурация, включающая один узел, позволяет быстро и недорого начать работу с Amazon Redshift, а затем увеличивать количество узлов по мере необходимости. В зависимости от типа узла кластер хранилища данных Redshift может содержать от 1 до 128 вычислительных узлов. Дополнительные сведения см. в документации.

В конфигурацию с множеством узлов должен входить ведущий узел, управляющий клиентскими подключениями и принимающий запросы, и два вычислительных узла, на которых хранятся данные и выполняются запросы и вычисления. Ведущий узел будет выделен автоматически, платить за него не требуется.

Достаточно указать желаемую зону доступности (необязательно), количество узлов и их типы, адрес и пароль ведущего узла, группы безопасности, срок хранения резервных копий и другие системные настройки. Когда нужная конфигурация будет выбрана, Amazon Redshift выделит запрошенные ресурсы и создаст кластер хранилища данных.

После создания кластера хранилища данных можно получить его адрес, а также строку для подключения JDBC и ODBC, воспользовавшись Консолью управления AWS или API Redshift. Полученная строка подключения может быть использована при работе с любым привычным инструментом баз данных или бизнес‑аналитики, а также языком программирования. Для выполнения сетевых запросов к созданному кластеру хранилища данных потребуется авторизация. Подробные инструкции см. в Руководстве по началу работы.

Вопрос: Какова максимальная емкость хранилища одного вычислительного узла? Какой объем данных один вычислительный узел может обрабатывать с оптимальной производительностью?

Создать кластер можно с помощью типов узлов RA3, DC или DS. Типы узлов RA3 предоставляют возможности независимого масштабирования и отдельной оплаты для вычислительных ресурсов и хранилища. Вы выбираете нужное количество инстансов на основе требований к производительности и платите только за используемый объем управляемого хранилища.

Узлы типа RA3 уже доступны в виде узлов RA3.16XL. Они позволяют создавать кластеры с объемом управляемого хранилища до 8 ПБ. С RA3 клиенты платят только за используемый объем хранилища. Для работы кластерам RA3 необходимо по меньшей мере 2 узла. Кластер RA3.16XL наименьшего размера поддерживает объем хранилища до 128 ТБ. Управляемое хранилище Redshift использует объемные и высокопроизводительные твердотельные накопители в качестве быстрого локального хранилища на каждом инстансе Amazon Redshift RA3. Для надежного долгосрочного хранения данных используется Amazon S3. Если данных в инстансе становится слишком много для хранения на локальных твердотельных накопителях, управляемое хранилище Redshift автоматически выгружает эти данные в Amazon S3. Независимо от того, где находятся данные – на высокопроизводительных твердотельных накопителях или в Amazon S3, – цена за использование управляемого хранилища Redshift остается неизменной и низкой. Если для рабочих нагрузок требуется большое хранилище, но не так много вычислительных ресурсов, объем хранилища данных может масштабироваться автоматически. При этом добавлять дополнительные инстансы (и платить за них) не придется.

Узлы DC доступны в двух размерах. Узлы Large включают хранилище объемом 160 ГБ на твердотельных накопителях, 2 виртуальных ядра Intel Xeon E5‑2670v2 (Ivy Bridge) и 15 ГиБ оперативной памяти. Узлы Eight Extra Large в 16 раз мощнее и включают хранилище объемом 2,56 ТБ на твердотельных накопителях, 32 виртуальных ядра Intel Xeon E5‑2670v2 и 244 ГиБ оперативной памяти. Можно начать с одного узла DC2.Large за 0,25 USD в час и постепенно масштабировать его вплоть до 128 узлов 8XL, предоставляющих для хранения 326 ТБ на твердотельных накопителях, 3200 виртуальных ядер и 24 ТиБ оперативной памяти.

Узлы типа DS представлены в двух размерах: Extra Large и Eight Extra Large. Узлы Extra Large (XL) содержат три накопителя на жестких магнитных дисках общей емкостью 2 ТБ, а узлы Eight Extra Large (8XL) – 24 таких накопителя общей емкостью 16 ТБ. Узлы DS2.8XLarge включают 36 виртуальных ядер Intel Xeon E5‑2676 v3 (Haswell) и 244 ГиБ оперативной памяти. Узлы DS2.XL включают 4 виртуальных ядра Intel Xeon E5‑2676 v3 (Haswell) и 31 ГиБ оперативной памяти.

Дополнительную информацию см. на странице цен.

Вопрос: В каких случаях стоит использовать сервис Amazon Redshift, а в каких – Amazon RDS?

Как Amazon Redshift, так и Amazon RDS позволяют работать в облаке с обычными реляционными базами данных без необходимости самостоятельного администрирования. Клиенты обычно используют базы данных Amazon RDS для рабочих нагрузок, связанных с обработкой транзакций по технологии OLTP, в то время как Redshift чаще используется для создания отчетов и аналитики. Благодаря возможности масштабирования и использованию ресурсов множества узлов, а также различных методов оптимизации Amazon Redshift обеспечивает на порядок большую производительность в сравнении с традиционными базами данных при выполнении задач аналитики и создании отчетов на основе огромных наборов данных. С Amazon Redshift можно эффективно осуществлять масштабирование по мере роста объема данных и сложности запросов, что позволяет работать с отчетами и аналитикой без снижения производительности рабочих нагрузок, связанных с OLTP. Теперь с помощью возможности федеративных запросов (в режиме ознакомления) в Redshift можно без труда выполнять запросы к данным в сервисах баз данных Amazon RDS или Aurora.

Вопрос: В каких случаях стоит использовать сервис Amazon Redshift или Redshift Spectrum, а в каких – Amazon EMR?

Сервис Amazon EMR будет полезен в тех случаях, когда для обработки и анализа особо крупных наборов данных в средах обработки больших данных (например, Apache Spark, Hadoop, Presto или Hbase) применяется собственный код. Amazon EMR предоставляет пользователю полный контроль над конфигурацией кластеров и устанавливаемым на них ПО.

Хранилища данных типа Amazon Redshift предназначены для совершенно другого типа аналитики. Такие хранилища данных предназначены для сбора данных из множества различных источников, например систем инвентаризации, финансовых систем и систем розничных продаж. Чтобы обеспечить единообразную точность отчетов по всей компании, хранилища данных сохраняют информацию в тщательно структурированном виде. При этом правила обеспечения непротиворечивости данных встраиваются непосредственно в таблицы баз данных. Amazon Redshift – это оптимальный сервис для случаев, когда нужно выполнять комплексные запросы к объемным наборам структурированных и частично структурированных данных и обеспечивать высочайшую производительность.

Возможность Redshift Spectrum отлично подходит для выполнения запросов к данным в Amazon Redshift и S3, однако это не лучший вариант для примеров использования, которые компании обычно задают для сред обработки вроде Amazon EMR. Возможности сервиса Amazon EMR гораздо шире, чем выполнение обычных SQL‑запросов. Amazon EMR – это управляемый сервис, который позволяет обрабатывать и анализировать чрезвычайно большие наборы данных на полностью настраиваемых кластерах с использованием самых последних версий популярных платформ для работы с большими данными, включая Spark, Hadoop и Presto. Он позволяет выполнять широкий спектр задач по масштабированию данных для приложений в таких сферах применения, как машинное обучение, анализ графов, а также преобразование и потоковая передача данных. Кроме того, с этим сервисом можно решать практически любые задачи, которые можно представить в виде кода.

Redshift Spectrum можно использовать вместе с EMR. В Redshift Spectrum использован тот же подход для хранения определений таблиц, что и в Amazon EMR. Redshift Spectrum также может поддерживать формат Apache Hive Metastore, который используется в Amazon EMR для определения месторасположения данных и определений таблиц. Если используется Amazon EMR и уже имеется Hive Metastore, нужно просто настроить кластер Amazon Redshift на его использование. После этого можно выполнять запросы к этим данным одновременно с выполнением заданий Amazon EMR. Таким образом, если для обработки большого хранилища данных используется EMR, одновременно можно использовать Redshift Spectrum для выполнения запросов к этим данных, не мешая работе Amazon EMR.

Сервисы запросов, хранилища данных и платформы комплексной обработки данных имеют свои сферы применения и используются для разных целей.  Остается просто выбрать подходящий инструмент для конкретной задачи.

Вопрос: В каких случаях лучше использовать Amazon Athena, а в каких – Redshift Spectrum?

Amazon Athena – это самый удобный способ предоставить любому сотруднику возможность выполнять спонтанные запросы к данным в Amazon S3. Athena – бессерверный сервис, в котором нет инфраструктуры, требующей настройки или управления, поэтому можно сразу приступать к анализу данных.

Если имеются часто используемые данные, которые должны храниться в согласованном, структурированном формате, для их хранения следует использовать хранилище данных типа Amazon Redshift. Хранилище Amazon Redshift обеспечивает гибкость при хранении часто запрашиваемых структурированных данных и позволяет использовать Redshift Spectrum для расширения области применения запросов Amazon Redshift на весь объем информации в озере данных Amazon S3. Это дает возможность хранить данные где угодно и в каком угодно формате – они всегда будут под рукой для обработки.

Вопрос: Почему целесообразнее использовать Amazon Redshift, а не собственный кластер хранилища с массово‑параллельной обработкой данных в сервисе Amazon EC2?

Amazon Redshift автоматически выполняет множество трудоемких задач, включая перечисленные ниже. При использовании собственного хранилища данных все это придется выполнять самостоятельно.
  • Настройка. При работе с Amazon Redshift достаточно создать кластер хранилища данных, задать схему данных и приступить к загрузке данных и созданию запросов. Сервис автоматически выделяет и настраивает ресурсы и применяет необходимые исправления ПО.
  • Надежное хранение данных. Amazon Redshift реплицирует данные в кластере хранилища и постоянно сохраняет их резервные копии в хранилище Amazon S3, обладающем уровнем надежности 99,999999999 %. Amazon Redshift осуществляет зеркальное дублирование данных каждого накопителя на другие узлы того же кластера. В случае сбоя одного из накопителей сервис Redshift восстанавливает его данные из реплик, а тем временем выполнение запросов продолжается с незначительной задержкой. В случае сбоя одного или нескольких узлов Amazon Redshift автоматически выделяет новые узлы и начинает восстановление данных с других накопителей этого кластера или из Amazon S3. В первую очередь восстанавливаются наиболее часто запрашиваемые данные, поэтому работа часто выполняемых запросов будет быстро восстановлена.
  • Масштабирование. Если требуется изменить емкость или производительность, добавить или удалить узлы из кластера хранилища данных Amazon Redshift можно одним вызовом API или за пару щелчков мышью в Консоли управления AWS. Кроме того, действия по масштабированию и изменению емкости можно запланировать, воспользовавшись специальным планировщиком в Redshift.
  • Автоматическая установка обновлений и исправлений ПО. Amazon Redshift автоматически устанавливает обновления и исправления ПО хранилища данных, позволяя клиенту сосредоточиться на работе с приложением, а не на административных вопросах.
  • Возможность запросов в масштабе эксабайтов. Redshift Spectrum позволяет выполнять запросы к данным в Amazon S3, объем которых измеряется эксабайтами. Загрузка данных или ETL‑операции не требуются. Даже если в Amazon Redshift не хранятся данные, можно использовать Redshift Spectrum для выполнения запросов к наборам данных в Amazon S3 объемом несколько эксабайтов.

Оплата

Вопрос: Каков принцип начисления платы за пользование сервисом Amazon Redshift?

Вы платите только за то, чем пользуетесь, без минимальной оплаты или начальных взносов. Начисление платы за кластер хранилища данных начинается, как только он становится доступным. Плата перестает начисляться после остановки работы кластера, что может произойти либо в случае удаления кластера, либо при сбое в работе кластера. Плата начисляется на основании следующих параметров.

  • Часы работы вычислительных узлов: общее количество часов работы всех вычислительных узлов в течение расчетного периода. Оплате подлежит каждый час, в течение которого кластер хранилища данных работает и доступен. Если вы не хотите платить за пользование кластером, необходимо остановить его работу, чтобы не оплачивать дополнительные часы использования узла. Неполные часы использования узла оплачиваются как полные. Вы платите за час работы каждого узла кластера хранилища данных; таким образом, при постоянном использовании кластера с тремя узлами в течение целого месяца будет начислена плата за 2160 часов работы инстансов. Плата взимается только за использование вычислительных узлов; работа ведущего узла не оплачивается.
  • Хранилище резервных копий данных: хранилище, связанное с автоматическими и выполненными вручную снимками состояния хранилища данных. Увеличение срока хранения резервных копий или сохранение дополнительных снимков состояния увеличивает потребляемый хранилищем данных объем хранилища резервных копий. За хранение резервных копий, занимающих до 100 % выделенного объема хранилища активного кластера хранилища данных, плата не начисляется. Например, если существует активный кластер с одним узлом с хранилищем на 2 ТБ, мы предоставим хранилище резервных копий до 2 ТБ в месяц совершенно бесплатно. За хранение резервных копий объемом более предоставленного хранилища, а также за хранение резервных копий после окончания срока действия кластера взимается плата по стандартным тарифам Amazon S3.
  • Передача данных: за передачу данных между сервисами Amazon Redshift и Amazon S3 (в любом направлении) в пределах одного и того же региона AWS плата не начисляется. Все прочие случаи передачи данных в Amazon Redshift или из него оплачиваются по стандартным тарифам AWS на передачу данных.
  • Обработка данных: при использовании Redshift Spectrum начисляется плата за объем данных Amazon S3, обработанных при выполнении запроса. При отсутствии запросов плата за Redshift Spectrum не начисляется. Если вы храните данные в столбчатом формате, например Parquet или RC, затраты будут меньше, поскольку Redshift Spectrum будет сканировать только столбцы, необходимые для запроса, не обрабатывая целые строки. Аналогичным образом затраты будут сокращаться, если сжимать данные с помощью одного из поддерживаемых Redshift Spectrum форматов. Плата за хранение данных будет начисляться по стандартным тарифам Amazon S3, а за пользование кластером – по тарифам соответствующего инстанса Amazon Redshift.

Если не указано иное, представленные здесь цены не включают применимые налоги и сборы, в том числе НДС и применимый налог с продаж. Для клиентов с платежным адресом в Японии использование сервисов AWS облагается потребительским налогом Японии. Подробнее.

Подробнее о ценах на Amazon Redshift см. на странице цен на Amazon Redshift.

Интеграция и загрузка данных

Вопрос: Как загрузить данные в хранилище данных Amazon Redshift?

В Amazon Redshift можно загрузить данные из целого ряда источников, в том числе из Amazon S3, Amazon DynamoDB, Amazon EMR, AWS Glue и AWS Data Pipeline, а также с любого хоста Amazon EC2 или локального хоста, если они поддерживают SSH‑подключение. Amazon Redshift параллельно загружает данные на каждый из вычислительных узлов, чтобы обеспечить максимальную скорость загрузки данных в кластер хранилища. Клиенты могут подключиться к Amazon Redshift с помощью ODBC или JDBC и использовать SQL‑команды INSERT для вставки данных. Обратите внимание: этот способ медленнее, чем загрузка из хранилища S3 или DynamoDB, так как последняя выполняется параллельно на каждый из вычислительных узлов, а загрузка с помощью операторов SQL INSERT происходит посредством единственного ведущего узла. Подробнее о загрузке данных в Amazon Redshift см. в Руководстве по началу работы.

Вопрос: Как загрузить данные из существующих источников Amazon RDS, Amazon EMR, Amazon DynamoDB или Amazon EC2 в Amazon Redshift?

С помощью команды COPY можно запустить параллельную загрузку данных в Amazon Redshift напрямую из Amazon EMR, Amazon DynamoDB или с любого хоста с поддержкой SSH Redshift Spectrum также позволяет загружать данные из Amazon S3 в кластер с помощью простой команды INSERT INTO. Это позволяет загружать в кластер данные различных форматов, таких как Parquet и RC. Обратите внимание, что при использовании этого подхода будет начисляться плата по тарифам Redshift Spectrum на основании объема обработанных данных из Amazon S3. Возможность федеративных запросов (в режиме ознакомления) в Redshift позволяет объединять данные из Amazon RDS и Aurora (PostgreSQL).


Кроме того, множество компаний, специализирующихся на ETL, сертифицировали свои инструменты для использования с Amazon Redshift. Многие из этих инструментов имеют бесплатные пробные версии, с помощью которых можно начать работу по загрузке данных. Сервис AWS Data Pipeline представляет собой высокопроизводительное, надежное и отказоустойчивое решение для загрузки данных из разных источников AWS. С его помощью можно задать источник данных и требуемые преобразования данных, а затем запустить готовый скрипт импорта для загрузки данных в Amazon Redshift. Кроме того, AWS Glue – это полностью управляемый ETL‑сервис, который позволяет без труда подготовить и загрузить данные для анализа. Создать и запустить ETL‑задание в AWS Glue можно за несколько щелчков мышью в Консоли управления AWS.

Вопрос: В хранилище Amazon Redshift требуется впервые загрузить большой объем данных. Чтобы загрузить их через Интернет, потребуется много времени. Как это лучше сделать?

С помощью сервиса AWS Import/Export можно загрузить данные в хранилище Amazon S3 с портативных устройств хранения. Кроме того, можно создать частное сетевое подключение между AWS и собственной сетью или ЦОД с помощью сервиса AWS Direct Connect. Для передачи данных доступны порты со скоростью соединения 1 Гбит/с или 10 Гбит/с.

Безопасность

Вопрос: Как Amazon Redshift обеспечивает безопасность данных?

Amazon Redshift обеспечивает безопасность передаваемых и хранимых данных с помощью стандартных отраслевых методов шифрования. Для обеспечения безопасности передаваемых данных Amazon Redshift использует подключения с поддержкой SSL между клиентским приложением и кластером хранилища данных Redshift. Для обеспечения безопасности хранимых данных при записи их на диск Amazon Redshift шифрует каждый блок по алгоритму AES‑256 с аппаратным ускорением. Это низкоуровневый процесс в подсистеме ввода‑вывода, позволяющий зашифровать все записываемые на диск данные, включая промежуточные результаты запросов. Резервные копии оказываются также зашифрованными, поскольку при их создании выполняется копирование зашифрованных блоков. По умолчанию сервис Amazon Redshift осуществляет управление ключами самостоятельно, но можно выбрать вариант управления ключами с помощью собственных аппаратных модулей безопасности (HSM) или AWS Key Management Service.

Redshift Spectrum поддерживает шифрование на стороне сервера (SSE) Amazon S3 с использованием в рамках аккаунта сервиса AWS Key Management Service (KMS) и управляемого ключа по умолчанию.

Вопрос: Можно ли использовать Amazon Redshift в Amazon Virtual Private Cloud (Amazon VPC)?

Да, Amazon Redshift можно использовать в рамках конфигурации VPC. Amazon VPC дает возможность определять топологию виртуальной сети, очень напоминающую традиционную сеть, которая могла бы работать в локальном центре обработки данных. Это позволяет полностью контролировать доступ к кластеру хранилища данных Amazon Redshift. Redshift Spectrum можно использовать с кластером Amazon Redshift, который является частью VPC.

Вопрос: Допускается ли прямой доступ к вычислительным узлам Amazon Redshift?

Нет. Вычислительные узлы Amazon Redshift находятся в частном сетевом пространстве, и доступ к ним возможен только из ведущего узла кластера хранилища данных. Это обеспечивает дополнительный уровень безопасности для данных.

Надежность и доступность

Вопрос: Как на доступность и надежность кластера хранилища данных повлияет сбой накопителя на одном из узлов?

Кластер хранилища данных Amazon Redshift останется доступным в случае сбоя накопителя, но при выполнении некоторых запросов возможно небольшое снижение производительности. В случае сбоя накопителя Amazon Redshift в фоновом режиме перейдет к использованию одной из реплик данных этого накопителя, расположенной на другом накопителе данного узла. Кроме того, Amazon Redshift попытается переместить данные на работоспособный накопитель, а если это невозможно – то произведет замену узла. Кластеры, состоящие из одного узла, не поддерживают репликацию данных. Для них в случае сбоя накопителя требуется восстановление кластера из снимка состояния в хранилище S3. В кластерах рабочей среды рекомендуется использовать не менее двух узлов.

Вопрос: Как на доступность и надежность кластера хранилища данных повлияет сбой одного из узлов?

Amazon Redshift автоматически обнаружит и заменит отказавший узел кластера хранилища данных. Кластер хранилища станет доступен для запросов и обновлений, как только новый узел будет выделен и добавлен к базе данных. Amazon Redshift сразу же обеспечит его доступность и в первую очередь направит на него из хранилища S3 наиболее часто запрашиваемые данные, что позволит быстро возобновить выполнение запросов. Кластеры, состоящие из одного узла, не поддерживают репликацию данных. Для них в случае сбоя накопителя требуется восстановление кластера из снимка состояния в хранилище S3. В кластерах рабочей среды рекомендуется использовать не менее двух узлов.

Вопрос: Как на доступность и надежность кластера хранилища данных повлияет отключение зоны доступности, в которой он находится?

При отключении зоны доступности, в которой находится кластер хранилища данных Amazon Redshift, кластер хранилища будет недоступен до возобновления работы зоны и сетевого доступа к ней. Кластер при этом будет сохранен, и вы сможете использовать хранилище данных Amazon Redshift, как только будет восстановлен доступ к зоне доступности. Кроме того, можно создать хранилище в новой зоне доступности того же региона из любых имеющихся снимков состояния. Amazon Redshift в первую очередь восстановит наиболее часто запрашиваемые данные, что позволит быстро возобновить выполнение запросов.

Вопрос: Поддерживает ли Amazon Redshift развертывания в нескольких зонах доступности?

В настоящее время Amazon Redshift поддерживает только развертывание в одной зоне доступности. Запуск кластеров хранилища данных в нескольких зонах доступности можно реализовать путем загрузки данных одного набора входных файлов Amazon S3 в два кластера хранилища Amazon Redshift в разных зонах доступности. С Redshift Spectrum можно развертывать несколько кластеров в нескольких зонах доступности и получать доступ к данным в Amazon S3, не загружая их в свой кластер. Кроме того, можно создать одинаковые кластеры хранилища данных в разных зонах доступности из снимка состояния кластера.

Резервное копирование и восстановление

Вопрос: Как Amazon Redshift выполняет резервное копирование данных? Как восстановить кластер из резервной копии?

Amazon Redshift реплицирует все данные в кластере хранилища данных при загрузке, а также постоянно сохраняет резервные копии данных в хранилище S3. При этом, как правило, в любой момент времени имеется не менее трех копий данных: оригинал, реплика на вычислительных узлах и резервная копия в хранилище Amazon S3. Сервис Redshift может также асинхронно копировать снимки состояния в S3 в другую область для аварийного восстановления.

По умолчанию Amazon Redshift автоматически создает резервные копии кластера хранилища и хранит их в течение суток. Срок их хранения можно увеличить до 35 дней.

Объем бесплатного хранилища резервных копий ограничен и равен общему объему хранилища узлов кластера. Такое бесплатное хранилище предоставляется только для активных кластеров. Например, если общий объем хранилища данных составляет 8 ТБ, бесплатно вам будет предоставлено не более 8 ТБ для хранения резервных копий. Чтобы продлить срок хранения резервных копий, воспользуйтесь Консолью управления AWS или API Amazon Redshift. Дополнительная информация об автоматическом резервном копировании приведена в Руководстве по управлению Amazon Redshift. Amazon Redshift выполняет резервное копирование только тех данных, которые были изменены, поэтому большая часть снимков состояния занимает небольшой объем дискового пространства в бесплатном хранилище резервных копий.

Когда требуется восстановить резервную копию, можно получить доступ ко всем автоматически созданным резервным копиям за соответствующий период хранения. После выбора резервной копии для восстановления сервис выделит новый кластер хранилища данных и восстановит данные в него.

Вопрос: Как настроить срок хранения автоматически создаваемых резервных копий и снимков состояния?

Для управления сроками хранения автоматизированных резервных копий измените параметр RetentionPeriod через Консоль управления AWS или API ModifyCluster. Если вы хотите полностью отключить автоматическое резервное копирование, сделайте период хранения равным нулю (не рекомендуется).

Вопрос: Что произойдет с резервными копиями при удалении кластера хранилища данных?

При удалении кластера хранилища данных можно создать снимок его состояния на момент удаления. Это позволит при необходимости восстановить удаленный кластер позднее. Все снимки состояния кластера, созданные ранее вручную, будут сохранены. Плата за их хранение до момента удаления пользователем будет начисляться в соответствии со стандартными тарифами Amazon S3.

Возможность масштабирования

Вопрос: Как изменить размер и производительность кластера хранилища данных Amazon Redshift?

Чтобы повысить производительность запросов или скорость отклика ЦПУ, памяти или операций ввода‑вывода, можно увеличить количество узлов в кластере хранилища данных. Для этого используйте возможность эластичного изменения кластера в Консоли управления AWS или API ModifyCluster. Изменения параметров кластера вступают в действие мгновенно. Метрики использования вычислительных ресурсов, хранилища и трафика чтения / записи данных в кластере хранилища Amazon Redshift доступны для бесплатного просмотра посредством Консоли управления AWS или API Amazon CloudWatch. Можно также создать дополнительные собственные метрики с помощью возможностей Amazon CloudWatch по созданию пользовательских метрик.

С возможностью параллельного масштабирования можно обслуживать практически неограниченное количество одновременно работающих пользователей и выполняемых запросов, не теряя производительности при действиях с запросами. При включенной возможности параллельного масштабирования Amazon Redshift автоматически увеличивает объем ресурсов кластера, когда это необходимо для одновременной обработки большего количества запросов.

Используя Redshift Spectrum, можно запускать несколько кластеров Amazon Redshift, имеющих доступ к одним и тем же данным в Amazon S3. Можно применять разные кластеры для разных примеров использования. Например, один кластер можно использовать для стандартных отчетов, а другой – для исследовательских запросов. Группа маркетинга может использовать свои собственные кластеры, отличные от кластеров операционной группы. В зависимости от типа и количества узлов в локальном кластере, а также от количества файлов, которые необходимо обработать для запроса, Redshift Spectrum автоматически распределяет выполнение запроса нескольким исполнителям Redshift Spectrum из общего пула ресурсов для чтения и обработки данных из Amazon S3 и возвращает результаты в кластер Amazon Redshift для дальнейшей обработки.

Вопрос: Доступен ли кластер хранилища данных во время масштабирования?

Это зависит от ряда факторов. При включенном параллельном масштабировании кластер во время действия этой возможности может выполнять операции чтения и записи в полном объеме. При включенном эластичном изменении во время действия этой возможности кластер становится недоступен на период от 4 до 8 минут. При использовании эластичности управляемого хранилища Redshift RA3 кластер остается полностью доступным, а данные автоматически перемещаются между управляемым хранилищем и вычислительными узлами.

Параллельные операции

Вопрос: Как управлять ресурсами, чтобы обеспечить кластеру Redshift стабильно высокую производительность в периоды нарастания числа параллельных операций?

Количество параллельных запросов к типичному хранилищу данных значительно меняется на протяжении дня. С точки зрения экономии целесообразнее выделять дополнительные ресурсы лишь на период, когда они необходимы, а не устанавливать общий объем ресурсов в расчете на пиковый спрос. В Amazon Redshift эта задача решается автоматически.

Параллельное масштабирование – это возможность Amazon Redshift, которая обеспечивает стабильно высокую производительность операций даже при выполнении тысяч параллельных запросов. За счет этой возможности Amazon Redshift в периоды высокого спроса автоматически выделяет временные ресурсы в нужном объеме. Сервис автоматически перенаправляет запросы на масштабируемые кластеры, которые выделяются за считаные секунды и сразу же приступают к обработке данных.

Для большинства пользователей возможность параллельного масштабирования полностью бесплатна. Каждый кластер Amazon Redshift за сутки накапливает до одного часа бесплатных кредитов для параллельного масштабирования. Благодаря этому клиенты сервиса могут уверенно прогнозировать свои месячные расходы даже в периоды колебания спроса на проведение аналитики.

Вопрос: Что представляет собой возможность эластичного изменения размера и чем она отличается от параллельного масштабирования?

Эластичное изменение размера позволяет управлять производительностью отдельного кластера Redshift, в считаные минуты добавляя или удаляя узлы. Например, повышение ETL‑нагрузок в определенные часы в конце дня или месяца, связанные с подготовкой отчетов, может потребовать выделения дополнительных ресурсов Redshift для своевременного выполнение работы. В отличие от эластичного изменения размера, возможность параллельного масштабирования выделяет дополнительные кластерные ресурсы для увеличения общего количества параллельно выполняемых операций.

Вопрос: Могу ли я обращаться к кластерам параллельного масштабирования напрямую?

Нет. Кластеры параллельного масштабирования представляют собой большой пул масштабируемых ресурсов Redshift, к которым клиенты не имеют прямого доступа.

Запросы и аналитика

Вопрос: Совместимы ли Amazon Redshift и Redshift Spectrum с моими программами бизнес‑аналитики и инструментами ETL?

В Amazon Redshift используется стандартный язык SQL, а доступ к нему осуществляется посредством стандартных драйверов JDBC и ODBC. Драйверы JDBC и ODBC для Amazon Redshift можно загрузить на вкладке подключения клиента в консоли Redshift. Мы проверили интеграцию сервиса с широко распространенными решениями бизнес‑аналитики и ETL. Для многих из них доступны бесплатные пробные версии, с помощью которых можно приступить к загрузке и анализу данных. В AWS Marketplace также можно найти решения для работы с Amazon Redshift, развертывание и настройка которых выполняется за считаные минуты.

Redshift Spectrum поддерживает все клиентские инструменты Amazon Redshift. Клиентские инструменты могут продолжать подключаться к адресу кластера Amazon Redshift с использованием соединений ODBC или JDBC. Никаких изменений не требуется.

Для доступа к таблицам в Redshift Spectrum используется тот же синтаксис и предоставляются такие же возможности запросов, как для таблиц в локальном хранилище кластера Redshift. Ссылки на внешние таблицы создаются с помощью имени схемы, определенного командой CREATE EXTERNAL SCHEMA, в которой они были зарегистрированы.

Вопрос: Какие форматы данных и форматы сжатия поддерживает Redshift Spectrum?

На данный момент Redshift Spectrum поддерживает множество форматов данных с открытым исходным кодом, включая Avro, CSV, Grok, Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile и TSV.

Redshift Spectrum также поддерживает форматы сжатия Gzip и Snappy.

Вопрос: Что произойдет, если таблица в локальном хранилище имеет то же имя, что и внешняя таблица?

Как и в случае с локальными таблицами, чтобы выбрать нужную таблицу, можно использовать имя схемы, введя параметр schema_name.table_name в запросе.

Вопрос: Я использую Hive Metastore для хранения метаданных об озере данных в S3. Смогу ли я использовать Redshift Spectrum?

Да. Команда CREATE EXTERNAL SCHEMA поддерживает метаданные Hive Metastore. В настоящее время для Hive Metastore не поддерживается DDL.

Вопрос: Как получить список всех внешних таблиц базы данных, созданных в кластере?

Чтобы получить эту информацию, можно сделать запрос по системной таблице SVV_EXTERNAL_TABLES.

Мониторинг

Вопрос: Как обеспечить мониторинг производительности кластера хранилища данных Amazon Redshift?

Метрики использования вычислительных ресурсов, хранилища и трафика чтения / записи данных в кластере хранилища Amazon Redshift доступны для бесплатного просмотра посредством Консоли управления AWS или API Amazon CloudWatch. Можно также создать дополнительные собственные метрики с помощью возможностей Amazon CloudWatch по созданию пользовательских метрик. В Консоли управления AWS есть панель управления мониторингом, с помощью которой можно отслеживать работоспособность и производительность всех кластеров. Информация о производительности запросов и кластеров Amazon Redshift также доступна в Консоли управления AWS. Эта информация позволяет увидеть, какие пользователи и запросы потребляют наибольшее количество системных ресурсов, и определить причины снижения производительности, просматривая планы запросов и статистику их выполнения. Кроме того, с помощью этой панели можно контролировать использование ресурсов каждого из вычислительных узлов с целью эффективного распределения данных и запросов по всем узлам.

Обслуживание

Вопрос: Что такое интервал обслуживания? Доступен ли кластер хранилища данных во время обслуживания программного обеспечения?

Amazon Redshift периодически осуществляет техническое обслуживание, во время которого устанавливает в кластере пользователя исправления, дополнения и новые возможности. Изменить запланированный интервал обслуживания можно путем изменения кластера программным способом либо с помощью консоли Redshift. Во время интервала обслуживания кластер Amazon Redshift недоступен для работы в нормальном режиме. Дополнительные сведения об интервале обслуживания и графиках обслуживания по регионам см. в разделе Maintenance Windows Руководства по управлению Amazon Redshift.

Подробнее о ценах на Amazon Redshift

Перейти на страницу цен
Готовы приступить к разработке?
Начать работу с Amazon Redshift
Есть вопросы?
Свяжитесь с нами