Попробуйте Amazon Redshift бесплатно

Начать работу с бесплатной пробной версией
Подробнее

Получите 750 часов работы с DC2.Large в месяц в течение 2 месяцев бесплатно. Ниже описаны шаги по началу использования пробной версии.

1. Создать аккаунт AWS и войти в консоль Amazon Redshift

2. Запустить кластер Amazon Redshift и выбрать DC2.Large в качестве типа узла

Узнайте дополнительно, как получать данные и создавать отчеты бесплатно, на странице бесплатных пробных версий от наших партнеров.


Вопрос: что такое Amazon Redshift?

Amazon Redshift – это полностью управляемое высокоскоростное хранилище данных, которое позволяет выполнять анализ данных проще и дешевле с помощью стандартного языка SQL и имеющихся инструментов бизнес-аналитики (BI). Сервис позволяет выполнять сложные аналитические запросы к петабайтам структурированных данных, используя сложную оптимизацию запросов, столбчатые хранилища на высокопроизводительных локальных дисках и массово-параллельное выполнение запросов. Большинство результатов могут быть получены за считаные секунды. Вы можете начать работу с Redshift всего за 0,25 USD в час без каких-либо обязательств и масштабироваться до нескольких петабайтов данных по цене 1000 USD за терабайт в год. Это составляет менее одной десятой стоимости других решений. Amazon Redshift также включает в себя Amazon Redshift Spectrum, позволяющий отправлять SQL-запросы непосредственно к эксабайтам неструктурированных данных в Amazon S3. Не требуется загрузка или преобразование данных, можно использовать открытые форматы данных, включая Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile и TSV. Redshift Spectrum автоматически масштабирует вычислительные ресурсы, необходимые для выполнения запроса к извлекаемым данным, поэтому запросы к Amazon S3 выполняются быстро при любых объемах данных.

Администрирование традиционных хранилищ данных требует значительных затрат времени и ресурсов, особенно если речь идет о больших наборах данных, а построение, обслуживание и расширение самостоятельно управляемых локальных хранилищ обходится очень дорого. По мере увеличения объема данных приходится постоянно делать выбор, какие данные загружать в хранилище данных и какие данные архивировать, чтобы управлять расходами, поддерживать невысокую сложность ETL и обеспечивать хорошую производительность. Amazon Redshift не только значительно снижает стоимость и операционные издержки хранилища данных. С помощью Redshift Spectrum теперь можно легко анализировать большие объемы данных в исходном формате без загрузки данных.

Amazon Redshift обеспечивает возможность быстрого выполнения запросов к структурированным данным с помощью привычных клиентов на основе SQL, а также с использованием инструментов бизнес-аналитики (BI) посредством стандартных подключений ODBC и JDBC. Запросы распределены по множеству физических ресурсов и выполняются параллельно. Вы можете легко масштабировать хранилище данных Amazon Redshift как в сторону увеличения, так и в сторону уменьшения, выполнив всего несколько щелчков в Консоли управления AWS или один вызов API. Amazon Redshift обеспечивает автоматическую установку исправлений ПО и резервное копирование данных хранилища, сохраняя копии на протяжении заданного пользователем периода. Путем репликации и непрерывного резервного копирования Amazon Redshift повышает доступность и сохранность данных и обеспечивает автоматическое восстановление при сбоях компонентов и узлов. Благодаря поддержке виртуального частного облака Amazon VPC, протокола SSL, шифрования AES-256 и аппаратных модулей безопасности (HSM) Amazon Redshift позволяет защитить как передаваемые, так и хранимые данные.

Как и с другими сервисами Amazon Web Services, здесь не требуются предварительные капиталовложения. Вы платите только за используемые ресурсы. Вы оплачиваете только то, что фактически используете. Кроме того, вы можете начать работу с Amazon Redshift бесплатно.

Вопрос: Что такое Amazon Redshift Spectrum?

Amazon Redshift Spectrum – это функция Amazon Redshift, которая позволяет выполнять запросы к эксабайтам неструктурированных данных в Amazon S3 без загрузки или ETL. При отправке запроса он поступает на SQL-сервер Amazon Redshift, который генерирует и оптимизирует план выполнения запроса. Amazon Redshift определяет, какие данные являются локальными, а какие находятся в Amazon S3, генерирует план минимизации объема данных Amazon S3, которые необходимо прочитать, и запрашивает исполнителей Amazon Redshift Spectrum из общего пула ресурсов, чтобы прочитать и обработать данные из Amazon S3.

Redshift Spectrum при необходимости масштабируется до тысяч инстансов, поэтому запросы выполняются быстро при любых объемах данных. Кроме того, теперь можно использовать для данных Amazon S3 тот же синтаксис SQL, что и для запросов Amazon Redshift, и подключаться к той же конечной точке Amazon Redshift, используя привычные инструменты бизнес-аналитики. Redshift Spectrum позволяет разделить вычислительные ресурсы и хранилища и масштабировать их независимо друг от друга. Можно настроить необходимое количество кластеров Amazon Redshift, чтобы выполнять запросы к озеру данных Amazon S3, обеспечивая высокую доступность и неограниченную параллельную обработку. С Redshift Spectrum можно хранить данные где угодно и в каком угодно формате – они всегда будут под рукой для обработки.

Вопрос: Какие виды управления берет на себя Amazon Redshift?

Amazon Redshift выполняет все функции по созданию, обслуживанию и масштабированию хранилища данных, от выделения ресурсов инфраструктуры до автоматизации текущих задач администрирования, таких как резервное копирование и установка исправлений ПО. Кроме того, Amazon Redshift обеспечивает автоматический мониторинг работы узлов и накопителей, обеспечивая восстановление после сбоев. Обеспечивая работу Redshift Spectrum, Amazon Redshift управляет всей вычислительной инфраструктурой, балансировкой нагрузки, планированием и исполнением запросов к данным, хранящимся в Amazon S3.

Вопрос: Насколько производителен Amazon Redshift в сравнении с традиционно используемыми решениями БД для хранения и анализа данных?

Amazon Redshift удалось достичь десятикратного повышения производительности по сравнению с традиционными решениями БД для хранения данных и выполнения аналитических задач за счет применения различных инноваций.

  • Колоночное хранилище данных. В Amazon Redshift данные хранятся в виде столбцов, а не наборов строк. В отличие от систем на основе строк, которые хороши для обработки транзакций, системы на основе столбцов идеально подходят для хранения, а также для анализа данных, когда при выполнении запросов часто приходится совместно обрабатывать большие наборы данных. В связи с тем, что обрабатываются лишь столбцы, которых касаются запросы, а данные столбца хранятся на накопителе последовательно, колоночные системы требуют выполнения гораздо меньшего числа операций ввода-вывода, что значительно повышает производительность запросов.
  • Улучшенное сжатие данных. Сжатие данных в столбцах выполняется гораздо эффективнее, чем сжатие строчных данных, поскольку сходные данные хранятся на диске последовательно. Amazon Redshift использует целый ряд методик сжатия данных и зачастую обеспечивает более эффективное сжатие по сравнению с обычными реляционными хранилищами данных. Кроме того, Amazon Redshift не требует создания индексов или материализованных представлений, а значит, занимает меньший объем по сравнению с обычными системами реляционных баз данных. При загрузке данных в пустую таблицу Amazon Redshift автоматически определяет тип данных и выбирает наиболее подходящую схему их сжатия.
  • Массово-параллельная обработка. Amazon Redshift автоматически распределяет данные и запросы по всем узлам и позволяет легко добавлять к хранилищу данных новые узлы с поддержанием высокой производительности при выполнении запросов по мере роста хранилища.
  • Redshift Spectrum. Redshift Spectrum позволяет выполнять запросы к данным в Amazon S3, объем которых измеряется эксабайтами. Загрузка данных или ETL не требуются. Даже если в Amazon Redshift данные не хранятся, можно использовать Redshift Spectrum для выполнения запросов к наборам данных в Amazon S3 объемом несколько эксабайтов. При отправке запроса он поступает на SQL-сервер Amazon Redshift, который генерирует план запроса. Amazon Redshift определяет, какие данные являются локальными, а какие находятся в Amazon S3, генерирует план минимизации объема данных Amazon S3, которые необходимо прочитать, запрашивает исполнителей Amazon Redshift Spectrum из общего пула ресурсов, чтобы прочитать и обработать данные из Amazon S3, и возвращает результаты в кластер Amazon Redshift для любой последующей обработки.

Вопрос: Как начать использовать Amazon Redshift?

Зарегистрироваться и начать работу с Amazon Redshift можно на странице сервиса или в Консоли управления AWS. Для этого потребуется всего несколько минут. Если у вас еще нет аккаунта AWS, вам будет предложено его создать.

Чтобы использовать Redshift Spectrum, сначала нужно сохранить данные в Amazon S3. После этого можно задать метаданные об этих данных в кластере Amazon Redshift или зарегистрировать в кластере метаданные, которые уже имеются в Hive Metastore. Можно выполнить в кластере Amazon Redshift команду SQL CREATE EXTERNAL SCHEMA, чтобы определить или зарегистрировать в Amazon Redshift базу данных, находящуюся в вашем каталоге, в качестве внешней схемы. После этого можно создавать запросы к Amazon S3, используя тот же синтаксис SQL, который используется для локальных таблиц и любых инструментов бизнес-аналитики, поддерживаемых в настоящее время сервисом Amazon Redshift. Определение внешней базы данных, созданное с помощью Amazon Redshift SQL, регистрируется в том же каталоге данных, который использует Amazon Athena. Вы можете также управлять внешним определением базы данных из каталога Amazon Athena. 

Посетите страницу Начало работы, чтобы начать использовать Amazon Redshift бесплатно.

Вопрос: В каких регионах AWS доступен Amazon Redshift?

Данные по доступности Amazon Redshift по регионам см. в таблице регионов на странице глобальной инфраструктуры сервисов AWS.

Вопрос: В каких регионах AWS доступен Redshift Spectrum?

Amazon Redshift Spectrum доступен в следующих регионах AWS: Восток США (Сев. Вирджиния), Восток США (Огайо), Запад США (Орегон), ЕС (Франкфурт), ЕС (Ирландия), Азия и Тихий океан (Сеул), Азия и Тихий океан (Сингапур), Азия и Тихий океан (Сидней), Азия и Тихий океан (Токио).

Вопрос: Как создать кластер хранилища данных Amazon Redshift?

Вы легко создадите кластер хранилища данных Amazon Redshift с помощью Консоли управления AWS или API Amazon Redshift. Вы можете начать с одного узла и хранилища размером 160 ГБ, а затем постепенно расширить его до петабайта или даже больше, выполнив несколько щелчков в Консоли управления AWS или один вызов API.

Конфигурация, включающая один узел, позволяет начать работу с Amazon Redshift быстро и недорого, а затем увеличивать количество узлов по мере необходимости. В конфигурацию с множеством узлов должен входить ведущий узел, управляющий клиентскими подключениями и принимающий запросы, и два вычислительных узла, на которых хранятся данные и выполняются запросы и вычисления. Ведущий узел будет выделен автоматически, и платить за него не нужно.

Достаточно указать желаемую зону доступности (необязательно), количество узлов и их типы, адрес и пароль ведущего узла, группы безопасности, срок хранения резервных копий и другие системные настройки. Когда нужная конфигурация будет выбрана, Amazon Redshift предоставит запрошенные ресурсы и создаст кластер хранилища данных.

Вопрос: Как распределяются функции между ведущим и вычислительными узлами?

Ведущий узел принимает запросы от клиентских приложений, анализирует их и разрабатывает план выполнения, представляющий собой упорядоченную последовательность шагов обработки запроса. После этого он организует параллельное выполнение плана с помощью вычислительных узлов, объединяет полученные от них промежуточные результаты и возвращает результаты клиентскому приложению.

Вычислительные узлы выполняют определяемые планом шаги обработки запросов и обмениваются данными для их обслуживания. Промежуточные результаты отправляются обратно на ведущий узел для их объединения перед отправкой клиентскому приложению.

Вопрос: Какова максимальная емкость хранилища одного вычислительного узла? Какой объем данных обрабатывается вычислительным узлом наиболее производительно?

Создать кластер можно, используя узлы типа Dense Storage или Dense Compute. Узлы типа Dense Storage позволяют создавать очень крупные хранилища данных с помощью жестких дисков (HDD) по очень низкой цене. С помощью узлов типа Dense Compute можно создавать хранилища данных с очень высокой производительностью, в которых используются быстрые ЦПУ, большие объемы оперативной памяти и твердотельные накопители (SSD).

Узлы типа Dense Storage (DS) представлены в двух размерах: Extra Large и Eight Extra Large. Узлы Extra Large (XL) содержат три накопителя на жестких магнитных дисках общей емкостью 2 ТБ, а узлы Eight Extra Large (8XL) – 24 таких накопителя общей емкостью 16 ТБ. Узлы DS2.8XL работают на процессорах Intel Xeon E5-2676 v3 (Haswell) с 36 виртуальными ядрами, объем оперативной памяти составляет 244 ГиБ. Узлы DS2.XL работают на процессорах Intel Xeon E5-2676 v3 (Haswell) с 4 виртуальными ядрами, объем оперативной памяти составляет 31 ГиБ. Подробнее см. на странице цен. Вы можете начать с хранилища емкостью 2 ТБ на одном узле Extra Large за 0,85 USD в час и масштабировать его до петабайта и более, с почасовой платой или с использованием зарезервированных инстансов, что позволит снизить расходы до менее чем 1000 USD за терабайт в год.

Узлы Dense Compute (DC) также доступны в двух размерах. Узлы Large включают хранилище объемом 160 ГБ на твердотельных накопителях, 2 виртуальных ядра Intel Xeon E5-2670v2 (Ivy Bridge) и 15 ГиБ ОЗУ. Узлы Eight Extra Large в 16 раз мощнее и включают хранилище объемом 2,56 ТБ на твердотельных накопителях, 32 виртуальных ядра Intel Xeon E5-2670v2 и 244 ГиБ ОЗУ. Можно начать с одного узла DC2.Large за 0,25 USD в час и постепенно масштабировать его вплоть до 128 узлов 8XL, предоставляющих для хранения 326 ТБ на твердотельных накопителях, 3200 виртуальных ядер и 24 ТиБ оперативной памяти.

Архитектура массово-параллельной обработки (MPP) Amazon Redshift позволяет повышать производительность путем увеличения числа узлов в кластере хранилища данных. Оптимальный объем данных для производительной обработки вычислительным узлом зависит от характеристик приложения и требований к производительности запросов.

Вопрос: Сколько узлов может входить в кластер хранилища данных Amazon Redshift?

В зависимости от типа узла кластер хранилища данных Amazon Redshift может содержать от 1 до 128 вычислительных узлов. Дополнительные сведения см. в документации.

Вопрос: Как получить доступ к работающему кластеру хранилища данных?

После создания кластера хранилища данных можно получить его адрес, а также строку подключения JDBC и ODBC, воспользовавшись Консолью управления AWS или API Redshift. Полученная строка подключения может быть использована при работе с любым привычным инструментом баз данных или бизнес-аналитики, а также языком программирования. Для выполнения сетевых запросов к созданному кластеру хранилища данных потребуется авторизация. Подробные инструкции см. в Руководстве по началу работы.

Вопрос: В каких случаях стоит использовать сервис Amazon Redshift, а в каких – Amazon RDS?

Как Amazon Redshift, так и Amazon RDS позволяют запускать традиционные реляционные базы данных в облаке без необходимости их администрирования. Базы данных Amazon RDS используют как для обработки онлайн-транзакций (OLTP), так и для анализа и создания отчетов. Благодаря возможности масштабирования и использованию ресурсов множества узлов, а также различных методов оптимизации, Amazon Redshift обеспечивает на порядок большую производительность в сравнении с традиционными базами данных при выполнении задач аналитики и создании отчетов на основе огромных наборов данных. Amazon Redshift позволяет эффективно осуществлять масштабирование по мере роста объема данных и сложности запросов или при необходимости работы с отчетами и аналитикой без снижения производительности обработки OLTP.

Вопрос: В каких случаях стоит использовать сервис Amazon Redshift, а в каких – Amazon EMR?

Amazon EMR будет полезен в тех случаях, когда для обработки и анализа особо крупных наборов данных с помощью сред обработки больших данных, таких как Apache Spark, Hadoop, Presto или Hbase, используется специальный код. Amazon EMR предоставляет пользователю полный контроль над конфигурацией кластеров и устанавливаемым на них ПО.

Хранилища данных типа Amazon Redshift предназначены для совершенно другого типа аналитики. Такие хранилища данных предназначены для сбора данных из множества различных источников, например систем инвентаризации, финансовых систем и систем розничных продаж. Чтобы обеспечить единообразную точность отчетов по всей компании, хранилища данных хранят информацию в высокоструктурированном виде. При этом правила непротиворечивости данных встраиваются непосредственно в таблицы базы данных.

Amazon Redshift – это лучший сервис для тех случаев, когда нужно выполнять сложные запросы к объемным наборам структурированных данных и обеспечивать высочайшую производительность.

Вопрос: Может ли Redshift Spectrum заменить Amazon EMR?

Нет. Хотя Redshift Spectrum отлично подходит для выполнения запросов к данным в Amazon Redshift и S3, он является не лучшим вариантом для примеров использования, которые компании обычно задают для таких сред обработки, как Amazon EMR.
Возможности сервиса Amazon EMR гораздо шире, чем выполнение обычных SQL-запросов. Amazon EMR – это управляемый сервис, который позволяет обрабатывать и анализировать чрезвычайно большие наборы данных на полностью настраиваемых кластерах с использованием самых последних версий популярных платформ для работы с большими данными, включая Spark, Hadoop и Presto. Он позволяет решать широкий спектр задач по масштабированию данных для приложений в таких областях применения, как машинное обучение, анализ графов, преобразование и потоковая передача данных, а также решать практически любые задачи, которые можно представить в виде кода. Redshift Spectrum также можно использовать вместе с EMR. Amazon Redshift Spectrum использует тот же подход для хранения определений таблиц, что и Amazon EMR. Таким образом, если EMR используется для обработки большого хранилища данных, в это же время можно использовать Redshift Spectrum для выполнения запросов к этим данных, не мешая работе Amazon EMR.

Сервисы запросов, хранилища данных и платформы комплексной обработки данных имеют свои сферы применения и используются для разных целей. Вам нужно просто выбрать подходящий инструмент для работы.

Вопрос: В каких случаях стоит использовать сервис Amazon Athena, а в каких – Redshift Spectrum?

Amazon Athena – это самый простой способ дать любому сотруднику возможность выполнять спонтанные запросы к данным в Amazon S3. Athena – бессерверный сервис, в котором нет инфраструктуры, требующей настройки или управления, поэтому можно сразу же приступить к анализу данных.

Если имеются часто используемые данные, которые должны храниться в согласованном, структурированном формате, тогда для их хранения следует использовать хранилище данных типа Amazon Redshift. Хранилище Amazon Redshift обеспечивает гибкость при хранении часто запрашиваемых структурированных данных и позволяет использовать Redshift Spectrum для расширения области применения запросов Amazon Redshift на весь объем информации в озере данных Amazon S3. Это дает возможность хранить данные где угодно и в каком угодно формате – они всегда будут под рукой для обработки.

Вопрос: Можно ли использовать Redshift Spectrum для запроса к данным, обрабатываемым в Amazon EMR?

Да, Redshift Spectrum может поддерживать тот же формат Apache Hive Metastore, который используется Amazon EMR для определения месторасположения данных и определений таблиц. Если используется Amazon EMR и уже имеется Hive Metastore, нужно просто настроить кластер Amazon Redshift на его использование. После этого можно выполнять запросы к этим данным одновременно с выполнением заданий Amazon EMR.

Вопрос: Почему целесообразнее использовать Amazon Redshift, а не собственный кластер хранилища с массово-параллельной обработкой данных в сервисе Amazon EC2?

Amazon Redshift автоматически выполняет множество трудоемких задач, которые при использовании собственного хранилища данных вам придется выполнять самостоятельно, включая перечисленные ниже.

  • Настройка. При работе с Amazon Redshift достаточно создать кластер хранилища данных, задать схему данных и приступить к загрузке данных и созданию запросов. Сервис автоматически выделяет и настраивает ресурсы и применяет необходимые исправления ПО.
  • Надежное хранение данных. Amazon Redshift реплицирует данные в кластере хранилища и постоянно сохраняет их резервные копии в хранилище Amazon S3, обладающем уровнем надежности 99.999999999 %. Amazon Redshift осуществляет зеркальное дублирование данных на каждом накопителе на другие узлы того же кластера. В случае сбоя одного из накопителей сервис Redshift восстановит его данные из реплик, а тем временем выполнение запросов продолжится с незначительной задержкой. В случае сбоя одного или нескольких узлов Amazon Redshift автоматически выделит новые узлы и начнет восстановление данных с других накопителей этого кластера или из Amazon S3. В первую очередь восстанавливаются наиболее часто запрашиваемые данные, поэтому работа часто выполняемых запросов будет быстро восстановлена.
  • Масштабирование. Если требуется изменить емкость или производительность, можно добавить или удалить узлы из кластера хранилища данных Amazon Redshift одним вызовом API или парой щелчков в Консоли управления AWS.
  • Автоматическая установка обновлений и исправлений ПО. Amazon Redshift автоматически устанавливает обновления и исправления ПО хранилища данных, позволяя вам сосредоточиться на работе с приложением, а не администрировании.
  • Возможность запросов в масштабе эксабайтов. Redshift Spectrum позволяет выполнять запросы к данным в Amazon S3, объем которых измеряется эксабайтами. Загрузка данных или ETL не требуются. Даже если в Amazon Redshift данные не хранятся, можно использовать Redshift Spectrum для выполнения запросов к наборам данных в Amazon S3 объемом несколько эксабайтов.

К началу »

Вопрос: Каков принцип оплаты пользования сервисом Amazon Redshift?

Вы платите только за то, чем пользуетесь, без минимальной оплаты или начальных взносов. Плата взимается на основании следующих параметров.

  • Часы работы вычислительных узлов – общее число часов работы всех ваших вычислительных узлов в течение расчетного периода. Вы платите за час работы каждого узла кластера хранилища данных; таким образом, при постоянном использовании кластера с тремя узлами в течение целого месяца будет начислена плата за 2160 часов работы инстансов. Плата взимается только за использование вычислительных узлов и не взимается за работу ведущего узла.
  • Хранилище резервных копий данных – это хранилище, связанное с автоматическими и ручными моментальными снимками вашего хранилища данных. Увеличение срока хранения резервных копий или сохранение дополнительных моментальных снимков состояния увеличивает потребляемый хранилищем данных объем хранилища резервных копий. За хранение резервных копий, занимающих до 100 % выделенного объема хранилища активного кластера хранилища данных, дополнительная плата не взимается. Например, если у вас есть активный кластер с одним узлом с хранилищем на 2 ТБ, мы предоставим хранилище резервных копий до 2 ТБ в месяц совершенно бесплатно. За хранение резервных копий объемом больше предоставленного хранилища, а также за хранение резервных копий после окончания срока действия кластера взимается стандартный тариф Amazon S3.
  • Передача данных. За передачу данных между сервисами Amazon Redshift и Amazon S3 (в любом направлении) в пределах одного и того же региона AWS плата не взимается. Все остальные случаи передачи данных в Amazon Redshift или из него оплачиваются по стандартным тарифам AWS на передачу данных.
  • Обработка данных. При использовании Redshift Spectrum начисляется плата за объем данных Amazon S3, обработанных при выполнении запроса. При отсутствии запросов плата за Redshift Spectrum не начисляется. Если вы храните данные в столбцовом формате, например Parquet или RC, затраты будут меньше, поскольку Redshift Spectrum будет сканировать только столбцы, необходимые для запроса, не обрабатывая целые строки. Аналогичным образом затраты будут сокращаться, если сжимать данные с помощью одного из поддерживаемых Redshift Spectrum форматов. Вы будете платить за хранение данных по стандартным тарифам Amazon S3, а за пользование кластером – по тарифам использования инстанса Amazon Redshift.

Чтобы ознакомиться с ценами Amazon Redshift, посетите страницу цен Amazon Redshift.

Вопрос: Когда начинается и заканчивается начисление платы за кластер хранилища данных Amazon Redshift?

Начисление платы за кластер хранилища данных начинается, как только он становится доступным, Плата перестает начисляться после остановки работы кластера, что может произойти либо в случае удаления кластера, либо при сбое в работе кластера.

Вопрос: Как определяются часы использования инстанса Amazon Redshift, подлежащие оплате?

Оплате подлежит каждый час, в течение которого кластер хранилища данных работает и доступен. Если вы не хотите платить за пользование кластером, необходимо остановить его работу, чтобы не оплачивать дополнительные часы использования узла. Неполные часы использования узла оплачиваются как полные.

Вопрос: Ваши цены указаны с учетом налогов?

Если не указано иное, представленные здесь цены не включают применимые налоги и сборы, в том числе НДС и применимый налог с продаж.Для клиентов с платежным адресом в Японии использование сервисов AWS облагается потребительским налогом Японии. Подробнее.

К началу »


Вопрос: Как загрузить данные в хранилище данных Amazon Redshift?

В хранилище Amazon Redshift можно загрузить данные из целого ряда источников, в том числе из Amazon S3, Amazon DynamoDB, Amazon EMRAWS Data Pipeline, а также с любого хоста Amazon EC2 или локального хоста, если они поддерживают SSH-подключение. Amazon Redshift параллельно загружает данные на каждый из вычислительных узлов, чтобы обеспечить максимальную скорость загрузки данных в кластер хранилища. Подробнее о загрузке данных в Amazon Redshift см. в Руководстве по началу работы.

Вопрос: Можно ли выполнять загрузку данных с помощью операторов SQL INSERT?

Да, клиенты могут подключиться к Amazon Redshift с помощью ODBC или JDBC и использовать команды SQL INSERT для вставки данных. Обратите внимание на то, что этот способ медленнее, чем загрузка из хранилища S3 или DynamoDB, так как последняя выполняется параллельно на каждый из вычислительных узлов, а загрузка с помощью операторов SQL INSERT происходит посредством единственного ведущего узла.

Вопрос: Как загрузить данные из существующих источников Amazon RDS, Amazon EMR, Amazon DynamoDB или Amazon EC2 в Amazon Redshift?

С помощью команды COPY можно запустить параллельную загрузку данных в Amazon Redshift напрямую из Amazon EMR, Amazon DynamoDB или с любого хоста с поддержкой SSH. Redshift Spectrum также позволяет загружать данные из Amazon S3 в кластер с помощью простой команды INSERT INTO. Это позволяет загружать в кластер данные различных форматов, таких как Parquet и RC. Обратите внимание, что при использовании этого подхода будет начисляться плата за Redshift Spectrum на основании объема обработанных данных из Amazon S3.

Кроме того, ряд компаний, специализирующихся на извлечении, преобразовании и загрузке данных (ETL), сертифицировали свои решения для использования с Amazon Redshift. Многие из них имеют бесплатные пробные версии, с помощью которых можно начать загрузку данных. Сервис AWS Data Pipeline представляет собой высокопроизводительное, надежное и отказоустойчивое решение для загрузки данных из разных источников AWS. С его помощью можно задать источник данных и требуемые преобразования данных, а затем запустить готовый скрипт импорта для загрузки данных в Amazon Redshift. AWS Glue – это полностью управляемый сервис извлечения, преобразования и загрузки (ETL), который позволяет без труда подготовить и загрузить данные для анализа. Создать и запустить ETL-задание в AWS Glue можно за несколько щелчков мышью в Консоли управления AWS.

Вопрос: В хранилище Amazon Redshift требуется впервые загрузить большой объем данных. Чтобы загрузить их через Интернет, потребуется много времени. Как это лучше сделать?

С помощью функции AWS Import/Export можно загрузить данные в хранилище Amazon S3 с портативных устройств хранения. Так же можно создать частное сетевое подключение между вашей сетью или ЦОД и AWS с помощью функции AWS Direct Connect. Для передачи данных можно использовать порты со скоростью соединения 1 Гбит/с или 10 Гбит/с.

К началу »


Вопрос: Как Amazon Redshift обеспечивает безопасность данных?

Amazon Redshift обеспечивает безопасность передаваемых и хранимых данных с помощью стандартных для отрасли методов шифрования. Для обеспечения безопасности передаваемых данных Amazon Redshift использует подключения с поддержкой SSL между клиентским приложением и кластером хранилища данных Redshift. Для обеспечения безопасности хранимых данных при записи их на диск Amazon Redshift шифрует каждый блок по алгоритму AES-256 с аппаратным ускорением. Это низкоуровневый процесс в подсистеме ввода-вывода, позволяющий зашифровать все записываемые на диск данные, включая промежуточные результаты запросов. Резервные копии оказываются также зашифрованными, поскольку при их создании выполняется копирование зашифрованных блоков. По умолчанию сервис Amazon Redshift осуществляет управление ключами, но вы можете выбрать вариант управления ключами с помощью собственных аппаратных модулей безопасности (HSM), или сервиса управления ключами AWS.

Redshift Spectrum поддерживает шифрование на стороне сервера (SSE) Amazon S3 с использованием в рамках аккаунта сервиса AWS Key Management Service (KMS) и управляемого ключа по умолчанию.

Вопрос: Можно ли использовать Amazon Redshift в Amazon Virtual Private Cloud (Amazon VPC)?

Да, вы можете использовать Amazon Redshift как элемент конфигурации VPC. Amazon VPC дает возможность определять топологию виртуальной сети, очень напоминающую традиционную сеть, которая могла бы работать в вашем собственном центре обработки данных. Это позволяет вам полностью контролировать доступ к кластеру хранилища данных Amazon Redshift.

Можно использовать Redshift Spectrum с кластером Amazon Redshift, который является частью вашего VPC. Обратите внимание, что Redshift Spectrum в настоящее время не поддерживает улучшенную маршрутизацию VPC.

Вопрос: Существует ли прямой доступ к вычислительным узлам Amazon Redshift?

Нет. Вычислительные узлы Amazon Redshift находятся в частном сетевом пространстве, и доступ к ним возможен только из ведущего узла кластера хранилища данных. Это обеспечивает дополнительный уровень безопасности для данных.

К началу »


Вопрос: Как на доступность и надежность кластера хранилища данных повлияет сбой накопителя на одном из узлов?

Кластер хранилища данных Amazon Redshift останется доступным в случае сбоя накопителя, но при выполнении некоторых запросов возможно небольшое снижение производительности. В случае сбоя накопителя Amazon Redshift незаметно перейдет к использованию одной из реплик данных этого накопителя, расположенной на другом накопителе данного узла. Кроме того, Amazon Redshift попытается переместить данные на работоспособный накопитель, а если это невозможно – то произвести замену узла.Кластеры, состоящие из одного узла, не поддерживают репликацию данных, и в случае сбоя накопителя потребуется восстановление кластера из снимка состояния в хранилище S3. В кластерах рабочей среды рекомендуется использовать не менее двух узлов.

Вопрос: Как на доступность и надежность кластера хранилища данных повлияет сбой одного из узлов?

Amazon Redshift автоматически обнаружит и заменит отказавший узел кластера хранилища данных. Кластер хранилища станет доступен для запросов и обновлений, как только новый узел будет выделен и добавлен к базе данных. Amazon Redshift сразу же обеспечит его доступность и в первую очередь направит на него из хранилища S3 наиболее часто запрашиваемые данные, что позволит быстро возобновить выполнение запросов.Кластеры, состоящие из одного узла, не поддерживают репликацию данных, и в случае сбоя накопителя потребуется восстановление кластера из снимка состояния в хранилище S3. В кластерах рабочей среды рекомендуется использовать не менее двух узлов.

Вопрос: Как на доступность и надежность кластера хранилища данных повлияет отключение зоны доступности, в которой он находится?

При отключении зоны доступности, в которой находится кластер хранилища данных Amazon Redshift, кластер хранилища будет недоступен до возобновления работы зоны и сетевого доступа к ней. Кластер при этом будет сохранен, и вы сможете использовать ваше хранилище данных Amazon Redshift, как только будет восстановлен доступ к зоне доступности. Кроме того, можно создать хранилище в новой зоне доступности того же региона из любых имеющихся снимков состояния. Amazon Redshift в первую очередь восстановит наиболее часто запрашиваемые данные, что позволит быстро возобновить выполнение запросов.

Вопрос: Поддерживает ли Amazon Redshift развертывания во множестве зон доступности?

В настоящее время Amazon Redshift поддерживает только развертывания в одной зоне доступности. Запуск кластеров хранилища данных во множестве зон доступности реализуем путем загрузки данных одного набора входных файлов Amazon S3 в два кластера хранилища Amazon Redshift в разных зонах доступности. С Redshift Spectrum можно развернуть несколько кластеров в нескольких зонах доступности и получить доступ к данным в Amazon S3, не загружая их в свой кластер. Кроме того, можно создать одинаковые кластеры хранилища данных в разных зонах доступности из снимка состояния кластера.

К началу »


Вопрос: Как Amazon Redshift выполняет резервное копирование данных?

Amazon Redshift реплицирует все данные в кластере хранилища данных при их загрузке, а также постоянно сохраняет резервные копии данных в хранилище S3. При этом, как правило, в любой момент времени имеется не менее трех копий данных: оригинал, реплика на вычислительных узлах и резервная копия в хранилище Amazon S3. Сервис Redshift может также асинхронно копировать ваши снимки состояния в S3 в другую область для аварийного восстановления.

Вопрос: Как долго Amazon Redshift хранит резервные копии, можно ли задать срок их хранения?

По умолчанию Amazon Redshift хранит резервные копии в течение суток, но вы можете увеличить срок их хранения до 35 дней.

Вопрос: Как восстановить кластер хранилища данных Amazon Redshift из резервной копии?

В течение периода хранения резервных копий у вас есть доступ ко всем автоматически созданным резервным копиям. После того как вы выберете резервную копию для восстановления, сервис выделит новый кластер хранилища данных и восстановит данные в него.

Вопрос: Резервное копирование кластера необходимо включать вручную или оно активируется автоматически?

По умолчанию Amazon Redshift автоматически создает резервные копии кластера хранилища и хранит их в течение суток. Объем бесплатного хранилища резервных копий ограничен и равен общему объему хранилища узлов кластера. Такое бесплатное хранилище предоставляется только для активных кластеров. Например, если общий объем хранилища данных составляет 8 ТБ, вам будет бесплатно предоставлено не более 8 ТБ для хранения резервных копий. Чтобы продлить срок хранения резервных копий, воспользуйтесь Консолью управления AWS или API Amazon Redshift. Дополнительная информация об автоматическом резервном копировании приведена в Руководстве по управлению Amazon Redshift. Amazon Redshift выполняет резервное копирование только тех данных, которые были изменены, поэтому большая часть снимков состояния занимает совсем небольшой объем дискового пространства в бесплатном хранилище резервных копий.

Вопрос: Как задать срок хранения автоматически создаваемых резервных копий и снимков состояния?

Используйте Консоль управления AWS или API ModifyCluster для управления периодом хранения автоматизированных резервных копий; для этого нужно изменить параметр RetentionPeriod. Если вы хотите полностью отключить автоматическое резервное копирование, установите период хранения равным нулю (не рекомендуется).

Вопрос: Что произойдет с резервными копиями при удалении кластера хранилища данных?

При удалении кластера хранилища данных можно создать снимок его последнего состояния, что позволит позже восстановить удаленный кластер. Все снимки состояния кластера, созданные ранее вручную, будут сохранены. Плата за их хранение будет начисляться в соответствии со стандартными тарифами Amazon S3, пока вы не удалите их.

К началу »


Вопрос: Как изменить размер и производительность кластера хранилища данных Amazon Redshift?

Чтобы повысить производительность запросов, ЦПУ, памяти или операций ввода-вывода, можно увеличить количество узлов в кластере хранилища данных с помощью Консоли управления AWS или API ModifyCluster. Изменения параметров кластера вступают в действие мгновенно. Метрики использования вычислительных ресурсов, хранилища и трафика чтения/записи данных в кластере хранилища Amazon Redshift бесплатно доступны для просмотра посредством Консоли управления AWS или API Amazon CloudWatch. Можно также создать дополнительные пользовательские метрики с помощью функциональных возможностей Amazon CloudWatch по созданию специальных метрик.

Используя Redshift Spectrum, можно запускать несколько кластеров Amazon Redshift, имеющих доступ к одним и тем же данным в Amazon S3. Можно использовать разные кластеры для разных вариантов использования. Например, один кластер можно использовать для стандартных отчетов, а другой – для исследовательских запросов. Группа маркетинга может использовать свои собственные кластеры, отличные от кластеров операционной группы. В зависимости от типа и количества узлов в локальном кластере, а также от количества файлов, которые необходимо обработать для запроса, Redshift Spectrum автоматически распределяет выполнение запроса нескольким исполнителям Redshift Spectrum из общего пула ресурсов для чтения и обработки данных из Amazon S3 и возвращает результаты в кластер Amazon Redshift для выполнения оставшейся обработки.

Вопрос: Доступен ли кластер хранилища данных во время масштабирования?

Существующий кластер хранилища данных остается доступным для чтения во время создания нового кластера хранилища путем масштабирования. Когда новый кластер хранилища будет создан, существующий окажется недоступен на время изменения его записи CNAME, которая должна теперь указывать на новый кластер хранилища данных. Период времени, в течение которого база данных будет недоступна, обычно составляет всего пару минут, и эта операция производится в рамках интервала обслуживания, заданного для кластера, если только вы не решите применить изменения немедленно. Amazon Redshift перемещает данные с вычислительных узлов существующего кластера хранилища на вычислительные узлы нового кластера параллельно, что ускоряет выполнение этой операции.

К началу »


Вопрос: Совместим ли Amazon Redshift с моими программами бизнес-аналитики и инструментами ETL?

В Amazon Redshift используется стандартный язык SQL, а доступ к нему осуществляется посредством стандартных драйверов JDBC и ODBC. Драйвера JDBC и ODBC для Amazon Redshift можно загрузить на вкладке «Подключение клиента» в Консоли. Сертифицирована интеграция с широко распространенными решениями бизнес-аналитики и ETL; для многих из них доступны бесплатные пробные версии, с помощью которых можно приступить к загрузке и анализу данных. В магазине AWS Marketplace также можно найти решения для работы с Amazon Redshift, развертываемые и настраиваемые за считаные минуты.

Вопрос: Какие типы запросов поддерживает Redshift Spectrum?

Для доступа к таблицам в Redshift Spectrum используется тот же синтаксис и предоставляются такие же возможности запросов, как для таблиц в локальном хранилище кластера. Ссылки на внешние таблицы делаются с помощью имени схемы, определенного командой CREATE EXTERNAL SCHEMA, в которой они были зарегистрированы.

Вопрос: Что произойдет, если таблица в моем локальном хранилище имеет то же имя, что и внешняя таблица?

Как и в случае с локальными таблицами, чтобы выбрать нужную таблицу, можно использовать имя схемы, введя параметр schema_name.table_name в запросе.

Вопрос: Какие инструменты бизнес-аналитики и какие SQL-клиенты поддерживает Redshift Spectrum?

Redshift Spectrum поддерживает все клиентские инструменты Amazon Redshift. Клиентские инструменты могут продолжать подключаться к конечной точке кластера Amazon Redshift с использованием соединений ODBC или JDBC. Никаких изменений не требуется.

Вопрос: Какие форматы данных поддерживает Redshift Spectrum?

Redshift Spectrum в настоящее время поддерживает множество форматов данных с открытым исходным кодом, включая Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile и TSV.

Вопрос: Какие форматы сжатия поддерживает Redshift Spectrum?

Redshift Spectrum в настоящее время поддерживает форматы сжатия Gzip и Snappy.

Вопрос: Я использую Hive Metastore для хранения метаданных о моем озере данных S3. Могу ли я использовать Redshift Spectrum?

Да. Команда CREATE EXTERNAL SCHEMA поддерживает метаданные Hive Metastore. В настоящее время для Hive Metastore не поддерживается DDL.

Вопрос: Как получить список всех внешних таблиц базы данных, созданных в моем кластере?

Чтобы получить эту информацию, можно сделать запрос по системной таблице SVV_EXTERNAL_TABLES.


Вопрос: Как обеспечить мониторинг производительности кластера хранилища данных Amazon Redshift?

Метрики использования вычислительных ресурсов, хранилища и трафика чтения/записи данных в кластере хранилища Amazon Redshift бесплатно доступны для просмотра посредством Консоли управления AWS или набора API Amazon CloudWatch. Можно также создать дополнительные пользовательские метрики с помощью средств создания пользовательских метрик Amazon Cloudwatch. Помимо метрик CloudWatch, информация о производительности запросов и кластера Amazon Redshift доступна также посредством Консоли управления AWS. Эта информация позволяет увидеть, какие пользователи и запросы потребляют наибольшее количество системных ресурсов, и определить причины снижения производительности. Кроме того, с ее помощью можно контролировать использование ресурсов каждого из вычислительных узлов с целью эффективного балансирования данных и запросов по всем узлам.

Вопрос: Я замечаю, что некоторые запросы к данным в моем кластере работают медленнее, чем запросы Redshift Spectrum. Почему так происходит?

Запросы Amazon Redshift выполняются к данным на локальном диске с использованием ресурсов кластера. Запросы Redshift Spectrum выполняются к данным в S3 с использованием ресурсов, масштабируемых в зависимости от запроса. Для большинства запросов локальный диск работает быстрее, но для запросов, которые обрабатывают большие объемы данных и выполняют хотя бы минимальные вычисления, в Redshift Spectrum применяется большое количество исполнителей, что позволяет быстро их выполнить.


Вопрос: Что такое интервал обслуживания? Доступен ли кластер хранилища данных во время обслуживания программного обеспечения?

Amazon Redshift периодически осуществляет техническое обслуживание, во время которого устанавливает в кластере пользователя исправления, улучшения и новые возможности. Изменить запланированный интервал обслуживания можно путем изменения кластера программным способом либо с помощью консоли Amazon Redshift. Во время интервала обслуживания кластер Amazon Redshift недоступен для работы в нормальном режиме. Дополнительные сведения об интервале обслуживания и графиках обслуживания по регионам см. раздел Интервалы обслуживания в Руководстве по управлению Amazon Redshift.

К началу »