Общие вопросы

Подробнее о новых возможностях Amazon Redshift см. на странице Новые возможности.
Подробная информация и руководство по использованию содержатся в разделе Документация.

Вопрос. Что такое Amazon Redshift?

Amazon Redshift представляет собой полностью управляемое и масштабируемое облачное хранилище данных, которое ускоряет получение ценных сведений от быстрого, простого и безопасного сервиса аналитики в большом масштабе. Тысячи клиентов доверяют Amazon Redshift анализ своих данных в объемах от нескольких терабайтов до многих петабайтов со сложными аналитическими запросами. Вы сможете получить интерактивные сведения и прогностический анализ по всем данным во всех корпоративных базах данных, озерах данных, хранилищах данных и наборах данных сторонних организаций. Amazon Redshift предоставляет все это с великолепным соотношением стоимости и производительности, которое даже в стандартной конфигурации в 3 раза превышает возможности других облачных хранилищ данных, что позволит вам хорошо контролировать расходы.

Amazon Redshift Serverless позволяет за несколько секунд получать аналитические сведения по данным размером в несколько петабайтов, не требуя настраивать и администрировать кластеры хранилища данных. Amazon Redshift Serverless автоматически распределяет и масштабирует мощности хранилища данных, позволяя обеспечить высокую производительность для рабочих нагрузок с высокими и непредсказуемыми требованиями к ресурсам, а также оплачивать только реально используемые ресурсы.

Вопрос. Каковы основные причины, по которым клиенты выбирают Amazon Redshift?

Тысячи клиентов выбирают Amazon Redshift, чтобы ускорить получение ценных сведений благодаря простоте использования, готовности работать с любым объемом данных и возможности анализировать все доступные данные без исключения. Amazon Redshift является полностью управляемым сервисом, который предоставляет распределенные и бессерверные варианты использования, что упрощает выполнение и масштабирование аналитики без необходимости самостоятельно управлять хранилищем данных. Вы можете выбрать распределенный вариант, чтобы получить прогнозируемую производительность рабочих нагрузок, или Amazon Redshift Serverless, чтобы автоматически распределять и масштабировать производительность хранилища данных для гарантии высокой производительности рабочих нагрузок с высокой и непредсказуемой потребностью в ресурсах. Сервис в любом масштабе предоставляет соотношение стоимости и производительности, которое даже в стандартной конфигурации в 3 раза превышает возможности других облачных хранилищ данных, что позволит вам хорошо контролировать расходы. Amazon Redshift позволяет получить ценные сведения, выполняя интерактивный и прогностический анализ по всем данным во всех корпоративных базах данных, озерах данных, хранилищах данных и тысячам наборов данных сторонних организаций. Amazon Redshift надежно защищает ваши данные при хранении и при передаче, а также соответствует любым внутренним и внешним критериям соответствия требованиям. Он поддерживает лучший в отрасли уровень безопасности, чтобы защищать данные при передаче и при хранении с соблюдением требований SOC1, SOC2, SOC3 и PCI DSS уровня 1. Все функции безопасности и соответствия требованиям в Redshift предоставляются без дополнительной оплаты.

Вопрос. Каким образом сервис Amazon Redshift упрощает управление хранилищем данных?

Amazon Redshift полностью управляется платформой AWS, так что вам не придется беспокоиться о таких задачах по управлению хранилищем данных, как распределение оборудования, применение исправлений, настройка, конфигурирование, мониторинг узлов и дисков для восстановления после сбоев, резервное копирование. AWS управляет работами по настройке, эксплуатации и масштабированию хранилища данных от вашего имени, позволяя сосредоточиться на создании приложений. Amazon Redshift также поддерживает функцию автоматической настройки и дает рекомендации по управлению складом в Redshift Advisor. Чтобы обеспечить работу Redshift Spectrum, сервис Amazon Redshift управляет всей вычислительной инфраструктурой, балансировкой нагрузки, планированием, разработкой графика запросов к данным, хранящимся в Amazon S3, и выполнением этих запросов. Бессерверный вариант автоматически распределяет и масштабирует мощности хранилища данных, позволяя обеспечить высокую производительность для рабочих нагрузок с высокими и непредсказуемыми требованиями к ресурсам, а также оплачивать только реально используемые ресурсы.

Вопрос. Как соотносится производительность Amazon Redshift с производительностью других хранилищ данных?

Результаты теста производительности TPC-DS показывают, что Amazon Redshift обеспечивает наилучшую производительность в стандартной конфигурации, даже для сравнительно небольшого набора данных размером 3 ТБ. Amazon Redshift обеспечивает в 3 раза лучшее соотношение цены и производительности, чем другие облачные хранилища данных. Это позволяет вам сразу же получить от Amazon Redshift лучшее соотношение цены и производительности, без дополнительной настройки вручную. Улучшите соотношение цены и производительности в 3 раза, пользуясь Amazon Redshift вместо других хранилищ данных | Блог AWS Big Data.

Amazon Redshift использует широкий набор инноваций, чтобы обеспечить производительность в 10 раз выше, чем обычные базы данных, для рабочих нагрузок хранения данных и аналитики. Среди прочего, применяется эффективное столбцовое хранилище данных с оптимизацией операций чтения и вычислительные кластеры массово-параллельной обработки, которые масштабируются до сотен узлов с линейным приростом производительности. В Amazon Redshift данные хранятся в виде столбцов, а не наборов строк. При загрузке данных в пустую таблицу Amazon Redshift автоматически определяет тип данных и выбирает наиболее подходящую схему сжатия.

Redshift Spectrum позволяет выполнять запросы к данным в Amazon S3, объем которых измеряется эксабайтами. Извлечение, преобразование и загрузка (Extract, transform, and load, ETL) данных не требуется. Даже если в Amazon Redshift не хранятся данные, можно использовать Redshift Spectrum для выполнения запросов к наборам данных в Amazon S3 объемом несколько эксабайтов. Материализованные представления позволяют значительно повысить производительность запросов для повторяющихся и прогнозируемых аналитических рабочих нагрузок, таких как отображение информации на панелях управления, выполнение запросов из инструментов бизнес‑аналитики (BI), а также извлечение, загрузка и преобразование данных (ETL). С помощью материализованных представлений можно сохранять предварительно обработанные результаты запросов и успешно обеспечивать их актуальность, пошагово обрабатывая последние изменения, внесенные в таблицы-источники. Последующие запросы, ссылающиеся на материализованные представления, обрабатываются быстрее за счет использования предварительно полученных результатов, а функции автоматического обновления и перезаписи запросов упрощают использование материализованных представлений и позволяют его автоматизировать. Amazon Redshift также автоматически создает материализованные представления, обеспечивая те же преимущества, что и материализованные представления, создаваемые пользователями.

Вычислительная способность и емкость локальных хранилищ данных ограничиваются возможностями локального оборудования. Сервис Amazon Redshift позволяет масштабировать вычислительные ресурсы и хранилище независимо, в соответствии с изменениями рабочих нагрузок. Управляемое хранилище Redshift предоставляет вам возможность масштабировать размер хранилища Amazon S3 до нескольких петабайтов.

Автоматическая оптимизация таблиц (ATO) — это функция с автоматической настройкой, которая позволяет получить преимущества в производительности за счет создания более эффективных ключей сортировки и распределения без ручного труда. ATO отслеживает процедуру взаимодействия запросов с таблицами и с помощью машинного обучения выбирает наилучшие ключи сортировки и распределения, чтобы оптимизировать производительность кластера под рабочей нагрузкой. Оптимизация ATO позволила повысить производительность кластера на 24% и 34% при прохождении тестирования с помощью инструмента TPC-DS на хранилищах емкостью 3 и 30 ТБ соответственно по сравнению с кластером без ATO. Дополнительные функции, такие как автоматическое удаление Vacuum, автоматическая сортировка таблиц и автоматический анализ, устраняют необходимость ручного обслуживания и настройки кластеров Redshift, обеспечивая максимальную производительность новых кластеров и производственных рабочих нагрузок.

Управление рабочими нагрузками позволяет направлять запросы к набору предопределенных очередей, которые контролируют параллельные операции и загрузку ресурсов в кластере. В настоящее время Amazon Redshift предоставляет конфигурацию как в автоматическом, так и в ручном режиме. При ручной настройке WLM вы самостоятельно отвечаете за определение размера выделяемой для каждой очереди памяти и максимального числа выполняемых в каждой очереди запросов, каждый из которых получает для своего выполнения долю этой памяти. Ручная настройка WLM не позволит учитывать изменения рабочей нагрузки и требует хорошего понимания того, как ваши запросы используют ресурсы. Автоматическая настройка WLM в Amazon Redshift позволяет не задумываться о настройке использования памяти и параллельных операций для очередей. В этом режиме параллельные операции контролируются динамически для оптимизации пропускной способности. Вы также можете определить приоритеты запросов, чтобы распределять ресурсы с учетом важности рабочих нагрузок для бизнеса. Автоматическая настройка WLM также предоставляет мощные инструменты для управления рабочей нагрузкой. Приоритеты очередей позволяют определить приоритеты для выполнения рабочих нагрузок, чтобы некоторые из них в Amazon Redshift выполнялись в более комфортной среде, например получали больше ресурсов в период высокой нагрузки для стабильного поведения очередей. Правила мониторинга очередей позволяют управлять непредвиденными ситуациями, например обнаруживать дорогие или неконтролируемые запросы и не позволять им забирать себе все ресурсы системы. Вот основные аспекты, которые позволяют повышать производительность при автоматической настройке WLM с адаптивной параллельной обработкой: правильное выделение памяти, устранение статического распределения памяти между очередями, повышение пропускной способности.

Amazon Redshift Advisor предоставляет специализированные рекомендации по повышению производительности и оптимизации расходов путем анализа рабочей нагрузки и показателей использования кластера. Войдите в консоль Amazon Redshift, чтобы просмотреть рекомендации Advisor. Дополнительную информацию см. в разделе рекомендаций Amazon Redshift Advisor.

Вопрос. Как начать работу с Amazon Redshift?

Вы можете всего за несколько щелчков мыши в Консоли управления AWS начать отправлять запросы к данным. Вы можете использовать предварительно загруженные примеры данных, в том числе наборы данных для сравнительного тестирования TPC-H, TPC-DS и другие примеры запросов, которые позволят почти мгновенно начать работу. Вы можете создавать базы данных, схемы, таблицы, а также загружать данные из общих хранилищ данных Amazon S3 и Amazon Redshift или восстанавливать состояние из уже существующего снимка состояние подготовленного кластера Amazon Redshift. Вы также можете создавать прямые запросы к данным в озере данных Amazon S3, используя Parquet, ORC и другие открытые форматы, или обращаться к данным в операционных базах данных Amazon Aurora, Amazon RDS PostgreSQL и MySQL.

Чтобы начать работу с Amazon Redshift Serverless, щелкните «Начало работы с Amazon Redshift» и создайте запрос к данным. Amazon Redshift Serverless автоматически масштабируется при любом увеличении рабочих нагрузок.

Вопрос. Может ли кто-то рассказать подробнее об Amazon Redshift и помочь с подключением?

Ответ. Да, специалисты Amazon Redshift готовы ответить на вопросы и обеспечить поддержку. Напишите нам, и мы свяжемся с вами в течение одного рабочего дня, чтобы рассказать, как AWS может помочь вашей организации.

Вопрос. Что такое управляемое хранилище Amazon Redshift?

Управляемое хранилище Amazon Redshift доступно с типами узлов RA3 и в бессерверной конфигурации. Оно позволяет масштабировать и оплачивать вычислительные ресурсы и хранилище независимо друг от друга. Поэтому размер кластера можно устанавливать в соответствии с потребностями задачи вычисления. Оно автоматически использует высокопроизводительное локальное хранилище на твердотельном накопителе в качестве кэша первого уровня 1 и использует такие средства оптимизации, как температура блока данных, время создания блоков данных и шаблоны рабочей нагрузки. Это обеспечивает высокую производительность при возможном автоматическом масштабировании хранилища в Amazon S3 без необходимости каких-либо действий.

Вопрос. Как использовать управляемое хранилище сервиса Amazon Redshift?

Если вы уже используете узлы Amazon Redshift Dense Storage или Dense Compute, с помощью эластичного изменения размера вы можете обновить существующие кластеры до нового вычислительного инстанса RA3. Amazon Redshift Serverless и кластеры на основе инстансов RA3 автоматически используют для хранения данных хранилище под управлением Redshift. Для использования этой возможности не требуется никаких действий, кроме применения Amazon Redshift Serverless или инстансов RA3.

Вопрос. Что такое Amazon Redshift Spectrum?

Amazon Redshift Spectrum – это возможность сервиса Amazon Redshift, которая позволяет выполнять запросы к вашему озеру данных в Amazon S3 без загрузки или выполнения ETL-операций. При отправке SQL-запроса он поступает на адрес Amazon Redshift, и этот сервис генерирует и оптимизирует план запроса. Amazon Redshift определяет, какие данные являются локальными, а какие находятся в Amazon S3, генерирует план минимизации объема данных S3, которые необходимо прочитать, и запрашивает исполнителей Amazon Redshift Spectrum из общего пула ресурсов, чтобы прочитать и обработать данные из S3.

Вопрос. Для каких случаев мне стоит рассмотреть использование инстансов RA3?

Выбор типов узлов RA3 может быть правильным в следующих случаях.

  • Если вам требуется гибко масштабировать и оплачивать вычислительные ресурсы отдельно от хранилища.
  • Если вы используете запросы по малой части от общего объема данных.
  • Если объем данных быстро растет или будет быстро расти.
  • Если сам нужно гибко изменять размер кластера с учетом текущих потребностей.

По мере роста объема данных (до петабайтов) параллельно растет и объем принимаемых в Amazon Redshift данных. Возможно, вам уже нужен более экономичный способ анализа огромных данных.

Новые инстансы Amazon Redshift RA3 с управляемым хранилищем позволяют выбирать число узлов в зависимости от потребностей в производительности и оплачивать только реально используемый объем управляемого хранилища. Это позволяет вам гибко выбирать размер кластера RA3 в зависимости от объема ежедневно обрабатываемых данных, не повышая затраты на хранилище. Инстансы RA3 основаны на AWS Nitro System, используют высокопрозиводительные диски SSD для данных горячего уровня и Amazon S3 для данных холодного уровня, что позволяет получить простое в использовании экономичное хранилище с огромной производительностью для запросов.

Вопрос. В каких случаях стоит использовать сервис Amazon Redshift, а в каких – Amazon RDS? 

Как Amazon Redshift, так и Amazon Relational Database Service (RDS) позволяют работать в облаке с обычными реляционными базами данных без необходимости администрирования базы данных. Клиенты обычно используют базы данных Amazon RDS для рабочих нагрузок, связанных с обработкой онлайн-транзакций (OLTP), в то время как Amazon Redshift чаще используется для создания отчетов и аналитики. Для рабочих нагрузок OLTP требуется быстрое выполнение запроса конкретной информации и поддержка транзакций, таких как вставка, обновление и удаление. Такие операции лучше всего выполнять в сервисе Amazon RDS. Благодаря возможности масштабирования и использованию ресурсов множества узлов, а также различных средств оптимизации Amazon Redshift обеспечивает на порядок большую производительность по сравнению с традиционными базами данных при выполнении задач аналитики и создании отчетов на основе огромных наборов данных. Сервис Amazon Redshift позволяет эффективно выполнять горизонтальное масштабирование по мере роста объема данных и сложности запросов, а также работать с отчетами и аналитикой без снижения производительности рабочих нагрузок, связанных с OLTP. С помощью новой возможности федеративных запросов в Amazon Redshift теперь можно без труда выполнять запросы к данным в сервисах баз данных Amazon RDS или Aurora.

Вопрос. В каких случаях стоит использовать сервис Amazon Redshift или Redshift Spectrum, а в каких – Amazon EMR?

Сервис Amazon EMR будет полезен, если для обработки и анализа особо крупных наборов данных на платформах для обработки больших данных (например, Apache Spark, Hadoop, Presto или Hbase) применяется собственный код. Сервис Amazon EMR предоставляет пользователю полный контроль над конфигурацией кластеров и устанавливаемым на них программным обеспечением.

Хранилища данных типа Amazon Redshift предназначены для совершенно другого типа аналитики. Такие хранилища данных предназначены для сбора данных из множества различных источников, например систем инвентаризации, финансовых систем и систем розничных продаж. Чтобы обеспечить единообразную точность отчетов по всей компании, хранилища данных сохраняют информацию в тщательно структурированном виде. При этом правила обеспечения непротиворечивости данных встраиваются непосредственно в таблицы баз данных. Amazon Redshift – это оптимальный сервис для выполнения комплексных запросов к объемным наборам структурированных и частично структурированных данных и обеспечения высочайшей производительности.

Возможность Redshift Spectrum отлично подходит для выполнения запросов к данным в Amazon Redshift и S3, однако это не лучший вариант для запросов, которые компании обычно выполняют с использованием платформ обработки, таких как Amazon EMR. Возможности сервиса Amazon EMR гораздо шире, чем выполнение обычных SQL‑запросов. Amazon EMR – это управляемый сервис, который позволяет обрабатывать и анализировать чрезвычайно большие наборы данных на полностью настраиваемых кластерах с использованием самых последних версий популярных платформ для работы с большими данными, включая Spark, Hadoop и Presto. Эта платформа позволяет выполнять широкий спектр задач по горизонтальному масштабированию данных для приложений в таких областях применения, как машинное обучение, анализ графов, а также преобразование и потоковая передача данных. Кроме того, Amazon EMR можно использовать для решения практически любых задач, которые можно представить в виде кода.

Redshift Spectrum можно использовать вместе с EMR. В Redshift Spectrum использован тот же подход для хранения определений таблиц, что и в Amazon EMR. Redshift Spectrum также может поддерживать формат Apache Hive Metastore, который используется в Amazon EMR для определения месторасположения данных и определений таблиц. Если используется Amazon EMR и уже имеется Hive Metastore, нужно просто настроить кластер Amazon Redshift на его использование. После настройки можно выполнять запросы к этим данным одновременно с выполнением заданий Amazon EMR. Таким образом, если для обработки большого хранилища данных используется EMR, одновременно можно использовать Redshift Spectrum для выполнения запросов к этим данных, не нарушая работу Amazon EMR.

Сервисы запросов, хранилища данных и платформы комплексной обработки данных имеют свои сферы применения и используются для разных целей. Остается просто выбрать подходящий инструмент для конкретной задачи.

Вопрос. В каких случаях лучше использовать Amazon Athena, а в каких – Amazon Redshift Spectrum?

Amazon Athena – это интерактивный сервис запросов, позволяющий просто анализировать данные в хранилище Amazon S3 с помощью стандартного SQL. Сервис Athena очень прост в использовании. Просто укажите данные в S3, задайте схему и выполняйте запросы, используя стандартные средства SQL.

Redshift Spectrum – это специальная возможность Amazon Redshift. Если вам нужно с максимальной производительностью анализировать некоторое подмножество часто используемых данных и требуется Соглашение об уровне обслуживания, мы рекомендуем выбрать Amazon Redshift. Использование Redshift Spectrum позволяет распространить запросы Amazon Redshift на менее часто используемые данные, размещенные в озере данных Amazon S3. Благодаря этому данные можно хранить где угодно и в любом формате – они всегда будут доступны для обработки.

Вопрос. Почему целесообразнее использовать Amazon Redshift, а не собственный кластер хранилища с массово‑параллельной обработкой данных в сервисе Amazon EC2?

Amazon Redshift автоматически выполняет множество трудоемких задач, включая перечисленные ниже. При использовании собственного хранилища данных все это придется выполнять самостоятельно.
  • Настройка. При работе с Amazon Redshift достаточно создать кластер хранилища данных, задать схему данных и приступить к загрузке данных и созданию запросов. Управлять выделением ресурсов, настройкой или корректировкой не требуется.
  • Надежное хранение данных. Amazon Redshift реплицирует данные в кластере хранилища и постоянно сохраняет их резервные копии в сервисе Amazon S3, обладающем уровнем надежности 99,999999999 %. Amazon Redshift осуществляет зеркальное дублирование данных каждого накопителя на другие узлы того же кластера. В случае сбоя одного из накопителей сервис Redshift восстанавливает его данные из реплик, а тем временем выполнение запросов продолжается с незначительной задержкой. В случае сбоя одного или нескольких узлов Amazon Redshift автоматически выделяет новые узлы и начинает восстановление данных с других накопителей этого кластера или из Amazon S3. В первую очередь восстанавливаются наиболее часто запрашиваемые данные, поэтому работа часто выполняемых запросов будет быстро восстановлена.
  • Масштабирование. Если требуется изменить емкость или производительность, добавить или удалить узлы из кластера хранилища данных Amazon Redshift можно одним вызовом API или за пару щелчков мышью в Консоли управления AWS. Кроме того, действия по масштабированию и изменению емкости можно запланировать, воспользовавшись специальным планировщиком в Amazon Redshift.
  • Автоматическая установка обновлений и исправлений ПО. Amazon Redshift автоматически устанавливает обновления и исправления ПО хранилища данных, позволяя клиенту сосредоточиться на работе с приложением, а не на административных вопросах.
  • Возможность запросов в масштабе эксабайтов. Amazon Redshift Spectrum позволяет выполнять запросы к данным в Amazon S3, объем которых измеряется эксабайтами. Загрузка данных или ETL‑операции не требуются. Даже если в Amazon Redshift не хранятся данные, можно использовать Redshift Spectrum для выполнения запросов к наборам данных в Amazon S3 объемом несколько эксабайтов.

Вопрос. Как создать кластер хранилища данных Amazon Redshift и получить доступ к нему?

Кластер хранилища данных Amazon Redshift можно без труда создать с помощью Консоли управления AWS или интерфейсов Amazon Redshift API. Начать можно с одного узла и хранилища размером 160 ГБ, а затем постепенно расширить его до нескольких петабайтов и даже более, выполнив несколько щелчков мышью в Консоли AWS или один вызов интерфейса API.

Конфигурация с одним узлом, которая лучше всего подходит для рабочих нагрузок оценки, разработки и тестирования, позволяет быстро и недорого начать работу с Amazon Redshift, а затем увеличивать количество узлов по мере необходимости. В зависимости от типа узла кластер хранилища данных Redshift может содержать от 1 до 128 вычислительных узлов. При использования узлов последнего поколения RA3 их должно быть не менее двух. Подробные сведения см. в документации.

В конфигурацию со множеством узлов должен входить ведущий узел, управляющий клиентскими подключениями и принимающий запросы, и два вычислительных узла, на которых хранятся данные и выполняются запросы и вычисления. Ведущий узел имеет такой же размер, как и вычислительный узел. Он предоставляется автоматически, платить за него не требуется.

Достаточно указать желаемую зону доступности (необязательно), количество узлов и их типы, имя и пароль основного узла, группы безопасности, срок хранения резервных копий и другие параметры системы. Когда нужная конфигурация будет выбрана, Amazon Redshift выделит запрошенные ресурсы и создаст кластер хранилища данных.

После создания кластера хранилища данных можно получить его адрес, а также строку подключения JDBC и ODBC, воспользовавшись Консолью управления AWS или интерфейсами Redshift API. Полученная строка подключения может быть использована при работе с любым привычным инструментом баз данных или бизнес‑аналитики, а также языком программирования. Для выполнения сетевых запросов к созданному кластеру хранилища данных потребуется авторизация. Подробные инструкции см. в руководстве по началу работы.

Вопрос. Какие задачи позволяет решить Amazon Redshift Spatial?

Amazon Redshift Spatial предоставляет аналитику на основе местоположения для глубокого анализа ваших данных. Он без проблем интегрирует пространственные и деловые данные, позволяя выполнять по ним аналитику и принимать решения. Amazon Redshift получил в ноябре 2019 года встроенную поддержку обработки пространственных данных, для которой применяются полиморфный тип данных GEOMETRY и несколько важнейших пространственных функций SQL. Теперь мы поддерживаем тип данных GEOGRAPHY, а библиотека пространственных функций SQL выросла в размере до 80 функций. Мы поддерживаем все самые распространенные пространственные типы данных и стандарты, в том числе Shapefiles, GeoJSON, WKT, WKB, eWKT и eWKB. Подробную информацию вы найдете на странице документации или в учебном пособии по пространственным вычислениям в Amazon Redshift.

Вопрос. Что такое улучшение производительности холодных запросов, и что в этом направлении предлагает Amazon Redshift?

Amazon Redshift может в 2 раза быстрее обрабатывать запросы, если их можно заранее скомпилировать. Такое повышение производительности позволяет улучшить работу запросов при создании нового кластера Redshift, подключить новую рабочую нагрузку к существующему кластеру или к старому кластеру после обновления программного обеспечения. Такое улучшение производительности предоставляется без дополнительных затрат и не требует выполнения каких-либо действия для включения в кластерах.

При использовании улучшения производительности холодных запросов компиляция запросов масштабируется в бессерверном сервисе компиляции до уровня, превышающего вычислительные возможности головного узла кластера. Amazon Redshift поддерживает кэш неограниченного размера для хранения скомпилированных объектов, что позволяет повысить число попаданий в кэш до уровня от 99,60 % до 99,95 % для всех критически важных запросов, поступающих в Amazon Redshift.

При отправке запросов в Amazon Redshift система обработки запросов компилирует этот запрос в машинный код и передает его на узлы кластера. Скомпилированный код выполняется быстрее, поскольку позволяет обойтись без интерпретатора. У нового кластера кэш кода пуст, а после обновления существующего кластера до нового выпуска программного обеспечения этот кэш принудительно очищается, поэтому для запросов требуется дополнительный этап компиляции. Это означает, что задержки при выполнении запросов могут существенно колебаться и даже выйти за пределы допустимых для некоторых рабочих нагрузок. В новом обновлении применяется неограниченный кэш, что снижает необходимость в компиляции кода. А когда она все-таки потребуется, специальная ферма компиляции выполняет этот процесс параллельно с основной рабочей нагрузкой, повышая скорость обработки. Достижимый прирост производительности зависит от сложности и уровня параллельных операций в вашей рабочей нагрузке. Чтобы подробнее узнать о компиляции кода, изучите раздел Query Processing в Database Developer Guide.

Бессерверные технологии

Вопрос. Что такое Amazon Redshift Serverless (ознакомительная версия)?

Amazon Redshift Serverless (ознакомительная версия) – это бессерверный вариант сервиса Amazon Redshift, который позволяет за несколько секунд запускать и масштабировать аналитические рабочие нагрузки без настройки и управления инфраструктурой хранилища данных. При использовании Redshift Serverless каждый пользователь, будь то аналитик данных, разработчик, бизнесмен или специалист по работе с данными, получит ценные сведения по своим данным сразу же, как только загрузит эти данные в хранилище данных и начнет выполнять запросы по ним.

Вопрос. Как начать работу с Amazon Redshift Serverless (ознакомительной версией)?

Всего несколько щелчков мыши в Консоли управления AWS позволяют выбрать действие «настройка Amazon Redshift Serverless» и немедленно начать обработку запросов. Вы получите заранее подготовленные примеры наборов данных, например с данными о погоде, о переписи населения и с данными для сравнительного тестирования производительности, а также примеры запросов для немедленного получения аналитических данных. Вы можете создавать базы данных, схемы, таблицы, а также загружать данные из общих хранилищ данных Amazon S3 и Amazon Redshift или восстанавливать состояние из уже существующего снимка состояние подготовленного кластера Redshift. Вы также можете создавать прямые запросы к данным в озере данных Amazon S3, используя Parquet, ORC и другие открытые форматы, или обращаться к данным в операционных базах данных Amazon Aurora, Amazon RDS PostgreSQL и MySQL.

Вопрос. Какие возможности предоставляет Amazon Redshift Serverless (ознакомительная версия)?

Amazon Redshift Serverless предлагает массу преимуществ, включая следующие.

  • Возможность быстро получить полезные данные, не заботясь о подготовке кластеров и управлении ими.
  • Интеллектуальное автоматическое масштабирование на основе потребностей рабочих нагрузок без выделения чрезмерного объема ресурсов.
  • Постоянная доступность сервисов для масштабирования и обновления версий.
  • Быстрая обработка запросов в стандартной конфигурации для данных, загруженных в хранилище данных, для данных в открытых форматах из озера данных Amazon S3 и для данных в операционных базах данных, без специальной настройки баз данных.
  • Богатые аналитические возможности SQL, надежность и транзакционные гарантии Amazon Redshift.
  • Низкая стоимость благодаря тому, что вы оплачиваете только используемую мощность и избавляетесь от сложности хранилища данных.

Вопрос. Какие преимущества дает использование Amazon Redshift Serverless (ознакомительной версии)? 

Если у вас нет опыта управления хранилищем данных, можете даже не изучать особенности установки, настройки, администрирования кластеров или тонкой настройки хранилища данных. Вместо этого сразу займитесь получением важных аналитических выводов по вашим данным или улучшением характеристик основного бизнеса на основе этих данных. Вы оплачиваете только то, что реально используете, сохраняя контроль над расходами. Вы сохраняете все преимущества непревзойденной производительности Amazon Redshift, богатых возможностей SQL, беспроблемной интеграции с озерами данных и операционными хранилищами данных, и даже встроенных возможностей прогнозной аналитики и совместного использования данных. Если вам потребуется тонкая настройка работы хранилища данных, вы можете самостоятельно распределить кластеры Redshift.

Вопрос. Как Amazon Redshift Serverless (ознакомительная версия) работает с другими сервисами AWS?

Вы можете сохранить все богатые аналитические возможности Amazon Redshift, такие как сложные объединения, прямые запросы к данным в озере данных Amazon S3 и в операционных базах данных, материализованные представления, хранимые процедуры, поддержка частично структурированных данных и машинное обучение, а также высокую производительность в большом масштабе. Все связанные сервисы, с которыми интегрируется Amazon Redshift (такие как Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation и AWS Glue), продолжат работать с Amazon Redshift Serverless.

Вопрос. Какие задачи я могу решать с помощью Amazon Redshift Serverless (ознакомительной версии)?

Вы можете по-прежнему применять все сценарии работы с аналитикой. Простой рабочий процесс начала работы, автоматическое масштабирование и возможность оплаты по мере использования сделают ваш опыт работы с Amazon Redshift Serverless еще более простым и экономичным в любом сценарии: при быстром развертывании сред разработки и тестирования, для специальной аналитической обработки, для рабочих нагрузок с непредсказуемыми и сильно изменяющимися потребностями в вычислительных ресурсах или для рабочих нагрузок с нестабильным режимом работы.

Вопрос. Чем Amazon Athena отличается от Amazon Redshift Serverless?

Сервисы Amazon Athena и Amazon Redshift решают разные задачи и предназначены для разных сценариев, хотя и оба являются бессерверными. Хранилище данных типа Amazon Redshift лучше всего подходит для тех случаев, когда вам требуется оптимальное соотношение цены и производительности для сложных рабочих нагрузок бизнес-аналитики с высокими требованиями к производительности и масштабируемости. Amazon Redshift также предоставляет возможность запросов по данным, сохраненным в Amazon S3, объединяя их с данными в основном хранилище данных. В свою очередь, Athena лучше подходит для интерактивного анализа по любым хранилищам данных, не требуя выполнять прием и форматирование данных. В Athena анализ данных отделен от хранилища, что позволяет вам гибко применять другие инструменты и сервисы, например Spark, Flink или Kafka, для дополнительного обогащения и более подробной обработки тех же данных, которые доступны для анализа в Athena.

Совместное использование данных

Вопрос. Что такое совместное использование данных в Amazon Redshift?

Совместное использование данных в Amazon Redshift позволяет предоставить доступ к данным в Amazon Redshift для безопасного и легкого чтения из других кластеров Redshift, размещенных в том же или другом аккаунте AWS, с использованием сервисов аналитики AWS по озеру данных. Совместное использование данных позволяет мгновенно выполнять запросы по интерактивным данным в любом кластере Redshift, к которому у вас есть права доступа, не сталкиваясь с дополнительными сложностями и задержками, связанными с копированием или перемещением данных. Amazon Redshift позволяет предоставлять общий доступ к интерактивным данным другим организациям и другим аккаунтам, даже размещенным в другом Регионе.

Вопрос. Для чего можно применять совместное использование данных?

Ниже приведены основные примеры использования.

  • Центральный кластер ETL предоставляет общий доступ к данным в кластерах бизнес-аналитики, чтобы обеспечить изоляцию рабочих нагрузок чтения и возможность взимать с них плату за доступ.
  • Поставщик данных предоставляет общий доступ к данным внешним потребителям.
  • Единые наборы данных (о клиентах, продуктах и так далее) совместно используются несколькими бизнес-подразделениями и участвуют в подготовке аналитики и исследованиях данных в пределах всей организации.
  • Децентрализация управления хранилищем данных для упрощения процессов.
  • Совместное использование данных в средах разработки, тестирования и в рабочей среде.
  • Доступ к данным Redshift из другого аналитического сервиса AWS.

Вопрос. Что такое запросы между базами данных в Amazon Redshift?

С помощью запросов между базами данных вы можете легко получать и объединять данные из любой базы данных Redshift, к которой имеете доступ, независимо от того, к какой именно базе данных вы подключены. Вы можете собирать данные из локальных баз в кластере и общих наборов данных, доступных через удаленные кластеры. Запросы между базами данных позволяют гибко организовывать данные в виде отдельных баз данных для поддержки многопользовательских систем.

Вопрос. Что такое AWS Data Exchange for Amazon Redshift?

AWS Data Exchange for Amazon Redshift позволяет за считаные минуты в AWS Data Exchange находить данные сторонних организаций, выполнять по ним запросы в хранилище данных Redshift и подписываться на них. Вы также можете легко распространять лицензии на данные в Amazon Redshift через AWS Data Exchange. Доступ предоставляется автоматически, когда пользователь оформляет подписку на ваши данные, и автоматически отзывается по окончании срока действия подписки. Также автоматически создаются счета к оплате, а платежи обрабатываются и распределяются через систему AWS. Эта возможность позволяет быстро выполнять запросы по данным сторонних организаций, анализировать их и создавать приложения на их основе.

Вопрос. Кто основные пользователи AWS Data Exchange?

AWS Data Exchange упрощает для всех клиентов AWS безопасный обмен данными и использование данных сторонних организаций на платформе AWS. Аналитики данных, специалисты по работе с данными, менеджеры продуктов, менеджеры портфелей, количественные аналитики, специалисты по клиническим исследованиям и разработчики из любой отрасли всегда ищут возможности применить новые данные для анализа, обучения моделей машинного обучения и принятия решений на основе данных. Но пока не существует единого расположения для поиска данных от разных поставщиков, а также единых стандартов предоставления таких данных. Это означает, что всем приходится мириться с разрозненным набором физических носителей, учетных данных для доступа к FTP и обращений к узкоспециализированным API. С другой стороны, многие организации готовы предоставить доступ к своим данным для исследований и коммерческих целей, но не могут себе позволить создание и поддержку систем и технологий предоставления данных, управления правами и платежами. Все это дополнительно затрудняет получение ценной информации.

Вопрос. В каких регионах AWS доступен AWS Data Exchange?

AWS Data Exchange поддерживает единый и глобально доступный каталог продуктов, предоставляемых поставщиками. Вы можете использовать этот единый каталог в любом регионе. Базовые ресурсы для продукта (наборы данных, версии и другие ресурсы) располагаются на региональном уровне и вы управляете ими программными средствами или через консоль AWS Data Exchange в конкретном Регионе AWS. Список регионов AWS, в которых в настоящее время доступен AWS Data Exchange, см. в таблице доступности сервисов AWS по регионам.

Вопрос. В чем разница между AWS Data Exchange и Реестром открытых данных на AWS?

Существует пять важнейших различий между AWS Data Exchange и Реестром открытых данных на AWS.

  • Во-первых, AWS Data Exchange поддерживает и бесплатные, и коммерческие продукты, позволяя начислять любые применимые платежи через обычный счет AWS. Реестр открытых данных на AWS предоставляет доступ к специально отобранному списку открытых и бесплатных наборов данных. 
  • Во-вторых, AWS Data Exchange требует явным образом предоставить согласие с условиями подписки на доступ к данным, которые определяются поставщиком данных в момент публикации своего продукта. Для данных Реестр открытых данных на AWS не предусмотрено специальных условий использования. 
  • В-третьих, вы обязаны всегда использовать API AWS Data Exchange для копирования данных из AWS Data Exchange в требуемое расположение Amazon S3. Наборы данных в Реестре открытых данных на AWS доступны через обычные API S3. 
  • В-четвертых, AWS Data Exchange предоставляет поставщикам данных отчеты с подробным описанием действий с подписками за день, неделю и месяц. В Реестре открытых данных на AWS поставщикам данных приходится самостоятельно анализировать журналы действий и отслеживать их использование. 
  • И наконец, чтобы стать поставщиком в AWS Data Exchange, клиенты должны иметь определенную квалификацию и зарегистрироваться как поставщик данных на AWS Marketplace. Только после этого они получают право предлагать как бесплатные, так и коммерческие продукты. Любой желающий может добавить данные в Реестр открытых данных на AWS, используя репозиторий GitHub, или принять участие в Программе открытых наборов данных AWS, чтобы взять на себя расходы на хранение и передачу по сети для выбранных им открытых наборов данных.

Вопрос. Что из себя представляет редактор запросов Amazon Redshift версии 2?

Редактор запросов Amazon Redshift версии 2 представляет собой веб-приложение клиента SQL, которое можно использовать для создания и выполнения запросов по данным в хранилище данных Redshift. Вы можете визуализировать результаты запросов в виде графиков и предоставлять коллегам общий доступ к запросам для совместной работы. Редактор запросов версии 2 предлагает несколько интересных возможностей, таких как просмотр и изучение нескольких баз данных, внешние таблицы, представления, хранимые процедуры и определяемые пользователем функции. Здесь есть несколько мастеров, помогающих создавать схемы, таблицы и определяемые пользователем функции. Также есть визуальный интерфейс мастера загрузки данных в Amazon Redshift из Amazon S3. Этот редактор упрощает совместную работу с сохраненными запросами и управление ими. Вы также можете быстрее получить полезные данные, одним щелчком открывая визуализацию результатов. В последнем выпуске ознакомительной версии аналитики данных получили возможность предоставлять свои запросы в общий доступ и организовывать совместную работу через единый интерфейс Query Doc, в котором можно внедрять фрагменты кода и запросы SQL, аннотации, результаты и визуализации.

Вопрос. Для чего можно использовать редактор запросов версии 2?

Аналитикам данных, специалистам по работе с данными и инженерам данных новый редактор запросов версии 2 позволяет через веб-интерфейс просматривать и загружать данные, создавать схемы и таблицы, запросы SQL и хранимые процедуры, а также определяемые пользователем функции. Вы можете здесь же, не покидая редактора, выполнять визуальный анализ данных. Кроме того, вы можете оформить подписку на запросы с длительным выполнением или для получения несложных отчетов, например итогов за каждый день.

Вопрос. Какие возможности имеет редактор запросов версии 2?

Редактор запросов версии 2 позволяет делать следующее.

  • Визуальное создание схем и таблиц, загрузка данных из Amazon S3.
  • Создание запросов и быстрое получение полезных результатов благодаря интуитивно удобному редактору SQL-запросов.
  • Выполнение анализа результатов и скачивание этих результатов на локальный компьютер в форматах JSON/CSV.
  • Автоматизированное управление версиями запросов.
  • Совместная работа с другими пользователями с общим доступом к запросам, анализу и результатам.
  • Выполнение запросов в фоновом режиме даже при закрытом окне браузера.

Масштабируемость и параллельное выполнение

Вопрос. Как изменить размер и производительность кластера хранилища данных Amazon Redshift?

Чтобы повысить производительность запросов или скорость отклика процессора, памяти или операций ввода‑вывода, можно увеличить количество узлов в кластере хранилища данных. Для этого используйте возможность эластичного изменения кластера в Консоли управления AWS или API ModifyCluster. Изменения параметров кластера вступают в действие мгновенно. Метрики использования вычислительных ресурсов, хранилища и трафика чтения и записи данных в кластере хранилища Redshift доступны для бесплатного просмотра посредством Консоли управления AWS или API Amazon CloudWatch. Можно также создать собственные метрики с помощью возможностей Amazon CloudWatch по созданию пользовательских метрик.

С возможностью параллельного масштабирования можно обслуживать практически неограниченное количество одновременно работающих пользователей и выполняемых запросов, не теряя производительности при действиях с запросами. При включенной возможности параллельного масштабирования Amazon Redshift автоматически увеличивает объем ресурсов кластера, когда увеличивается очередь запросов.

С помощью Amazon Redshift Spectrum можно запускать несколько кластеров Redshift, имеющих доступ к одним и тем же данным в Amazon S3. Можно применять разные кластеры для разных примеров использования. Например, один кластер можно использовать для стандартных отчетов, а другой – для исследовательских запросов. Отдел маркетинга может использовать собственные кластеры, которые отличаются от кластеров операционной группы. Redshift Spectrum автоматически распределяет выполнение запроса нескольким исполнителям Redshift Spectrum из общего пула ресурсов для считывания и обработки данных из Amazon S3 и возвращает результаты в кластер Redshift для дальнейшей обработки.

Вопрос. Доступен ли кластер хранилища данных во время масштабирования?

Это зависит от ряда факторов. При использовании функции параллельного масштабирования кластер может выполнять операции считывания и записи в полном объеме. При использовании функции эластичного изменения размера кластер становится недоступным в течение 4–8 минут (времени, необходимом для изменения размера). При использовании функции эластичности управляемого хранилища Redshift RA3 кластер остается полностью доступным, а данные автоматически перемещаются между управляемым хранилищем и вычислительными узлами.

Вопрос. Когда следует использовать параллельное масштабирование, а когда – совместное использование данных?

Совместное использование данных и параллельное масштабирование хорошо дополняют друг друга. Благодаря параллельному масштабированию Amazon Redshift может автоматически масштабировать одну или несколько рабочих нагрузок в одном кластере с целью обработки большого количества параллельных операций и запросов. Amazon Redshift эластично и автоматически увеличивает пропускную способность за считаные секунды, что позволяет справляться со всплесками активности пользователей, а затем снижает ее, когда активность спадает. Приложения продолжают взаимодействовать с Amazon Redshift через единый адрес приложения. Функция совместного использования данных позволяет масштабировать систему с учетом разных рабочих нагрузок за счет поддержки платформы с несколькими кластерами и аккаунтами. Это обеспечивает изоляцию и отслеживаемость рабочих нагрузок, упрощает сотрудничество между группами сотрудников в децентрализованных средах и позволяет предлагать модель данных как услуги внутренним и внешним заинтересованным сторонам. Включить параллельное масштабирование можно как в кластерах производителей, так и в кластерах потребителей.

Вопрос. Как управлять ресурсами, чтобы обеспечить кластеру Amazon Redshift стабильно высокую производительность в периоды нарастания числа параллельных операций?

Количество параллельных запросов к типичному хранилищу данных значительно меняется на протяжении дня. С точки зрения экономии целесообразнее выделять дополнительные ресурсы лишь на период, когда они необходимы, а не устанавливать общий объем ресурсов в расчете на пиковый спрос. В Amazon Redshift эта задача решается автоматически.

Параллельное масштабирование – это возможность Amazon Redshift, которая обеспечивает стабильно высокую производительность операций даже при выполнении тысяч параллельных запросов. За счет этой возможности Amazon Redshift в периоды высокого спроса автоматически выделяет временные ресурсы в нужном объеме. Amazon Redshift автоматически перенаправляет запросы на масштабируемые кластеры, которые выделяются за считаные секунды и сразу же приступают к обработке данных.C Amazon Redshift вы оплачиваете только то, что фактически используете.

Для большинства пользователей возможность параллельного масштабирования полностью бесплатна. Каждый кластер Amazon Redshift за сутки накапливает до одного часа бесплатных кредитов для параллельного масштабирования. Благодаря этому клиенты сервиса могут уверенно прогнозировать свои месячные расходы даже в периоды колебания спроса на проведение аналитики.

Вопрос: Что представляет собой возможность эластичного изменения размера и чем она отличается от параллельного масштабирования?

Эластичное изменение размера позволяет управлять производительностью отдельного кластера Redshift, в считаные минуты добавляя или удаляя узлы. Например, повышение ETL‑нагрузок в определенные часы в конце дня или месяца, связанные с подготовкой отчетов, может потребовать выделения дополнительных ресурсов Amazon Redshift для своевременного выполнение работы. В отличие от эластичного изменения размера, возможность параллельного масштабирования выделяет дополнительные кластерные ресурсы для увеличения общего количества параллельно выполняемых операций.

Вопрос: Могу ли я обращаться к кластерам параллельного масштабирования напрямую?

Нет. Кластеры параллельного масштабирования представляют собой большой пул масштабируемых ресурсов Amazon Redshift, к которым клиенты не имеют прямого доступа.

Интеграция и загрузка данных

Вопрос. Как загрузить данные в хранилище данных Amazon Redshift?

В Amazon Redshift можно загрузить данные из целого ряда источников, в том числе из Amazon S3, Amazon RDSAmazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline, а также с любого хоста Amazon EC2 или локального хоста, если они поддерживают SSH‑подключение. Amazon Redshift параллельно загружает данные на каждый из вычислительных узлов, чтобы обеспечить максимальную скорость загрузки данных в кластер хранилища. Клиенты могут подключиться к Amazon Redshift с помощью ODBC или JDBC и использовать SQL‑команды INSERT для вставки данных. Обратите внимание: этот способ медленнее, чем загрузка из хранилища S3 или DynamoDB, так как последняя выполняется параллельно на каждый из вычислительных узлов, а загрузка с помощью операторов SQL INSERT происходит посредством единственного ведущего узла. Подробнее о загрузке данных в Amazon Redshift см. в Руководстве по началу работы.

Вопрос. Как загрузить данные из существующих источников Amazon RDS, Amazon EMR, Amazon DynamoDB и Amazon EC2 в Amazon Redshift?

С помощью команды COPY можно запустить параллельную загрузку данных в Amazon Redshift напрямую из Amazon EMR, Amazon DynamoDB или с любого хоста с поддержкой SSH. Amazon Redshift Spectrum также позволяет загружать данные из Amazon S3 в кластер с помощью простой команды INSERT INTO. Так вы сможете загружать в кластер данные различных форматов, таких как Parquet и ORC. Обратите внимание, что при использовании этого подхода будет начисляться плата по тарифам Redshift Spectrum на основании объема обработанных данных из Amazon S3. 

Сервис AWS Data Pipeline представляет собой высокопроизводительное, надежное и отказоустойчивое решение для загрузки данных из разных источников AWS, например Amazon RDS, в Redshift. С помощью AWS Data Pipeline можно задать источник данных и требуемые преобразования данных, а затем запустить готовый скрипт импорта для загрузки данных в Amazon Redshift. Кроме того, AWS Glue – это полностью управляемый ETL‑сервис, который позволяет без труда подготовить и загрузить данные для анализа. Создать и запустить ETL‑задание в AWS Glue можно за несколько щелчков мышью в Консоли управления AWS. Кроме того, ряд компаний, специализирующихся на извлечении, преобразовании и загрузке данных (ETL), сертифицировали свои решения для использования с Amazon Redshift, и многие из них предлагают бесплатные пробные версии, с помощью которых можно начать загрузку данных. Некоторые из этих возможностей дополнительно поддерживают глубокую интеграцию с консолью Redshift, что помогает проще обнаруживать и отслеживать конвейеры данных в Amazon Redshift из широкого ассортимента источников сторонних поставщиков.

Вопрос. Мне нужно загрузить большой объем начальных данных в хранилище Amazon Redshift. Чтобы загрузить их через Интернет, потребуется много времени. Как это лучше сделать?

С помощью сервиса AWS Snowball можно передавать данные в хранилище Amazon S3 с портативных устройств хранения. Кроме того, можно создать частное сетевое подключение между AWS и собственной сетью или центром обработки данных с помощью сервиса AWS Direct Connect. Для передачи данных доступны порты со скоростью соединения 1 Гбит/с или 10 Гбит/с.

Безопасность

Вопрос. Как Amazon Redshift обеспечивает безопасность данных?

Amazon Redshift поддерживает лучшую в отрасли систему безопасности с интеграцией AWS IAM, федерацией удостоверений для единого входа (SSO), многофакторной проверкой подлинности, контролем доступа на уровне столбцов, безопасностью на уровне строк, Виртуальным частным облаком Amazon (Amazon VPC) и предоставляет встроенную интеграцию AWS KMS для защиты данных во время передачи и хранения. Amazon Redshift обеспечивает безопасность данных при передаче и хранении с помощью стандартных отраслевых методов шифрования. Для обеспечения безопасности передаваемых данных Amazon Redshift использует подключения с поддержкой SSL между клиентским приложением и кластером хранилища данных Redshift. Для обеспечения безопасности хранимых данных при записи их на диск Amazon Redshift шифрует каждый блок по алгоритму AES‑256 с аппаратным ускорением. Это низкоуровневый процесс в подсистеме ввода‑вывода, позволяющий зашифровать все записываемые на диск данные, включая промежуточные результаты запросов. Резервное копирование блоков выполняется в их фактическом состоянии, что означает, что резервные копии также шифруются. По умолчанию сервис Amazon Redshift управляет ключами самостоятельно, но можно выбрать вариант управления ключами с помощью сервиса AWS Key Management Service. Все функции безопасности Amazon Redshift предоставляются без дополнительной оплаты. Redshift Spectrum поддерживает шифрование на стороне сервера (SSE) Amazon S3 с использованием в рамках аккаунта сервиса AWS Key Management Service (KMS) и управляемого ключа по умолчанию.

Вопрос. Поддерживает ли Redshift точное управление доступом, например безопасность на уровне столбцов?

Да, Amazon Redshift поддерживает управление доступом на основе ролей. Управление доступом на уровне строк позволяет назначать пользователю одну или несколько ролей, а также назначать системные и объектные привилегии по ролям. Можно использовать предопределенные системные роли: пользователь root, администратор баз данных, оператор и администраторы безопасности. Или можно создать свои собственные роли.

Вопрос. Поддерживает ли Amazon Redshift маскировку или токенизацию данных?

Определяемые пользователем функции (UDF) в AWS Lambda позволяют использовать функцию AWS Lambda в качестве определяемой пользователем функции в Amazon Redshift и вызывать ее в запросах Redshift SQL. Эта возможность позволяет создавать собственные расширения для SQL-запроса, чтобы обеспечить более тесную интеграцию с другими службами и продуктами сторонних производителей. Вы можете создавать UDF Lambda для включения внешней токенизации, маскировки данных, сохранения и удаления идентификационных данных за счет интеграции с такими поставщиками, как Protegrity, а также для организации или снятия защиты конфиденциальных данных на основе разрешений и групп пользователя в ходе обработки запроса.

Вопрос. Поддерживает ли Amazon Redshift систему единого входа?

Да. Клиенты, которые хотят использовать своих поставщиков корпоративных удостоверений, таких как Microsoft Azure Active Directory, службы федерации Active Directory, Okta, Ping Federate или других поставщиков удостоверений, совместимых с SAML, могут настроить Amazon Redshift для обеспечения единого входа.

Вопрос. Как Amazon Redshift поддерживает систему единого входа посредством Microsoft Azure Active Directory?

В кластер Amazon Redshift можно войти, используя удостоверения Microsoft Azure Active Directory (AD). Это позволяет войти в Redshift без дублирования удостоверений Azure Active Directory в Redshift.

Вопрос. Поддерживает ли Amazon Redshift многофакторную аутентификацию (MFA)?

Да. Многофакторную аутентификацию (MFA) можно использовать для дополнительной безопасности при аутентификации в кластере Amazon Redshift.

Вопрос. Можно ли использовать Amazon Redshift в облаке Amazon Virtual Private Cloud (Amazon VPC)?

Да. Amazon Redshift можно использовать в рамках конфигурации VPC. Amazon VPC дает возможность определять топологию виртуальной сети, очень напоминающую традиционную сеть, которая могла бы работать в локальном центре обработки данных. Это позволяет полностью контролировать доступ к кластеру хранилища данных Redshift. Redshift Spectrum можно использовать с кластером Redshift, который является частью VPC.

Amazon Redshift поддерживает управляемые адреса VPC (на основе AWS PrivateLink) для подключения кластера Redshift через VPC. Используя адрес, управляемый сервисом Amazon Redshift, вы сможете организовать частный доступ к хранилищу данных Redshift в канале VPC из клиентского приложения в другом канале VPC, который принадлежит тому же или другому аккаунту AWS и выполняется в локальной среде, без потребности в общедоступных IP-адресах и без выхода трафика в Интернет.

Вопрос. Могу ли я получить прямой доступ к вычислительным узлам Amazon Redshift?

Нет. Вычислительные узлы Amazon Redshift находятся в частном сетевом пространстве, и доступ к ним возможен только из ведущего узла кластера хранилища данных. Это обеспечивает дополнительный уровень безопасности для данных.

Вопрос. Поддерживает ли Redshift контроль доступа к базе данных на основе ролей? (Предварительное объявление)

Amazon Redshift в скором времени начнет поддерживать контроль доступа не основе ролей.

Надежность и доступность

Вопрос. Как сбой накопителя на одном из узлов повлияет на доступность и надежность кластера хранилища данных?

Amazon Redshift обнаружит сбой диска или узла и автоматически выполнит замену проблемного элемента. В кластерах Dense Compute (DC) и Dense Storage (DS2) данные хранятся прямо на вычислительных узлах, чтобы гарантировать высокую надежность данных. При замене такого узла все данные обновляются из зеркальной копии, сохраненной на другом узле.

Кластеры RA3 и бессерверный вариант Redshift такая проблема вовсе не затрагивает, так как все данные хранятся в Amazon S3 и попадают на локальный диск только в качестве элементов кэша. При замене такого узла все данные извлекаются из Amazon S3 обычным образом. Amazon S3 обеспечивает 99,9999 % надежности хранения данных. В случае сбоя нескольких узлов или всего вычислительного кластера в S3 сохраняется доступная актуальная копия данных, что позволяет восстановить кластер в той же или в другой зоне доступности без потери данных.

Кластер хранилища станет доступен для запросов и обновлений, как только новый узел будет выделен и добавлен к базе данных. Amazon Redshift мгновенно предоставляет узел для замены и загружает на него наиболее часто используемые данных из Amazon S3 на узлах RA3 и бессерверного сервиса, или из зеркальной копии на узлах DS2 и Amazon Dense Compute (DC2). Кластеры DC2 и DS2, состоящие из одного узла, не поддерживают репликацию данных. В случае сбоя накопителя для них требуется восстановление кластера из снимка состояния в хранилище S3. Кластеры RA3.XLPLUS с одним узлом можно восстановить без потери данных, используя сохраненные в S3 данные, с помощью AWS Support. В кластерах рабочей среды для повышения доступности рекомендуется использовать не менее двух узлов.

Вопрос. Как сбой одного из узлов повлияет на доступность и надежность кластера хранилища данных?

Amazon Redshift автоматически обнаружит и заменит отказавший узел кластера хранилища данных. Кластер хранилища станет доступен для запросов и обновлений, как только новый узел будет выделен и добавлен к базе данных. Amazon Redshift сразу же обеспечит его доступность и в первую очередь направит на него из хранилища S3 наиболее часто запрашиваемые данные, что позволит быстро возобновить выполнение запросов. Кластеры, состоящие из одного узла, не поддерживают репликацию данных. Для них в случае сбоя накопителя требуется восстановление кластера из снимка состояния в хранилище S3. В кластерах рабочей среды рекомендуется использовать не менее двух узлов.

Вопрос: Как на доступность и надежность кластера хранилища данных повлияет отключение зоны доступности, в которой он находится?

Если зона доступности вашего кластера хранилища данных Amazon Redshift станет недоступной, Amazon Redshift автоматически переместит кластер в другую зону доступности (AZ) AWS без потери данных и изменения приложений. Чтобы пользоваться этой функцией, необходимо разрешить перемещение данных в настройках кластера.

Вопрос. Поддерживает ли Amazon Redshift развертывания в нескольких зонах доступности?

В настоящее время Amazon Redshift поддерживает развертывания только в одном регионе. Для настройки конфигурации аварийного восстановления вы можете включить для кластера копирование снимка состояния в другой регион. Этот механизм будет реплицировать все снимки состояния из кластера в другой Регион AWS. При выполнении аварийного восстановления вы сможете восстановить систему в новый кластер, используя снимок состояния из региона с этими репликами. Amazon Redshift также поддерживает общий доступ к данным из другого региона, то есть доступ из кластера-потребителя к интерактивным данным в кластере-поставщике, размещенном в другом регионе. Эта возможность поддерживается только для Amazon Redshift Serverless и RA3.

Запросы и аналитика

Вопрос. Совместимы ли Amazon Redshift и Redshift Spectrum с моими программами бизнес‑аналитики и инструментами ETL?

Да. В Amazon Redshift используется стандартный язык SQL, а доступ к нему осуществляется посредством стандартных драйверов JDBC и ODBC. Драйверы JDBC и ODBC для Amazon Redshift можно загрузить на вкладке подключения клиента в консоли Redshift. Мы проверили интеграцию сервиса с широко распространенными решениями бизнес‑аналитики и ETL. Для многих из них доступны бесплатные пробные версии, с помощью которых можно приступить к загрузке и анализу данных. В AWS Marketplace также можно найти решения для работы с Amazon Redshift, развертывание и настройка которых выполняется за считаные минуты.

Amazon Redshift Spectrum поддерживает все клиентские инструменты Amazon Redshift. Клиентские инструменты могут продолжать подключаться к адресу кластера Amazon Redshift с использованием соединений ODBC или JDBC. Никаких изменений не требуется.

Для доступа к таблицам в Redshift Spectrum используется тот же синтаксис и предоставляются такие же возможности запросов, как для таблиц в локальном хранилище кластера Redshift. Ссылки на внешние таблицы создаются с помощью имени схемы, определенного командой CREATE EXTERNAL SCHEMA, в которой они были зарегистрированы.

Вопрос. Какие форматы данных и форматы сжатия поддерживает Amazon Redshift Spectrum?

На данный момент Amazon Redshift Spectrum поддерживает множество форматов данных с открытым исходным кодом, в том числе Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text и TSV.

Amazon Redshift Spectrum также поддерживает форматы сжатия Gzip и Snappy.

Вопрос. Что произойдет, если таблица в локальном хранилище имеет то же имя, что и внешняя таблица?

Как и в случае с локальными таблицами, чтобы выбрать нужную таблицу, можно использовать имя схемы, введя параметр schema_name.table_name в запросе.

Вопрос: Я использую Hive Metastore для хранения метаданных об озере данных в S3. Смогу ли я использовать Redshift Spectrum?

Да. Команда CREATE EXTERNAL SCHEMA поддерживает метаданные Hive Metastore. В настоящее время для Hive Metastore не поддерживается DDL.

Вопрос: Как получить список всех внешних таблиц базы данных, созданных в кластере?

Чтобы получить эту информацию, можно сделать запрос по системной таблице SVV_EXTERNAL_TABLES.

Вопрос. Поддерживает ли Redshift возможность использования машинного обучения с SQL?

Да, функция Amazon Redshift ML позволяет пользователям SQL легко создавать, обучать и развертывать модели машинного обучения (ML) с помощью распространенных команд SQL. Amazon Redshift ML позволяет обрабатывать свои данные в Amazon Redshift с помощью полностью управляемой службы машинного обучения Amazon SageMaker. Amazon Redshift поддерживает неконтролируемое обучение (методом k-средних) и контролируемое обучение (по алгоритмам Autopilot, XGBoost и MLP). Вы также можете использовать языковые сервисы AWS на основе искусственного интеллекта для перевода, редактирования и анализа текстовых полей в SQL-запросах с помощью предварительно созданных функций Lambda UDF – см. запись в блоге.

Вопрос. Имеет ли Amazon Redshift API для запроса данных?

Amazon Redshift предоставляет API данных, который позволяет без проблем получать доступ к данным из Amazon Redshift с помощью всех типов традиционных, облачных и контейнерных бессерверных приложений на основе веб-сервисов и управляемых событиями приложений. API данных упрощает доступ к Amazon Redshift, и вам не нужно настраивать драйверы и подключения к базе данных. Вместо этого можно запускать команды SQL в кластере Amazon Redshift, просто вызывая защищенный адрес API, предоставляемый API данных. API данных обеспечивает управление подключениями к базе данных и буферизацию данных. API данных является асинхронным, поэтому необходимые результаты можно получить позже. Результаты обработки запроса хранятся 24 часа.

Вопрос. Какие типы учетных данных можно использовать с API данных Amazon Redshift?

API данных поддерживает как учетные данные IAM, так и секретный ключ от AWS Secrets Manager. API данных поддерживает учетные данные AWS Identity and Access Management (IAM), поэтому вы можете пользоваться услугами поставщиков учетных данных, например Okta или Azure Active Directory, а также учетными данными баз данных, хранящимися в Secrets Manager, без передачи таких данных через вызовы API.

Вопрос. Можно ли пользоваться API данных Amazon Redshift из интерфейса командной строки AWS?

Да, вы можете использовать API данных через интерфейс командной строки AWS, используя параметр aws redshift-data.

Вопрос. Интегрирован ли API данных Redshift с другими сервисами AWS?

Вы можете использовать API данных с другими сервисами, например AWS Lambda, AWS Cloud9, AWS AppSync и Amazon EventBridge.

Вопрос. Нужно ли отдельно платить за использование API данных Amazon Redshift?

Нет, отдельная плата за использование API данных не взимается.

Резервное копирование и восстановление

Вопрос. Как Amazon Redshift выполняет резервное копирование данных? Как восстановить кластер из резервной копии?

Кластеры Amazon Redshift RA3 и сервис Amazon Redshift Serverless используют управляемое хранилище Redshift, в котором всегда доступна самая актуальная копия данных. Кластеры DS2 и DC2 отзеркаливают данные кластера, чтобы поддерживать наиболее актуальную копию данных на случай сбоя. Для всех типов кластеров Redshift автоматически создаются и сохраняются в течение 24 часов резервные копии, а для бессерверного варианта предоставляются точки восстановления за последние 24 часа.

Вы также можете создавать дополнительные резервные копии, которые будут сохраняться неограниченно долго. Резервные копии можно создавать в любой момент, а также преобразовывать автоматически созданные резервные копии Amazon Redshift или точки восстановления Amazon Redshift Serverless в пользовательские резервные копии для длительного хранения.

Сервис Amazon Redshift может также асинхронно копировать снимки состояния или точки восстановления в хранилище Amazon S3 другого региона для аварийного восстановления.

Объем бесплатного хранилища резервных копий в кластере DS2 или DC2 ограничен и равен общему объему хранилища узлов кластера. Такое бесплатное хранилище предоставляется только для активных кластеров.

Например, если общий объем хранилища данных составляет 8 ТБ, бесплатно вам будет предоставлено не более 8 ТБ для хранения резервных копий. Чтобы продлить срок хранения резервных копий, воспользуйтесь Консолью управления AWS или API Amazon Redshift. Подробные сведения об автоматическом создании снимков состояния содержатся в Руководстве по управлению Amazon Redshift.

Amazon Redshift выполняет резервное копирование только тех данных, которые были изменены, поэтому большая часть снимков состояния занимает небольшой объем в бесплатном хранилище резервных копий. Когда требуется восстановить резервную копию, можно получить доступ ко всем автоматически созданным резервным копиям за соответствующий период хранения. После выбора резервной копии для восстановления сервис выделит новый кластер хранилища данных и восстановит данные в него.

Вопрос: Как настроить срок хранения автоматически создаваемых резервных копий и снимков состояния?

Для управления сроками хранения автоматизированных резервных копий измените параметр RetentionPeriod через Консоль управления AWS или API ModifyCluster. Если вы хотите полностью отключить автоматическое резервное копирование, сделайте период хранения равным нулю (не рекомендуется).

Вопрос: Что произойдет с резервными копиями при удалении кластера хранилища данных?

При удалении кластера хранилища данных можно создать снимок его состояния на момент удаления. Это позволит при необходимости восстановить удаленный кластер позднее. Все снимки состояния кластера, созданные ранее вручную, будут сохранены. Плата за их хранение до момента удаления пользователем будет начисляться в соответствии со стандартными тарифами Amazon S3.

Мониторинг и обслуживание

Вопрос. Как обеспечить мониторинг производительности кластера хранилища данных Amazon Redshift?

Метрики использования вычислительных ресурсов, хранилища и трафика чтения / записи данных в кластере хранилища Amazon Redshift доступны для бесплатного просмотра посредством Консоли управления AWS или API Amazon CloudWatch. Можно также создать дополнительные собственные метрики с помощью возможностей Amazon CloudWatch по созданию пользовательских метрик. В Консоли управления AWS есть панель управления мониторингом, с помощью которой можно отслеживать работоспособность и производительность всех кластеров. Информация о производительности запросов и кластеров Amazon Redshift также доступна через Консоль управления AWS. Эта информация позволяет увидеть, какие пользователи и запросы потребляют наибольшее количество системных ресурсов, и определить причины снижения производительности, просматривая планы запросов и статистику их выполнения. Кроме того, с помощью этой панели можно контролировать использование ресурсов каждого из вычислительных узлов с целью эффективного распределения данных и запросов по всем узлам.

Вопрос. Что такое окно обслуживания? Доступен ли кластер хранилища данных во время обслуживания программного обеспечения?

Amazon Redshift периодически осуществляет техническое обслуживание, во время которого устанавливает в кластере пользователя исправления, дополнения и новые возможности. Изменить запланированный интервал обслуживания можно путем изменения кластера программным способом либо с помощью консоли Redshift. Во время интервала обслуживания кластер Amazon Redshift недоступен для работы в нормальном режиме. Дополнительные сведения об интервале обслуживания и графиках обслуживания по регионам см. в разделе Maintenance Windows Руководства по управлению Amazon Redshift.

Подробнее о ценах на Amazon Redshift

Перейти на страницу цен
Готовы приступить к разработке?
Начать работу c Amazon Redshift
Есть дополнительные вопросы?
Связаться с нами