Amazon Redshift позволяет направлять запросы не только к хранилищу данных, но и к озеру данных без дополнительной загрузки данных. Redshift может выполнять запросы к петабайтам данных, хранящихся локально, и напрямую к эксабайтам данных в Amazon S3. Этот простой в настройке сервис автоматизирует большую часть задач администрирования и обеспечивает высокую производительность при любых масштабах.

Основные возможности

Повышенная производительность

Массово‑параллельная обработка. Amazon Redshift обеспечивает высокую скорость выполнения запросов к наборам данных объемом от нескольких гигабайтов до нескольких эксабайтов. В Redshift применяются столбчатое хранилище, сжатие данных и карты зон для сокращения количества операций ввода‑вывода при выполнении запросов. Сервис основан на архитектуре хранилища с массово‑параллельной обработкой (MPP), которая распределяет и параллельно выполняет операции SQL в целях эффективного использования всех доступных ресурсов. Базовое оборудование сервиса предназначено для высокопроизводительной обработки данных. Использование локально подключенного хранилища увеличивает пропускную способность соединения между ЦПУ и дисками, а эффективный обмен данными между узлами обеспечивает высокоскоростная сеть с ячеистой топологией.

Машинное обучение: Amazon Redshift использует технологии машинного обучения для обеспечения высокой пропускной способности вне зависимости от рабочих нагрузок клиента или объема параллельно выполняемых операций. Redshift применяет сложные алгоритмы, чтобы прогнозировать скорость выполнения входящих запросов, и по итогам анализа приписывает запросы к подходящей очереди, чтобы оптимизировать их обработку. Например, запросы для панелей управления и отчетов с высокими требованиями к количеству параллельных операций направляются в экспресс‑очередь, где обрабатываются моментально. По мере нарастания числа параллельных операций Amazon Redshift прогнозирует момент, когда может начаться формирование очереди, и благодаря возможности параллельного масштабирования автоматически развертывает временные ресурсы. Это позволяет обеспечить высокую производительность вне зависимости от изменения нагрузки на кластер.

Кэширование результатов. Кэширование результатов в Amazon Redshift позволяет обрабатывать повторные запросы за доли секунды. Благодаря этому значительно увеличивается производительность панелей управления, инструментов визуализации и бизнес‑аналитики, которые выполняют повторяющиеся запросы. При получении запроса Redshift выполняет поиск по кэшу, в котором может храниться результат прошлой обработки такого запроса. Если кэшированный результат обнаружен и данные не изменились, сервис незамедлительно выдает этот результат, вместо того чтобы повторно выполнять запрос.

Простая настройка, развертывание и управление

Автоматическое выделение ресурсов. Amazon Redshift отличает простота настройки и управления. Выполнить развертывание нового хранилища данных можно за несколько щелчков мышью в Консоли AWS, после чего Redshift автоматически выделит инфраструктуру. Сервис автоматизирует большую часть административных задач, таких как резервное копирование и репликация, что позволяет пользователям сконцентрироваться непосредственно на работе с данными. Если требуются дополнительные настройки, в Redshift предусмотрена возможность внесения корректировок с учетом конкретных рабочих нагрузок. Выпуск новых возможностей осуществляется в фоновом режиме, пользователям не приходится планировать и выполнять обновление или установку исправлений.

Автоматическое резервное копирование. Amazon Redshift в автоматическом режиме непрерывно создает резервные копии данных и сохраняет их в Amazon S3. Сервис Redshift может асинхронно копировать снимки состояния в S3 в другом регионе для аварийного восстановления. Чтобы восстановить кластер с помощью Консоли управления AWS или API сервиса Redshift, можно использовать любые снимки состояния системы, в том числе пользовательские. Кластер становится доступным, как только восстановлены метаданные системы. Это позволяет начать отправку запросов, пока данные пользователя загружаются в буфер в фоновом режиме.

Отказоустойчивость. В Amazon Redshift предусмотрено несколько возможностей для повышения надежности кластера хранилища данных. Redshift выполняет непрерывный мониторинг состояния кластера, автоматически реплицирует данные с неисправных дисков и заменяет узлы по мере необходимости для обеспечения устойчивости к сбоям.

Гибкие возможности работы с запросами: Amazon Redshift позволяет исполнять запросы из базовой консоли или подключать выбранные клиентские инструменты SQL, библиотеки и системы бизнес‑аналитики. Редактор запросов консоли AWS предоставляет функциональный интерфейс для исполнения SQL‑запросов в кластерах Redshift, просмотра результатов и плана исполнения запросов, смежных с запросами пользователя (в том случае, если они исполняются на вычислительном узле).

Интеграция с инструментами сторонних разработчиков. Возможности Amazon Redshift можно расширить, используя лучшие отраслевые инструменты и опыт экспертов по загрузке, преобразованию и визуализации данных. Решения партнеров из нашего обширного списка сертифицированы для использования с Amazon Redshift. 

Экономичность

Оплата по факту использования без авансовых платежей. Amazon Redshift – это самое экономичное хранилище данных, которое оплачивается только по факту использования выделенных ресурсов. Работу с сервисом можно начать по тарифу 0,25 USD в час без каких‑либо обязательств, а затем выйти на уровень всего 250 USD за терабайт данных в год. Redshift – это единственное облачное хранилище данных, которое предлагает сразу несколько вариантов оплаты: оплату по требованию без каких‑либо авансовых платежей, резервирование инстансов на 1 или 3 года для экономии на уровне 75 % либо плату за выполнение конкретных запросов на основании объема данных, просканированных сервисом в озере данных Amazon S3. Подробности см. на странице цен на Amazon Redshift.

Предсказуемая стоимость даже в случае непредсказуемых нагрузок: Amazon Redshift позволяет клиентам сервиса масштабировать ресурсы с минимальными колебаниями стоимости операций, поскольку каждый кластер накапливает до одного часа бесплатных ресурсов для параллельного масштабирования каждый день. Этого объема бесплатных ресурсов большинству клиентов достаточно для обеспечения потребностей в параллельных операциях. Это позволяет уверенно прогнозировать свои месячные расходы даже в периоды колебания спроса на проведение аналитики.

Возможность выбора типа узла. На выбор предлагается два типа узлов, что позволяет оптимизировать Redshift в соответствии с конкретными требованиями к хранению данных. С помощью узлов Dense Compute (DC) можно создавать хранилища данных с очень высокой производительностью, в которых используются мощные ЦПУ, большие объемы ОЗУ и твердотельные накопители (SSD). Чтобы сократить издержки или расширить возможности масштабирования, пользователи могут перейти на более экономичные узлы типа Dense Storage (DS), в которых используются жесткие диски большего объема по крайне низкой цене. Для масштабирования кластера или переключения между типами узлов достаточно одного вызова API или нескольких щелчков мышью в Консоли AWS.

Быстрое масштабирование в зависимости от потребностей

Хранение петабайтов данных. Amazon Redshift можно просто и быстро масштабировать по мере изменения потребностей пользователя. Чтобы изменить количество или тип узлов в хранилище данных либо осуществить масштабирование в любом направлении в зависимости от текущих потребностей, достаточно нескольких щелчков мышью в консоли или простого вызова API.

Анализ озер данных, объем которых измеряется эксабайтами. Redshift Spectrum – это возможность Redshift, которая позволяет выполнять запросы к эксабайтам данных в Amazon S3 без необходимости загружать или преобразовывать их. Высокодоступное, безопасное и экономичное озеро данных Amazon S3 можно использовать для хранения неограниченных объемов данных в открытых форматах.

Неограниченное число параллельных операций: Amazon Redshift обеспечивает стабильно высокую производительность даже при выполнении тысяч параллельных запросов, вне зависимости от того, обращаются они к данным в хранилище Amazon Redshift или напрямую к озеру данных в Amazon S3. Благодаря возможности параллельного масштабирования Amazon Redshift автоматически добавляет временные ресурсы по мере нарастания потребности в параллельных операциях. Redshift Spectrum обеспечивает безграничные возможности параллельной обработки, позволяя одновременно выполнять множество запросов с доступом к одним и тем же данным в Amazon S3. Redshift Spectrum выполняет запросы на тысячах параллельно работающих узлов, чтобы пользователи могли быстро получать результаты вне зависимости от сложности запроса или объема данных.

Запросы к озеру данных

Озеро данных в Amazon S3. Amazon Redshift – это единственное хранилище данных, которое позволяет выполнять запросы к озеру данных Amazon S3 без необходимости загрузки данных. Можно выполнять запросы к файлам в привычных открытых форматах, таких как Avro, CSV, Grok, JSON, ORC, Parquet и многие другие, непосредственно в Amazon S3. Благодаря этому можно хранить высокоструктурированные часто запрашиваемые данные на локальных дисках Redshift, а эксабайты структурированных и неструктурированных данных – в S3 и эффективно выполнять запросы ко всем этим данным. Это обеспечивает уникальную аналитическую информацию, которую невозможно получить из отдельных наборов данных.

Система аналитических инструментов AWS. Amazon Redshift обеспечивает встроенную интеграцию с системой аналитических инструментов AWS. AWS Glue можно использовать для извлечения, преобразования и загрузки (ETL) данных в Redshift. Amazon Kinesis Data Firehose предоставляет самый простой способ захвата, преобразования и загрузки потоковых данных в Redshift для анализа в режиме, близком к реальному времени. С помощью Amazon QuickSight можно создавать отчеты, визуализации и панели управления. Чтобы ускорить миграцию в Amazon Redshift, можно в течение полугода использовать AWS Database Migration Service (DMS) бесплатно. Подробнее »

Безопасность

Комплексное шифрование. С помощью нескольких параметров можно настроить использование сертификата SSL в сервисе Amazon Redshift для обеспечения безопасности данных при передаче, а для шифрования данных при хранении может использоваться AES‑256 с аппаратным ускорением. Если активировать шифрование данных при хранении, все данные, записанные на диск, а также их резервные копии будут зашифрованы. По умолчанию сервис Amazon Redshift самостоятельно осуществляет управление ключами шифрования.

Сетевая изоляция. Amazon Redshift позволяет настроить правила брандмауэра для управления сетевым доступом к кластеру хранилища данных. Amazon Redshift можно запустить в Amazon VPC, чтобы изолировать кластер хранилища данных в своей виртуальной сети и подключить его к имеющейся ИТ‑инфраструктуре с помощью VPN‑подключения, зашифрованного по стандартному протоколу IPsec.

Аудит и соответствие требованиям. Сервис Amazon Redshift интегрирован с AWS CloudTrail, что обеспечивает возможность аудита всех вызовов API Redshift. Сервис Redshift вносит в журнал все операции SQL, включая попытки подключения, запросы и изменения базы данных. Доступ к этим журналам можно получить с помощью SQL‑запросов к системным таблицам. Журналы также можно загрузить в защищенное хранилище Amazon S3. Amazon Redshift соответствует требованиям SOC 1, SOC 2, SOC 3 и PCI DSS Level 1. Подробнее см. на странице «Соответствие облака AWS требованиям».

Подробнее о ценах на Amazon Redshift

Перейти на страницу цен
Готовы приступить к разработке?
Начать работу с Amazon Redshift
Есть вопросы?
Свяжитесь с нами