Amazon Redshift Spectrum позволяет напрямую выполнять SQL-запросы Amazon Redshift к эксабайтам данных, хранящихся в Amazon S3. Redshift Spectrum выводит аналитические возможности Amazon Redshift за пределы локальных дисков в хранилище данных и позволяет выполнять запросы к огромному количеству неструктурированных данных в озере данных Amazon S3 без каких-либо загрузок и преобразований. Redshift Spectrum использует технологии сложной оптимизации запросов и масштабирует обработку на тысячи узлов, очень быстро выдавая результаты даже при сложных запросах к большим наборам данных.

Redshift Spectrum выполняет запросы непосредственно к данным в Amazon S3 с использованием привычных для пользователя открытых форматов данных, включая Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile и TSV. Так как Redshift Spectrum использует тот же синтаксис SQL, что и Amazon Redshift, создавать сложные запросы можно с помощью уже имеющихся инструментов бизнес-аналитики. Можно также создавать запросы одновременно и к часто используемым данным на Amazon Redshift, и к полным наборам данных, экономично хранящимся в Amazon S3.

С Redshift Spectrum можно хранить данные где угодно и в каком угодно формате – они всегда будут под рукой для обработки. Сервис Redshift Spectrum предоставляется без авансовых платежей и долгосрочных контрактов – вы платите только за выполняемые запросы.

Готовы выполнять запросы?

Начало работы с Amazon Redshift
Dory_Feature_Start_Querying_Instantly

С помощью Amazon Redshift Spectrum можно приступить к работе с данными в Amazon S3 в мгновение ока, без каких-либо загрузок и преобразований. Достаточно зарегистрировать в качестве внешней схемы свой каталог данных Amazon Athena, AWS Glue или Apache Hive Metastore. Используйте тот же язык SQL, что и для таблиц Amazon Redshift, и любые инструменты бизнес-аналитики, которые поддерживаются Redshift.

Dory_Feature_Fast_Performance

Amazon Redshift показывает выдающуюся производительность как при аналитике больших наборов неструктурированных данных в Amazon S3 по требованию, так и при регулярной аналитике структурированных данных в таблицах Redshift. Храните активно используемые данные на кластерах Amazon Redshift для эффективной работы на том же уровне, как и при использовании локальных жестких дисков, и используйте Amazon Redshift Spectrum для включения в запросы архивных данных из Amazon S3. Это обеспечит безграничную масштабируемость при низкой стоимости. Оптимизатор запросов Amazon Redshift автоматически сокращает объемы сканируемых данных в Amazon S3 и количество участвующих в обработке запроса узлов Redshift Spectrum.

Dory_Feature_Scalable

Amazon Redshift Spectrum позволяет забыть о масштабировании кластеров. С его помощью можно разделить вычислительные ресурсы и хранилища и масштабировать их независимо друг от друга. Можно даже развернуть параллельную систему из нескольких кластеров Amazon Redshift, работающих с одним и тем же озером данных Amazon S3. Redshift Spectrum при необходимости может автоматически масштабироваться до тысяч инстансов, так что запросы обрабатываются быстро даже при масштабах работы от терабайтов и петабайтов до эксабайтов данных.

Dory_Feature_Pay_per_query

Используя Amazon Redshift Spectrum, вы платите только за выполняемые запросы. При выполнении запросов стоимость обработки одного терабайта составляет 5 USD. Redshift Spectrum поддерживает работу со сжатыми данными. Это позволяет сэкономить от 30 % до 90 % на стоимости запросов и повысить производительность системы, если сжать данные, распределить их по разделам и преобразовать в табличный формат. При работе с Redshift Spectrum оплачиваются только выполненные запросы. Кроме того, оплачивается хранение данных по стандартным тарифам Amazon S3 и использование инстансов Amazon Redshift для работы кластеров.