Показывает, как создавать кластеры Amazon Redshift и управлять ими.  HTML | PDF | Kindle

Объясняется, как проектировать, создавать, опрашивать и обслуживать базы данных в своем хранилище данных. В руководство включен синтаксис команд и функций Amazon Redshift SQL.  HTML | PDF

Подробно описывает все операции API для Amazon Redshift. Приводятся также образцы запросов, ответов и ошибок для поддерживаемых протоколов веб-сервисов.  HTML | PDF

Подробно описывает интерфейс командной строки Amazon Redshift. Приводится базовый синтаксис каждой команды, ее параметры и примеры использования.  HTML


Вебкаст AWS, содержащий рекомендации по загрузке данных и оптимизации запросов в Amazon Redshift.  Смотреть часть 1 | Смотреть часть 2

Эффективная загрузка данных с помощью команд COPY, пакетной вставки и промежуточных таблиц.  Подробнее »

Проектирование базы данных с целью обеспечить высокую производительность запросов, низкое потребление оперативной памяти и объема хранилища, а также сокращение количества операций ввода-вывода.  Подробнее »

Советы и тактика настройки запросов с целью достижения максимальной производительности.  Подробнее »


SQL-скрипты для выполнения диагностики кластера Amazon Redshift с использованием системных таблиц.  Загрузить здесь »

Список скриптов:

  • top_queries.sql – возвращает 50 команд, выполнение которых заняло наиболее продолжительное время, за последние 7 дней;
  • perf_alerts.sql – возвращает основные предупреждения вместе с результатами сканирования таблиц;
  • filter_used.sql – возвращает фильтр, применявшийся к сканированным таблицам. Помощь при выборе ключа сортировки:
  • commit_stats.sql – показывает сведения о потреблении ресурсов кластера при выполнении операций подтверждения записи;
  • current_session_info.sql – показывает сведения о сеансах, в которых в данный момент выполняются запросы;
  • missing_table_stats.sql – показывает планы EXPLAIN, в которых используемые таблицы помечены флагом «статистика отсутствует»;
  • queuing_queries.sql – выводит список запросов в очереди к слоту запросов WLM;
  • table_info.sql – возвращает сведения о хранении таблицы на диске (размер, отклонения и т. д.)

Представления SQL для управления кластером Amazon Redshift Cluster и создания языка описания схем (Schema DDL). Во всех представлениях предполагается наличие схемы с именем Admin.  Загрузить здесь »

Список представлений:

  • v_check_data_distribution.sql – получить распределение данных по уровням;
  • v_constraint_dependency.sql – получить ограничения внешнего ключа при работе с несколькими таблицами;
  • v_generate_group_ddl.sql – создать DDL для группы;
  • v_generate_schema_ddl.sql – создать DDL для схем;
  • v_generate_tbl_ddl.sql – создать DDL для таблицы, включая ключ распределения, ключ сортировки и ограничения;
  • v_generate_unload_copy_cmd.sql – сгенерировать команды экспорта и копирования объекта;
  • v_generate_user_object_permissions.sql – создать DDL для определения прав доступа пользователей к таблицам и представлениям;
  • v_generate_view_ddl.sql – создать DDL для представления;
  • v_get_obj_priv_by_user.sql – получить таблицы и представления, к которым пользователь имеет доступ;
  • v_get_schema_priv_by_user.sql – получить схему, к которой пользователь имеет доступ;
  • v_get_tbl_priv_by_user.sql – получить таблицы, к которым пользователь имеет доступ;
  • v_get_users_in_group.sql – получить всех пользователей, входящих в группу;
  • v_get_view_priv_by_user.sql – получить представления, к которым пользователь имеет доступ;
  • v_object_dependency.sql – объединить различные представления зависимостей;
  • v_space_used_per_tbl.sql – получить сведения о занимаемом месте для каждой таблицы;
  • v_view_dependency.sql – получить имена представлений, зависящих от других таблиц или представлений;
  • v_check_transaction_locks.sql – получить сведения о блокировках, существующих для открытых транзакций;
  • v_check_wlm_query_time.sql – получить время ожидания и выполнения WLM за последние 7 дней;
  • v_check_wlm_query_trend_daily.sql – получить количество запросов WLM, а также время ожидания и выполнения по дням;
  • v_check_wlm_query_trend_hourly.sql – получить количество запросов WLM, а также время ожидания и выполнения по часам;
  • v_generate_cancel_query.sql – создать запрос отмены;
  • v_get_cluster_restart_ts.sql – получить дату и время последнего перезапуска кластера;
  • v_get_vacuum_details.sql – получить сведения об очистке.

Позволяет определить оптимальное сжатие для данных Amazon Redshift.  Загрузить здесь »

Позволяет без труда переносить данные между таблицами Amazon Redshift, которые могут находиться в разных базах данных, кластерах или регионах. Все данные при экспорте шифруются с помощью сервиса AWS Key Management Service (KMS). Эту программу можно использовать в качестве дополнения к конвейеру данных AWS Data Pipeline для регулярного перемещения данных между системами, например тестовой и рабочей, или для обслуживания копий только для чтения в других кластерах.  Загрузить здесь »


Распространенные пользовательские функции (UDF). Набор UDF, полезных для каждого. Предоставлено компанией Periscope.  Подробнее » | Загрузить здесь »

Интерфейс разработки UDF.Для упрощения разработки компания Periscope разработала систему управления UDF и их тестирования. Предоставлено компанией Periscope.  Загрузить здесь »

re:Dash. Бесплатная платформа для совместной работы и визуализации данных с открытым исходным кодом, созданная для быстрого и удобного доступа к миллиардам записей. Возможности платформы включают браузер схем, улучшенное планирование, автозаполнение, а также возможность составления запросов на языке Python. Предоставлено компанией Everthing.me.  Загрузить здесь »

Административная панель управления Amazon Redshift от EverythingMe. Удобный и понятный инструмент для мониторинга выполняемых запросов, очередей WLM, а также таблиц и схем. Предоставлено компанией EverythingMe.  Загрузить здесь »

Инструмент ETL для Amazon Redshift от Yelp. Mycroft от компании Yelp предназначен для автоматизации загрузки данных в Amazon Redshift. Подробнее см. в публикации в блогеЗагрузить здесь »

Библиотека Spark-Redshift. Эта библиотека предназначена для загрузки данных из Amazon Redshift в Apache Spark SQL DataFrames и записи данных из Apache Spark обратно в Amazon Redshift. Удачный пример загрузки данных в формате AVRO в Amazon Redshift. Предоставлено компанией Swiftkey.  Загрузить здесь »


В наших блогах опубликован широкий перечень статей, в которых содержатся примеры использования и рекомендации, призванные помочь в использовании сервиса Amazon Redshift с максимальной эффективностью. Получить доступ к полному перечню статей можно по этой ссылке.