Облако AWS
Начало работы с Amazon Redshift

Данные и инструменты аналитики стали незаменимы для компаний, стремящихся сохранить конкурентоспособность. Чтобы превращать данные в полезную аналитическую информацию, следить за эффективностью ведения бизнеса и принимать обоснованные решения, компании используют отчеты, панели управления и различные аналитические инструменты. За всеми этими отчетами, панелями управления и аналитическими инструментами стоят хранилища данных. В них данные хранятся более эффективно, с меньшим количеством операций чтения и записи, а результаты запросов к хранилищам молниеносно доставляются сотням и тысячам пользователей одновременно.

Загрузить техническое описание: Enterprise Data Warehousing on AWS

Хранилище данных выступает в качестве центрального репозитория информации, поступающей из одного или нескольких источников данных. Данные поступают в хранилище из систем обработки транзакций и других реляционных баз данных. Среди них обычно есть структурированные, частично структурированные и неструктурированные данные. В ходе обычных рабочих процессов эти данные обрабатываются, преобразуются и импортируются. Пользователи, среди которых специалисты по исследованию данных, бизнес-аналитики и лица, ответственные за принятие решений, получают доступ к обработанным данным из хранилища данных с помощью инструментов бизнес-аналитики, SQL-клиентов и электронных таблиц.

 

  Хранилище данных Транзакционная база данных
Подходящие рабочие нагрузки Аналитика, большие данные Обработка транзакций
Типы операций Оптимизировано для операций пакетной записи и чтения больших объемов данных в целях сокращения количества операций ввода-вывода и достижения максимальной пропускной способности при работе с данными Оптимизирована для операций непрерывной записи и большого числа операций чтения небольшого объема данных для достижения максимальной пропускной способности при выполнении транзакций
Нормализация данных Можно использовать денормализованные схемы, такие как «звезда» или «снежинка» Можно использовать высоконормализованные схемы, которые лучше подходят для операций с большой пропускной способностью
Хранилище Требуется колоночное или другое специализированное хранилище Строчно-ориентированные базы данных, в которых в физическом блоке хранятся целые строки

AWS позволяет использовать все основные преимущества, связанные с предоставлением вычислительных ресурсов по требованию: доступ к практически бесконечным ресурсам хранилища и вычислительным ресурсам, а также возможности масштабирования системы одновременно с увеличением объема собираемых, хранимых и запрашиваемых данных. При этом оплате подлежат только используемые ресурсы. Кроме того, AWS предлагает широкий перечень интегрированных управляемых сервисов, которые позволяют быстро развертывать комплексные аналитические решения и решения для хранения данных.

На приведенном ниже рисунке показаны основные этапы процесса обработки данных, используемые в ходе анализа, а также управляемые сервисы, доступные на каждом этапе.

Аналитический конвейер на платформе AWS

Amazon Redshift – это быстрое, простое в использовании и полностью управляемое решение хранения данных. В данном решении автоматизированы инфраструктурные задачи, связанные с выделением и управлением ресурсами, включая создание резервных копий, репликацию и установку обновлений. Система эффективно интегрируется со сторонними инструментами бизнес-аналитики и ETL, так что первый отчет будет готов уже через пару минут. При этом никаких ограничений на объемы анализируемых данных нет. При росте объема данных больше не придется беспокоиться о дорогостоящих обновлениях и падении производительности. Redshift работает быстро при любых масштабах, поскольку в нем используется столбчатое хранилище и целый набор инструментов оптимизации. Сервис Amazon Redshift также отличается низкой стоимостью, и клиент платит только за то, что действительно использует. Сервис позволяет любому количеству пользователей осуществлять анализ любых объемов данных всего за 1000 USD за терабайт в год. Подробнее