Международный центр радиоастрономических исследований (ICRAR) основан в 2009 году как совместный проект Технологического университета Кертин и Университета Западной Австралии. Центр расположен в Перте, Западная Австралия. Он объединяет 110 сотрудников, работающих над международным проектом по созданию Square Kilometre Array (SKA) – самого большого радиотелескопа в мире. Срок службы SKA составит более 50 лет, в течение которых он поможет расширить знания о происхождении и эволюции Вселенной.

Ожидается, что после ввода в эксплуатацию с помощью SKA можно будет ежедневно собирать и обрабатывать такой объем данных о космосе, какой сегодня собирают все исследовательские проекты мира за год. На основе этих данных с помощью SKA можно будет создавать карты космоса для изучения Вселенной. Размер отдельного изображения, полученного с помощью SKA, будет достигать 600 ТБ, а каждая карта космоса будет содержать тысячи таких изображений.

«Перед нами стоят вычислительные задачи беспрецедентного уровня сложности, – говорит доцент Кевин Винсен, исследователь ICRAR. –  В следующем десятилетии SKA будет полностью введен в эксплуатацию и сможет собирать от 500 ТБ до 1 ПБ данных изображений в день, в зависимости от научной задачи. Объем вычислительных ресурсов, необходимых для их обработки, даже сложно себе представить».

Чтобы получить вычислительные ресурсы для проведения ряда подготовительных экспериментов, в ICRAR была организована общественная инициатива под названием theSkyNet. Эта инициатива позволяет ICRAR использовать свободные процессорные циклы, безвозмездно предоставляемые заинтересованными пользователями, чтобы с их помощью симулировать суперкомпьютер. После этого Винсен с коллегами могут использовать генерируемые theSkyNet вычислительные ресурсы для анализа изображений галактик, полученных с расположенного на Гавайях телескопа Pan-STARRS1 в рамках проекта theSkyNet.

Распределенные вычислительные проекты часто используются, когда для решения задачи необходимо нарастить ресурсы физического сервера в соответствии с объемом входящих данных. Экономичность и гибкость – важные условия быстрого получения центром ICRAR результатов в экспериментах, связанных с проектом theSkyNet.

Платформа Amazon Web Services (AWS) обеспечивает масштабирование по требованию, поэтому идеально подходит для экспериментов, необходимых для проектирования SKA. При использовании AWS центр ICRAR получает ресурсы, позволяющие анализировать большие объемы данных изображений. В 2012 году Винсен выиграл грант AWS в сфере образования для запуска проекта theSkyNet, а за прошлый год объем проекта увеличился до 40 терафлопс. Терафлопс – это величина, равная триллиону операций с плавающей точкой в секунду.

«Облачные решения и ресурсы для сверхвысокопроизводительных вычислений весьма удачно подходят в роли дополнительных и могут использоваться для обработки, хранения и распределения огромных объемов данных, получаемых обсерваториями нового поколения, – отмечает доцент Винсен. –  Наш проект требует гибкости, и вместо выделенного суперкомпьютера в экспериментах можно легко использовать AWS».

ICRAR направляет всех внешних пользователей к веб-сайтам theSkyNet с помощью сервиса Amazon Route 53. Затем один инстанс Amazon Elastic Compute Cloud (Amazon EC2) типа medium и образы машины Amazon (Amazon AMI) по требованию используются для обработки распределенных процессорных циклов theSkyNet, а другой инстанс Amazon EC2 типа small работает как сетевой файловый сервер.

Для хранения данных изображений к ICRAR подключаются два тома Amazon Elastic Block Store (Amazon EBS) емкостью по 60 ГБ. Для архивации данных используется сервис Amazon Glacier. ICRAR также использует Amazon Simple Storage Service (Amazon S3) как основное хранилище, чтобы пользователи, предоставляющие процессорные циклы, могли увидеть галактики, анализ которых выполняется с помощью вычислительных ресурсов их компьютеров. На рис. 1 изображена архитектура theSkyNet в AWS. 

ICRAR-arch-diag

Рис. 1. Архитектура theSkyNet на платформе AWS.

Проект theSkyNet был установлен центром ICRAR в AWS всего за четыре дня. Теперь стало возможно быстрое и эффективное расширение облачной инфраструктуры по мере получения дополнительных распределенных процессорных циклов от пользователей, которые поддерживают инициативу.

«Масштабируемость AWS чрезвычайно полезна, – говорит доцент Винсен. – Я могу добавлять ресурсы в нужном объеме без каких-либо проблем. Использование AWS позволяет нам каждый месяц обрабатывать свыше 150 ГБ фотографий неба и сохранять более 400 ГБ изображений».

Хранилище пар ключ/значение в Amazon S3 позволяет эффективно индексировать входные данные от сотен тысяч пользовательских процессоров по всему миру и управлять ими. Сервис Amazon ELB помогает управлять как входящим, так и исходящим потоком данных theSkyNet.

Ежемесячно ICRAR использует Amazon EBS для сохранения свыше 400 ГБ данных изображений по мере их обработки с помощью распределенных пользовательских ресурсов. Amazon EC2 предоставляет ICRAR вычислительные ресурсы для анализа данных от 400 до 500 галактик одновременно.

Популярность проекта возросла так быстро, что вскоре после миграции в AWS в связи с количеством запросов от интернет-сообществ в России, Америке и Австралии возникла перегрузка сервера theSkyNet. Однако доценту Винсену для добавления дополнительных ресурсов хватило всего двух часов. «Восстановление работоспособности других общественных вычислительных проектов после перегрузок занимало несколько дней, потому что выделить дополнительные ресурсы инфраструктуры для новых серверов было непросто, – отмечает он. –  А при использовании AWS достаточно выделить инстанс большего размера».

ICRAR планирует и дальше использовать AWS в рамках дальнейших экспериментов theSkyNet благодаря достаточной производительности для выполнения вычислений этого ресурса.

Подробнее о том, как платформа AWS помогает в обработке данных, см. на странице о больших данных: http://aws.amazon.com/big-data/.