Миграция данных в облако

Переместите локальные данные в AWS в целях миграции или текущей обработки

В основе успешного развертывания приложения, аналитических рабочих процессов и машинного обучения лежат данные. При переносе данных в облако, помимо прочего, необходимо понимать, где размещаются данные для различных сценариев использования, какие типы данных перемещаются и какие сетевые ресурсы доступны. AWS предлагает широкий выбор сервисов и инструментов от партнеров, которые помогут переместить данные вне зависимости от того, в каком виде они хранятся: в файлах, базах данных, образах машин, блочных хранилищах или даже на ленточных накопителях.

Рекомендации по миграции данных на AWS (50:07)

Сервисы AWS для миграции данных в облако

Набор сервисов AWS охватывает множество методов, которые помогают более эффективно перемещать данные. Их можно разделить на две категории: передача данных по сети и гибридное облачное хранилище, и миграция данных без использования сети на Amazon S3.

Передача данных по сети и гибридное облачное хранилище

Такие методы позволяют без лишних усилий создавать подключение к VPC, передавать данные в AWS или использовать инстансы S3 для гибридного облачного хранилища с помощью существующих локальных приложений. Эти сервисы помогают однократно переносить большие пакеты данных, а также интегрировать существующие процессы, такие как резервное копирование и восстановление или постоянная потоковая передача данных, непосредственно с облачным хранилищем.

AWS Direct Connect

Клиенты выбирают выделенное физическое подключение Direct Connect для ускорения передачи данных по сети между собственными центрами обработки данных и AWS.

AWS Direct Connect позволяет установить выделенное сетевое соединение между вашей корпоративной сетью и одним из местоположений AWS Direct Connect. Использование стандартных виртуальных локальных сетей 802.1q позволяет разбить такое выделенное соединение на несколько виртуальных интерфейсов. Это дает возможность использовать одно и то же соединение как для доступа к публичным ресурсам (например, объектам Amazon S3) с использованием пространства публичных IP-адресов, так и к частным ресурсам (например, инстансам Amazon EC2), работающим в Amazon Virtual Private Cloud (VPC), с использованием пространства частных IP-адресов, и при этом поддерживать разделение сети на публичную и частную среду. Виртуальные интерфейсы в любое время можно перенастроить в соответствии с меняющимися потребностями.

Узнайте о пакетах партнеров Direct Connect, которые помогут расширить локальные технологии в облако. 

AWS DataSync

AWS DataSync – это сервис передачи данных, который упрощает автоматизацию переноса данных между локальными хранилищами и Amazon S3 или Amazon Elastic File System (Amazon EFS). DataSync автоматически обрабатывает многие из задач при передаче данных, которые могут замедлить перенос или стать излишней нагрузкой для ИТ‑отдела (включая запуск собственных инстансов, обработку шифрования, управление скриптами, оптимизацию сети и проверку целостности данных). AWS DataSync позволяет переносить данные в облако AWS до 10 раз быстрее, чем при использовании инструментов с открытым исходным кодом. DataSync можно использовать для копирования данных через подключение AWS Direct Connect или по интернет‑ссылкам на AWS при однократном переносе данных, в повторяющихся процессах обработки данных и для автоматической репликации в целях защиты и восстановления данных.

AWS Storage Gateway

Сервис AWS Storage Gateway упрощает локальное внедрение хранилищ AWS. Существующие приложения подключаются к локальным шлюзам с использованием стандартных протоколов блоковых и ленточных хранилищ и сохраняют данные в Amazon S3 и Amazon Glacier. Данные сжимаются и передаются в AWS в защищенном виде.

  • Файловый шлюз предоставляет файловые хранилища SMB или NFS для локальных приложений, позволяя хранить данные как объекты S3 с доступом через традиционные файловые интерфейсы.
  • Конфигурацию ленточного шлюза с виртуальной ленточной библиотекой (VTL) можно эффективно интегрировать с существующим ПО для резервного копирования, чтобы выполнить экономичную замену ленточных накопителей на Amazon S3 или на долгосрочное архивирование в S3 Glacier и S3 Glacier Deep Archive.
  • Шлюз томов хранит или кэширует блочные тома локально с резервным копированием на момент времени в виде снимков состояния EBS. Эти снимки состояния можно восстанавливать в облаке.

Amazon S3 Transfer Acceleration

Сервис Amazon S3 Transfer Acceleration ускоряет передачу данных в Amazon S3 через публичный Интернет. Вы можете максимально увеличить доступную вам пропускную способность независимо от расстояния и качества связи в Интернете, не используя специальные клиенты и проприетарные сетевые протоколы. Просто смените URL сервера, используемый вашей корзиной S3, и ускорение будет применено автоматически.

Сервис идеально подходит для повторяющихся заданий с перемещением данных по всему миру, таких как загрузка мультимедиа, резервное копирование и задачи по обработке локальных данных, регулярно пересылаемых в центральное местоположение.

Amazon Kinesis Data Firehose

Amazon Kinesis Firehose – самый простой способ загрузки потоковых данных в AWS. Этот инструмент позволяет захватывать и автоматически загружать потоковые данные в Amazon S3 и Amazon Redshift, а затем выполнять анализ в режиме, близком к реальному времени, с помощью уже имеющихся средств бизнес‑аналитики и панелей управления. Этот полностью управляемый сервис автоматически масштабируется в зависимости от пропускной способности и не требует постоянного администрирования. Кроме того, Amazon Kinesis Firehose позволяет создавать пакеты данных, а также сжимать и шифровать данные перед загрузкой, что сокращает объем памяти, используемый в целевом расположении, и повышает уровень безопасности. Всего за несколько минут с помощью Консоли управления AWS можно создать поток доставки данных Firehose, настроить его несколькими щелчками мышью и запустить передачу данных из сотен тысяч источников, которые будут постоянно загружаться в AWS.

Продукты от партнеров APN

Компания AWS сотрудничает со многими отраслевыми поставщиками физических шлюзов, которые сокращают разрыв между традиционными технологиями резервного копирования и облаком. Свяжите существующие локальные данные с облаком Amazon, чтобы выполнить перемещение, не влияя на производительность и сохраняя существующие каталоги резервных копий.

  • Легко встраивается в существующую инфраструктуру.
  • Может предлагать дедупликацию, сжатие, шифрование или ускорение сети WAN.
  • Кэширует недавние резервные копии локально, хранит всё в облаке AWS

Перенос данных в Amazon S3 без использования сети

Не стоит недооценивать пропускную способность фуры, загруженной жесткими дисками на сотню петабайт, или устройства объемом 100 ТБ размером с чемодан. В этих сервисах для передачи данных без использования сети применяются транспортабельные защищенные устройства, которые идеально подходят для переноса крупных архивов, озер данных или для ситуаций, когда пропускная способность не позволит нужному объему данных пройти по сети за требуемый промежуток времени.

AWS Snowball

AWS Snowball – это решение для перемещения данных в масштабе нескольких петабайтов, в котором используются безопасные средства передачи больших объемов данных в облако AWS и из него. Использование Snowball решает целый ряд проблем, связанных с передачей больших объемов данных, включая ограниченную пропускную способность сети, длительные сроки передачи данных и вопросы безопасности. Передача данных со Snowball происходит просто, быстро и безопасно.

AWS Snowball Edge

AWS Snowball Edge – это устройство для передачи данных в масштабе петабайтов со встроенным хранилищем и вычислительными возможностями. Его можно использовать для обмена большими объемами данных с AWS, в качестве временного хранилища или для поддержки удаленных или отключенных от Интернета объектов.

AWS Snowmobile

AWS Snowmobile – это решение для перемещения данных в масштабе нескольких эксабайтов в облако AWS и из него. Для передачи больших объемов данных используется безопасный транспортный контейнер длиной 12,2 м. Использование Snowmobile решает целый ряд проблем, связанных с передачей больших объемов данных, в том числе проблему высокой стоимости передачи данных по сети, длительной передачи, а также проблемы безопасности. Передача данных с помощью Snowmobile происходит с участием клиента, выполняется быстро и безопасно, а стоимость передачи может быть в пять раз меньше, чем в случае использования высокоскоростного интернет-подключения.

Неуправляемые инструменты миграции данных в облако

Помимо перечисленного, AWS предлагает удобные скрипты и инструменты интерфейса командной строки для переноса локальных данных в облачное хранилище Amazon.

rsync

Для копирования данных непосредственно в корзины S3 клиенты используют rsync с открытым исходным кодом вместе с инструментами сторонних производителей для работы с файловой системой.

Интерфейс командной строки S3

Клиенты используют интерфейс командной строки Amazon S3 для написания команд перемещения данных непосредственно в корзины S3.

Интерфейс командной строки S3 Glacier

Клиенты используют интерфейс командной строки Amazon Glacier для переноса данных в хранилища Glacier.

Основная проблема при миграции данных в облако

Для большинства проектов перспектива переноса данных выглядит довольно устрашающе. Как быстро и аккуратно перенести данные из текущего местоположения в новое облако с минимальными сбоями, финансовыми и временными затратами? Есть ли оптимальный способ переноса гигабайтов, терабайтов или петабайтов данных?

Основной вопрос заключается в том, какой объем данных можно перенести, на какое расстояние и за какое время. Для расчета оптимального варианта воспользуйтесь приведенной ниже формулой:

Количество дней = (Общее кол-во байт)/(Мегабиты в секунду * 125 * 1000 * Использование сети * 60 секунд * 60 минут * 24 часа)

Например, при наличии подключения T1 (1,544 Мбит/с) и необходимости перемещения 1 ТБ данных (1024 * 1024 * 1024 * 1024 байт) в облако AWS или из него минимальное время загрузки данных с помощью этого сетевого подключения теоретически составит 82 дня при 80 % использовании сети.

Не переживайте. Мы это уже делали. Мы обнаружили, что клиенты применяют два основных подхода: используют очень простые неуправляемые средства миграции для перемещения данных или выбирают один из сервисов Amazon, описанных выше.

В качестве общего правила мы рекомендуем следующее.

Соединение Объем данных Инструменты
Менее 10 Мбит/с Менее 500 ГБ Неуправляемые
Более 10 Мбит/с Более 500 ГБ Управляемый сервис