Что такое аварийное восстановление?

Аварийное восстановление – это процесс, при помощи которого организация может предвидеть и устранить аварии, связанные с технологией. Процесс подготовки и восстановления после любого события, которое мешает рабочей нагрузке или системе выполнить свои бизнес-задачи в месте основного развертывания, например перебои в подаче электроэнергии, природные явления либо проблемы с безопасностью. Целевые показатели аварийного восстановления измеряются с помощью целевых точек восстановления (RPO) и целевого времени восстановления (RTO). Сбои, устраняемые аварийным восстановлением, как правило, встречаются реже, чем сбои, вызванные высокой доступностью, и представляют собой более масштабные аварийные ситуации. Аварийное восстановление включает процедуры и политики организации, направленные на быстрое устранение таких событий.

Почему важно аварийное восстановление?

Авария – это неожиданная проблема, приводящая к замедлению, приостановлению или прерыванию работы сети в ИТ-системе. Прерывания бывают разных видов, включая следующие примеры:

  • Вследствие землетрясения или пожара
  • Вследствие технологических сбоев
  • Вследствие системных несовместимостей
  • Вследствие человеческой ошибки 
  • Вследствие преднамеренного несанкционированного доступа третьих лиц

Эти аварии нарушают работу бизнеса, вызывают проблемы с обслуживанием клиентов и приводят к потере доходов. План аварийного восстановления помогает организациям оперативно реагировать на разрушительные события и обеспечивает следующие основные преимущества.

Гарантирование устойчивости бизнеса

Когда случается авария, она может нанести ущерб всем аспектам бизнеса и зачастую обходится недешево. Это также прерывает нормальную работу предприятия, поскольку производительность команды снижается из-за ограниченного доступа к инструментам, необходимым для работы. План аварийного восстановления позволяет быстро перезапустить резервные системы и данные, чтобы операции могли продолжаться по расписанию. 

Повышение безопасности системы

Интеграция процессов защиты, резервного копирования и восстановления данных в план аварийного восстановления ограничивает влияние программ-вымогателей, вредоносных программ и других рисков безопасности для бизнеса. Например, резервное копирование данных в облако имеет множество встроенных функций безопасности, позволяющих ограничить подозрительную активность до того, как она повлияет на бизнес. 

Улучшение удержания клиентов

Если происходит авария, клиенты ставят под сомнение надежность методов обеспечения безопасности и услуг организации. Чем дольше авария влияет на бизнес, тем сильнее разочарование клиентов. Хороший план аварийного восстановления снижает этот риск путем обучения сотрудников работе с запросами клиентов. Клиенты обретают уверенность, когда видят, что предприятие хорошо подготовлено к любой аварии. 

Снижение затрат на восстановление

В зависимости от степени тяжести авария приводит к потере дохода и снижению производительности. Надежный план аварийного восстановления позволяет избежать ненужных потерь, поскольку системы возвращаются в нормальное состояние вскоре после инцидента. Например, облачные решения для хранения данных – это экономически эффективный метод резервного копирования данных. Вы можете осуществлять управление, мониторинг и обслуживание данных, пока компания работает в обычном режиме. 

Как происходит аварийное восстановление?

Аварийное восстановление направлено на обеспечение работоспособности приложений в течение нескольких минут после сбоя. В целом оно включает следующие три компонента.

Предотвращение

Чтобы снизить вероятность аварии, связанной с технологиями, предприятиям необходим план, обеспечивающий максимальную надежность и безопасность всех ключевых систем. Поскольку люди не могут контролировать стихийные бедствия, профилактика применяется только к проблемам сети, рискам безопасности и человеческим ошибкам. Вы должны создать правильные инструменты и методы, чтобы предотвратить аварию. Например, программное обеспечение для тестирования системы, которое автоматически проверяет все новые файлы конфигурации перед их применением, может предотвратить ошибки и сбои в конфигурации. 

Предвидение

Предвидение включает в себя прогнозирование возможных аварий, знание их последствий и планирование соответствующих процедур восстановления после них. Трудно предсказать, что может произойти, но вы можете придумать решение по восстановлению после аварии, используя знания из предыдущих ситуаций и анализ. Например, резервное копирование всех критически важных бизнес-данных в облако в ожидании будущего аппаратного сбоя локальных устройств – это прагматичный подход к управлению данными.

Смягчение последствий

Смягчение последствий – это то, как предприятие реагирует после сценария бедствия. Стратегия смягчения последствий направлена на снижение негативного воздействия на обычные бизнес-процедуры. Все ключевые заинтересованные стороны знают, что делать в случае бедствия, включая следующие шаги.

  • Обновление документации
  • Проведение регулярного тестирования системы аварийного восстановления
  • Определение рабочих процедур, выполняемых вручную, в случае отключения электроэнергии
  • Координация стратегии аварийного восстановления с соответствующим персоналом

Каковы ключевые элементы плана аварийного восстановления?

Эффективный план аварийного восстановления включает указанные ниже ключевые элементы. 

Внутренняя и внешняя коммуникация

Команда, ответственная за создание, внедрение и управление планом аварийного восстановления, должна общаться друг с другом по поводу своих ролей и обязанностей. Если произойдет авария, команда должна знать, кто за что отвечает и как общаться с сотрудниками, клиентами и друг с другом. 

Сроки восстановления

Команда аварийного восстановления должна определить цели и сроки, когда системы должны вернуться к нормальной работе после аварии. В одних отраслях сроки могут быть более длительными, чем в других, в то время как иногда необходимо восстановить нормальную работу в считанные минуты. 

График должен решать следующие две задачи.

Целевое время восстановления

Целевое время восстановления (RTO) – это метрика, определяющая максимальное количество времени, которое проходит до завершения аварийного восстановления. Показатели RTO могут варьироваться в зависимости от используемой ИТ-инфраструктуры и систем.

Целевая точка восстановления (RPO)

Целевая точка восстановления (RPO) – это максимальное время, допустимое для потери данных после аварии. Например, если ваша RPO составляет минуты или часы, вам придется постоянно создавать резервные копии данных на зеркальных сайтах, а не только один раз в конце дня.

Резервное копирование данных

План аварийного восстановления определяет способ резервного копирования данных. Варианты включают облачное хранение, резервное копирование при поддержке поставщика и внутреннее резервное копирование данных вне офиса. В случае стихийных бедствий резервные копии не должны храниться на месте. Команда должна определить, кто будет осуществлять резервное копирование данных, какая информация будет копироваться и как внедрить эту систему.

Тестирование и оптимизация 

Вы должны тестировать свой план аварийного восстановления не реже одного-двух раз в год. Вы можете документировать и устранять любые недостатки, выявленные в ходе этих тестов. Аналогичным образом, следует часто обновлять все стратегии безопасности и защиты данных, чтобы предотвратить непреднамеренный несанкционированный доступ.

Как создать команду аварийного восстановления?

Команда аварийного восстановления включает в себя совместную группу экспертов, таких как ИТ-специалисты и люди на руководящих должностях, которые будут иметь решающее значение для нее. В вашей команде должен быть человек, который заботится о нижеследующих ключевых областях.

Антикризисное управление

Человек, отвечающий за антикризисное управление, сразу же реализует план аварийного восстановления. Он общается с другими членами команды и клиентами, а также координируют процесс восстановления. 

Устойчивость бизнеса

Менеджер по устойчивости бизнеса обеспечивает соответствие плана аварийного восстановления результатам анализа воздействия на бизнес. Он включает планирование непрерывности бизнеса в стратегию аварийного восстановления. 

Восстановление и оценка воздействия

Менеджеры по оценке воздействия являются экспертами в области ИТ-инфраструктуры и бизнес-приложений. Они оценивают и чинят сетевую инфраструктуру, серверы и базы данных. Они также управляют другими задачами аварийного восстановления, в том числе приведенными ниже.

  • Интеграция приложений
  • Обеспечение согласованности данных
  • Настройки и конфигурация приложения

Каковы наилучшие методы аварийного восстановления?

При планировании аварийного восстановления предприятия применяют один или несколько из нижеследующих методов.

Резервное копирование

Резервное копирование данных – один из самых простых методов аварийного восстановления, который применяют все предприятия. Резервное копирование важных данных подразумевает их хранение вне помещения, в облаке или на съемном диске. Для поддержания актуальности данных следует часто создавать резервные копии. Например, выполняя резервное копирование в AWS, предприятия получают гибкую и масштабируемую инфраструктуру, которая защищает все типы данных. 

Аварийное восстановление центров обработки данных

В случае некоторых видов стихийных бедствий соответствующее оборудование может защитить ваш центр обработки данных и способствовать быстрому восстановлению после аварии. Например, средства пожаротушения помогают сохранить во время пожара оборудование и данные, а резервные источники питания обеспечивают непрерывность работы предприятия в случае отключения электроэнергии. Аналогичным образом центры обработки данных AWS имеют инновационные системы, которые защищают их от антропогенных и природных рисков.

Виртуализация 

Предприятия создают резервные копии своих данных и операций с помощью виртуальных машин (VM), расположенных за пределами учреждения и не подверженных воздействию физических катастроф. При использовании виртуализации в качестве части плана аварийного восстановления предприятия автоматизируют некоторые процессы, быстрее восстанавливаясь после стихийного бедствия. Постоянный перенос данных и рабочих нагрузок на виртуальные машины, такие как Эластичное вычислительное облако Amazon (Amazon EC2), необходим для эффективной виртуализации. 

Аварийное восстановление как сервис

Сервисы аварийного восстановления, такие как AWS Elastic Disaster Recovery, могут перенести компьютерную обработку и критически важные бизнес-операции компании в собственные облачные сервисы в случае аварии. Таким образом, нормальная работа может продолжаться из местоположения провайдера, даже если локальные серверы не работают. Аварийное восстановление Elastic также защищает от сбоев в работе регионов в облаке. 

Холодный участок

В случае стихийного бедствия компания переносит свои операции в другое редко используемое физическое место, называемое «холодный участок». Таким образом, у сотрудников есть место для работы, а деловые функции могут продолжаться в обычном режиме. Этот тип аварийного восстановления не защищает и не восстанавливает важные данные, поэтому наряду с ним необходимо использовать другой метод аварийного восстановления.    

Как AWS может помочь с аварийным восстановлением?

Аварийное восстановление Elastic – это сервис аварийного восстановления, который сокращает время простоя и потери данных за счет быстрого и надежного восстановления локальных и облачных приложений. Он может снизить RPO до нескольких секунд, а RTO – до нескольких минут. Вы можете быстро восстановить работу после непредвиденных событий, таких как проблемы с программным обеспечением или сбои оборудования центра обработки данных. Это также гибкое решение, поэтому вы можете добавлять или удалять реплицирующие серверы и тестировать различные приложения без специальных навыков.

Аварийное восстановление Elastic включает нижеследующие преимущества.

  • Экономия средств вследствие отказа от ресурсов сайта восстановления после простоя и возможность вкладывать эти средства в сайт с полноценным аварийным восстановлением тогда, когда это необходимо.
  • AWS DRS преобразует облачные приложения для работы непосредственно в AWS.
  • Восстановление приложений в считанные минуты за счет возврата их в самое последнее состояние или же состояние на определенный момент в прошлом.

Создайте аккаунт AWS и начните работу с сервисами аварийного восстановления AWS уже сегодня. 

Следующие шаги на AWS

Дополнительные ресурсы по продукту
Подробнее о сервисах аварийного восстановления 
Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Начните разработку в консоли

Начните разработку в Консоли управления AWS.

Вход