Центр обеспечения устойчивости AWS

Подготовка и защита ваших приложений от остановки работы

Преимущества Центра обеспечения устойчивости AWS

Постоянно проверяйте и отслеживайте отказоустойчивость приложений, чтобы сократить количество перебоев в работе.
Оценивайте целевые показатели отказоустойчивости (целевое время восстановления (RTO) и целевую точку восстановления (RPO)).
Выявляйте и устраняйте проблемы до их возникновения во время работы.
Оптимизируйте устойчивость бизнеса, сокращая при этом затраты на восстановление.

Принцип работы сервиса

Центр обеспечения устойчивости AWS — это раздел в Консоли AWS, который служит для управления приложениями на AWS и повышения их отказоустойчивости. Центр обеспечения устойчивости AWS позволяет задать цели по отказоустойчивости, оценить степень устойчивости по этим целям и реализовать рекомендации по оптимизации на основе платформы AWS Well-Architected. В Центре обеспечения устойчивости AWS вы также можете создавать и проводить эксперименты Симулятора внедрения отказов AWS (AWS FIS), имитирующие реальные сбои в работе приложений, чтобы лучше понять зависимости и выявить потенциальные слабые места.

Центр обеспечения устойчивости AWS содержит сервисы и инструменты для непрерывного повышения отказоустойчивости.

Возможности

Опишите свои приложения в виде коллекций ресурсов, таких как стеки CloudFormation, файлы состояния Terraform, приложения AppRegistry или группы ресурсов, или определите приложения для рабочих нагрузок Kubernetes, которыми управляет Amazon EKS. Можно также описывать приложения, использующие как коллекции ресурсов, так и кластеры Amazon EKS.
Определяйте политики отказоустойчивости для приложений. В частности, целевые показатели RTO и RPO в приложениях, параметры инфраструктуры, зоны доступности и региональных сбоев.

Оценивание в AWS Resilience Hub использует рекомендации AWS Well-Architected Framework для анализа компонентов приложения и обнаружения потенциальных слабых мест в отказоустойчивости. Причиной их возникновения могут быть: незавершенная настройка инфраструктуры, ошибки в конфигурации или случаи, когда требуются дополнительные улучшения конфигурации.

AWS Resilience Hub предоставляет полезные рекомендации для повышения отказоустойчивости. Кроме того, в результате оценивания отказоустойчивости генерируются фрагменты кода, которые помогут вам создать процедуры восстановления (стандартные оперативные процедуры, СОП), например документы AWS Systems Manager для приложений. Центр обеспечения устойчивости AWS формирует список рекомендуемых проверок и предупреждений Amazon CloudWatch, с помощью которых оператор сможет оперативно выявлять любые изменения в показателях отказоустойчивости приложений сразу после развертывания.

После того как приложение и СОП были обновлены и дополнены рекомендациями с оценивания отказоустойчивости, вы сможете протестировать и проверить целевые показатели с помощью AWS Resilience Hub, прежде чем выводить приложение в рабочую среду. В AWS Resilience Hub интегрирован Симулятор внесения неисправностей AWS (FIS), сервис с использованием хаотического инжиниринга, который позволяет имитировать настоящие сбои системы, чтобы убедиться, что приложение может восстановиться в пределах обозначенных целевых показателей отказоустойчивости. Это могут быть сетевые ошибки или слишком большое количество открытых подключений к базе данных. Кроме того, AWS Resilience Hub предоставляет API, что позволяет интегрировать результаты оценивания и тестирования показателей отказоустойчивости в конвейеры CI / CD для постоянной проверки. Таким образом можно гарантировать, что изменения, внесенные в базовую инфраструктуру приложений, не приведут к нарушению отказоустойчивости.

Примеры использования

Имитирует настоящие неисправности в целях проверки эффективности реализации стандартных оперативных процедур и предупреждений для восстановления.

Предоставляет полезные рекомендации для повышения отказоустойчивости и позволяет создавать процедуры восстановления.

Собирает сведения о плановых и внеплановых сбоях в работе, способствуя выполнению договорных и нормативных требований.

Клиенты

Логотип Pearson

«Воспользовавшись Центром обеспечения устойчивости AWS, мы пересмотрели функции приложений и их значимость, чтобы проанализировать перспективу полного или частичного вывода таких приложений из эксплуатации и, как следствие, ограничить их влияние на рабочие процессы. Именно благодаря Центру обеспечения устойчивости AWS нам удалось выявить критически важные приложения, использовав соответствующие вводные значения»,


– Ронни Кендрик, старший менеджер по надежности, руководитель отдела управления инфраструктурой и рабочими процессам в компании Pearson

Pearson использует Центр обеспечения устойчивости AWS для повышения устойчивости приложений

«ADL Digital Labs (ADL) создана в 2017 году и сегодня является одной из лучших платформ для продвижения цифровых продуктов в отрасли финансовых услуг на рынке Латинской Америки. ADL понимает, насколько важно предоставлять своим клиентам высоконадежные решения, поэтому она использовала Центр обеспечения устойчивости AWS для проверки и отслеживания состояния отказоустойчивости своих приложений с сохранением соответствия политикам и целевых показателей доступности. Интеграция Центра обеспечения устойчивости AWS в систему обеспечения непрерывности бизнеса позволила ADL подтвердить устойчивость и непрерывность бизнеса по восьми транзакционным каналам, которые обслуживают около 4 миллионов клиентов в четырех крупных финансовых организациях Колумбии», — Александр Чапарро, руководитель отдела архитектуры Aval Digital Labs


Подробнее об AWS