Lợi ích của Trung tâm khả năng phục hồi AWS

Liên tục xác thực và theo dõi khả năng phục hồi ứng dụng để giảm tình trạng ngừng hoạt động
Đánh giá các mục tiêu phục hồi (Thời gian khôi phục (RTO) và Điểm khôi phục (RPO)).
Xác định và giải quyết sự cố trước khi sự cố xảy ra trong khâu sản xuất.
Tối ưu hóa tính liên tục cho kinh doanh, đồng thời giảm chi phí khôi phục.

Cách thức hoạt động

Trung tâm khả năng phục hồi AWS là một vị trí trung tâm trong Bảng điều khiển AWS để bạn quản lý và cải thiện khả năng phục hồi của các ứng dụng trên AWS. Trung tâm khả năng phục hồi AWS cho phép bạn xác định các mục tiêu về khả năng phục hồi, đánh giá khả năng phục hồi của bạn so với các mục tiêu đó và thực hiện các đề xuất để cải thiện dựa trên Khung AWS Well-Architected. Trong Trung tâm khả năng phục hồi AWS, bạn cũng có thể tạo và chạy thử nghiệm Dịch vụ tiêm lỗi AWS (AWS FIS), qua đó mô phỏng tình trạng gián đoạn thực tế đối với ứng dụng của mình để giúp bạn hiểu rõ hơn về các phần phụ thuộc và tìm ra các điểm yếu tiềm ẩn.

Trung tâm khả năng phục hồi AWS cung cấp cho bạn các dịch vụ và công cụ cần thiết để liên tục tăng cường khả năng phục hồi, tất cả tập trung ở một nơi duy nhất.

Tính năng

Mô tả các ứng dụng của bạn dưới dạng bộ sưu tập tài nguyên, chẳng hạn như ngăn xếp CloudFormation, tệp trạng thái Terraform, ứng dụng AppRegistry hoặc các nhóm tài nguyên, hoặc xác định các ứng dụng cho khối lượng công việc Kubernetes được quản lý trên Amazon EKS. Các ứng dụng cũng có thể được mô tả bằng cách sử dụng cả bộ sưu tập tài nguyên và cụm Amazon EKS.
Xác định các chính sách về khả năng phục hồi cho ứng dụng. Các chính sách này bao gồm mục tiêu RTO và RPO khi xảy ra gián đoạn đối với các ứng dụng, cơ sở hạ tầng, Vùng sẵn sàng và Khu vực.

Chương trình đánh giá của AWS Resilience Hub áp dụng các phương pháp tốt nhất từ AWS Well-Architected Framework để phân tích các thành phần ứng dụng và tìm ra điểm yếu tiềm ẩn về khả năng phục hồi. Nguyên nhân có thể do thiết lập cơ sở hạ tầng không hoàn chỉnh, cấu hình sai hoặc các tình huống cần cải thiện cấu hình bổ sung.

AWS Resilience Hub cung cấp các đề xuất hữu ích giúp cải thiện khả năng phục hồi. Chương trình đánh giá khả năng phục hồi cũng tạo ra các đoạn mã cho phép bạn tạo các quy trình phục hồi như tài liệu AWS Systems Manager cho ứng dụng, được gọi là các Quy trình vận hành tiêu chuẩn (SOP). Trung tâm khả năng phục hồi AWS tạo ra một danh sách gồm các trình giám sát và cảnh báo Amazon CloudWatch được đề xuất nhằm hỗ trợ người vận hành nhanh chóng xác định các thay đổi về khả năng phục hồi của ứng dụng khi được triển khai.

Sau khi ứng dụng và SOP được cập nhật để kết hợp các đề xuất từ chương trình đánh giá khả năng phục hồi, bạn có thể sử dụng AWS Resilience Hub để kiểm tra và xác minh xem ứng dụng có thể đáp ứng các mục tiêu phục hồi hay không trước khi đưa vào khâu sản xuất. AWS Resilience Hub tích hợp với dịch vụ mô phỏng trạng thái rối loạn AWS Fault Injection Simulator (FIS) để cung cấp các tình huống mô phỏng sự cố lỗi thực nhằm xác thực khả năng phục hồi của ứng dụng trong phạm vi các mục tiêu phục hồi đã xác định. Tình huống mô phỏng sự cố này có thể bao gồm lỗi mạng hoặc lỗi có nhiều kết nối mở đến cơ sở dữ liệu. AWS Resilience Hub cũng cung cấp các API cho phép bạn tích hợp chương trình kiểm tra và đánh giá khả năng phục hồi vào quy trình CI/CD để liên tục xác thực khả năng phục hồi. Việc tích hợp tính năng xác thực khả năng phục hồi vào quy trình CI/CD đảm bảo rằng các thay đổi trong hạ tầng cơ sở của ứng dụng không ảnh hưởng đến khả năng phục hồi.

Trường hợp sử dụng

Sử dụng các tình huống mô phỏng sự cố lỗi thực nhằm xác thực mức độ hiệu quả của cảnh báo và quy trình vận hành tiêu chuẩn (SOP) khôi phục.

Cung cấp các đề xuất hữu ích cho phép cải thiện khả năng phục hồi và giúp bạn tạo các quy trình khôi phục.

Lưu giữ hồ sơ kiểm tra các sự kiện trong thời gian ứng dụng ngừng hoạt động theo kế hoạch và ngoài kế hoạch, hỗ trợ đáp ứng các yêu cầu tuân thủ và quy định.

Khách hàng

Logo của Pearson

"Với Trung tâm khả năng phục hồi AWS, chúng tôi có thể xem xét chức năng của các ứng dụng của mình...và tự hỏi 'đây có phải là một ứng dụng quan trọng hay ứng dụng này có thể ngừng hoạt động trong một thời gian ngắn mà không ảnh hưởng đến hoạt động của chúng tôi?' Trung tâm khả năng phục hồi AWS đóng vai trò quan trọng vì chúng tôi có thể nhập giá trị và nhanh chóng hiểu được ứng dụng nào thực sự quan trọng đối với Pearson."


-Ronnie Kendrick, Giám đốc SRE Cấp cao, Cơ sở hạ tầng và hoạt động tại Pearson

Pearson khai thác Trung tâm khả năng phục hồi AWS để cải thiện khả năng phục hồi của ứng dụng

“ADL Digital Labs (ADL) ra đời vào năm 2017 và hiện đang một trong những nền tảng tốt nhất để thúc đẩy các sản phẩm kỹ thuật số cho ngành dịch vụ tài chính tại Châu Mỹ La-tinh. Nhận thức được tầm quan trọng của việc cung cấp các giải pháp có độ tin cậy cao cho khách hàng của mình, ADL đã kết hợp Trung tâm khả năng phục hồi AWS để xác minh và theo dõi tình trạng phục hồi của các ứng dụng, đồng thời duy trì khả năng hiển thị các mục tiêu tuân thủ chính sách và mức độ sẵn sàng. Việc tích hợp Trung tâm khả năng phục hồi AWS vào khung kinh doanh liên tục của ADL dẫn đến việc xác nhận khả năng phục hồi và tình trạng kinh doanh liên tục cho tám kênh giao dịch, phục vụ khoảng 4 triệu khách hàng tại bốn tổ chức tài chính lớn ở Colombia." - Alexander Chaparro, Giám đốc Kiến trúc, Aval Digital Labs


Khám phá thêm về AWS