Chuyển đến nội dung chính

AWS DevOps Agent

Nâng cao sự xuất sắc trong vận hành với tác tử AI tự chủ giúp giải quyết và chủ động ngăn ngừa sự cố

AWS DevOps Agent là gì?

AWS DevOps Agent là đồng đội vận hành luôn sẵn sàng của bạn, giúp giải quyết và chủ động ngăn chặn sự cố, tối ưu hóa độ tin cậy và hiệu suất của ứng dụng cũng như xử lý các tác vụ SRE theo yêu cầu trên các môi trường AWS, đa đám mây và tại chỗ. DevOps Agent kiểm tra sự cố và xác định các cải tiến vận hành tương tự như một kỹ sư DevOps giàu kinh nghiệm: bằng cách tìm hiểu ứng dụng của bạn và mối quan hệ giữa các ứng dụng đó, làm việc với các công cụ hỗ trợ khả năng quan sát, tài liệu vận hành, kho lưu trữ mã và quy trình CI/CD, đồng thời tạo tương quan dữ liệu đo lường từ xa, mã và triển khai trên tất cả các môi trường. Đặt câu hỏi, nhận câu trả lời theo ngữ cảnh tức thì, đồng thời tạo đồ thị và báo cáo tùy chỉnh mà bạn có thể lưu và chia sẻ với nhóm của mình.

Lợi ích

    Hãy xem AWS DevOps Agent như kỹ sư sẵn sàng đợi lệnh, có khả năng tự hành theo yêu cầu của bạn. Tác tử này sẽ bắt đầu điều tra ngay khi cảnh báo xuất hiện, bất kể là vào lúc 2 giờ sáng hay trong giờ cao điểm, để nhanh chóng khôi phục ứng dụng của bạn về hiệu năng tối ưu. AWS DevOps Agent tự động phân loại sự cố 24/7, cung cấp kết quả phân tích nguyên nhân gốc rễ và đưa ra hành động để giải quyết. Tác tử này sử dụng sự hiểu biết của mình về các tài nguyên ứng dụng và mối quan hệ của bạn để nhanh chóng nắm bắt các mối quan hệ phụ thuộc và tương tác. AWS DevOps Agent tinh giản công tác ứng phó với sự cố bằng cách tự động định tuyến kết quả quan sát, nội dung phát hiện và các bước giảm thiểu hậu quả thông qua các kênh liên lạc bạn ưu tiên sử dụng như Slack, ServiceNow và PagerDuty.

    AWS DevOps Agent phân tích xu hướng trên nhiều sự cố đã từng xảy ra để đưa ra đề xuất hữu ích nhằm củng cố bốn lĩnh vực chính: khả năng quan sát, tối ưu hóa cơ sở hạ tầng, nâng cao quy trình triển khai và khả năng phục hồi cho ứng dụng. Các đề xuất bao gồm các thông số kỹ thuật sẵn sàng cho tác tử để giao việc triển khai cho tác tử viết mã của bạn hoặc giao cho đồng nghiệp để cập nhật mã ứng dụng hoặc cơ sở hạ tầng. Điều này thúc đẩy cải tiến liên tục mà không cần phải quản lý công việc tồn đọng.

    AWS DevOps Agent tạo điều kiện cho bạn tiếp cận thông tin chuyên sâu chưa được khai thác trong dữ liệu vận hành bằng cách tích hợp bảo mật với quy trình công việc và công cụ hỗ trợ khả năng quan sát, tài liệu vận hành, kho lưu trữ mã và quy trình CI/CD. AWS DevOps Agent mang lại các thành phần tích hợp sẵn với các công cụ hỗ trợ khả năng quan sát như Amazon CloudWatch, Dynatrace, Datadog, Grafana, New Relic và Splunk cũng như kho lưu trữ mã và quy trình CI/CD như Azure DevOps, GitHub và GitLab. Bạn có thể mở rộng phạm vi hoạt động của AWS DevOps Agent ra ngoài các thành phần tích hợp sẵn bằng cách kết nối với máy chủ MCP riêng hoặc từ xa của bạn, cho phép các thành phần tích hợp với các công cụ bổ sung như công cụ tùy chỉnh của tổ chức, nền tảng chuyên dụng hoặc hệ thống quản lý phiếu hỗ trợ độc quyền.

    AWS DevOps Agent tận dụng hiểu biết sâu sắc về môi trường của bạn, cho phép bạn đi sâu hơn vào môi trường ứng dụng, ngoài việc chỉ đặt câu hỏi, để tạo, lưu và chia sẻ đồ thị và báo cáo tùy chỉnh. Truy vấn tình trạng tài nguyên, điều tra các mô hình sự cố, theo dõi các bản triển khai và khám phá các khuyến nghị phòng ngừa, tất cả thông qua giao diện ngôn ngữ tự nhiên. Tạo, lưu và chia sẻ đồ thị và báo cáo tùy chỉnh, giúp bạn theo dõi chỉ số vận hành và truyền đạt thông tin chuyên sâu với nhóm của bạn.

Khách hàng

United Airlines

“Tại United Airlines, chúng tôi vận chuyển hơn 500.000 hành khách mỗi ngày. Chúng tôi có khoảng 38.000 tác tử Dynatrace OneAgents giám sát toàn bộ môi trường đám mây lai, hơn 500 tài khoản AWS, 20.000 hàm AWS Lambda, vi dịch vụ Amazon ECS và nhiều dịch vụ khác. Ở quy mô này, trước đây chúng tôi đã sử dụng nhiều công cụ thực hiện cùng các chức năng trên các miền khác nhau, tạo ra khoảng trống và hộp đen trong quá trình khắc phục sự cố. AWS DevOps Agent với Dynatrace thay đổi hoàn toàn điều đó. Một cách nhanh chóng và chính xác, Dynatrace phát hiện các vấn đề, xác định lớp ứng dụng chịu trách nhiệm, sau đó tác tử này điều tra thêm và cung cấp các bước chính xác để giải quyết vấn đề – tất cả đều được đưa trực tiếp vào Dynatrace. Thay vì bắt đầu một cuộc gọi về sự cố lúc 3 giờ sáng và chuyển đổi giữa các công cụ, giờ đây chúng tôi đã có sẵn câu trả lời – trong một giải pháp tập trung”.

Jason Eckhart, Kỹ sư chính, Độ tin cậy và Khả năng Quan sát, United Airlines

Missing alt text value

T-Mobile

“Khi AWS ra mắt DevOps Agent, T-Mobile đã có mặt ngay từ ngày đầu tiên. Với tư cách là đối tác thiết kế, chúng tôi đã thấy AWS DevOps Agent có thể cải thiện đáng kể phân tích nguyên nhân gốc rễ trên các môi trường sản xuất như thế nào. Phản hồi thực tế của chúng tôi ảnh hưởng trực tiếp đến cách sản phẩm phát triển. 

Cơ sở hạ tầng của chúng tôi trải dài trên nhiều đám mây và môi trường tại chỗ, với bản ghi ứng dụng tập trung trong bản triển khai Splunk tại chỗ của chúng tôi. Khả năng của AWS DevOps Agent trong việc tích hợp liền mạch với Splunk và phân tích bản ghi trên các môi trường đa dạng này đã có tác động mạnh mẽ khi chúng tôi tiếp tục thử nghiệm giải pháp”.

Aravind Manchireddy, Phó Chủ tịch, Vận hành Công nghệ, T-Mobile

Missing alt text value

Western Governors University

Western Governor's University (WGU), một trường đại học trực tuyến hàng đầu phục vụ hơn 191.000 sinh viên, là một trong những tổ chức đầu tiên triển khai Amazon DevOps Agent vào sản xuất, làm như vậy ngay cả trước khi ra mắt bản xem trước tại re:Invent. Là người dùng Dynatrace quy mô lớn, WGU tận dụng thành phần tích hợp Dynatrace gốc của DevOps Agent, cho phép Dynatrace Intelligence tự động định tuyến các bản ghi vấn đề đến Tác tử để điều tra và trả lại những nội dung phát hiện đã được làm giàu trực tiếp trở lại Dynatrace.

Trong một cuộc điều tra sản xuất gần đây, nhóm SRE của WGU đã sử dụng DevOps Agent để phân tích kịch bản gián đoạn dịch vụ, giảm tổng thời gian giải quyết từ ước tính hai giờ xuống chỉ 28 phút – cải thiện 77% đối với thời gian trung bình để giải quyết (MTTR). Tác tử này nhanh chóng xác định chính xác nguyên nhân gốc rễ trong cấu hình của hàm Lambda, phát hiện kiến thức vận hành quan trọng mà trước đây chỉ tồn tại trong tài liệu nội bộ chưa được khám phá.

“Tác tử này có thể cung cấp thông tin xác quyết, xác định Lambda là nguyên nhân. Cuộc điều tra có các chỉ số gần như hoàn hảo, phù hợp với những gì chúng tôi thấy trên front-end”. Ông nói thêm: “Hôm qua là một chiến thắng to lớn. Nếu chúng tôi có thể tiếp tục đẩy nhanh quá trình khám phá, tôi không thể mô tả chiến thắng đó lớn đến mức nào cho tổ chức của chúng tôi”. Với kế hoạch tận dụng tính năng DevOps Agent Skills, WGU đang đi đúng hướng để thu hẹp thời gian điều tra hơn nữa.

Angel Marchena, Giám đốc Vận hành Kỹ thuật, Western Governors University

Missing alt text value

Zenchef

Zenchef là một nền tảng công nghệ nhà hàng giúp các nhà hàng quản lý đặt chỗ, hoạt động phục vụ bàn, thực đơn kỹ thuật số, thanh toán và tiếp thị cho khách từ một hệ thống miễn phí hoa hồng duy nhất. Với một nhóm DevOps tập trung quản lý một số môi trường sản xuất trên nhiều đơn vị kinh doanh, họ phải đối mặt với một thử thách thực sự khi một vấn đề của thành phần tích hợp API ảnh hưởng đến đối tác hạ nguồn xuất hiện trong một cuộc hackathon của công ty, với các kỹ sư tham gia sự kiện và không có thông tin quan trọng xuất hiện trong hoạt động giám sát để chỉ cho họ đi đúng hướng.

Thay vì kéo các kỹ sư ra khỏi hackathon, nhóm đã đưa vấn đề đến DevOps Agent. Tác tử này đã giải quyết vấn đề một cách có hệ thống, loại trừ xác thực trong vai trò yếu tố đóng góp, chuyển trọng tâm điều tra sang bản triển khai ECS và cuối cùng truy tìm nguyên nhân gốc rễ dẫn đến một hồi quy mã, trong đó phiên bản mới không xử lý được giá trị enum chưa được xác định trong cơ sở dữ liệu. Cuộc điều tra hoàn chỉnh kết thúc trong 20-30 phút, giảm khoảng 75% so với 1-2 giờ điều tra thủ công và các nội dung phát hiện được chia sẻ trực tiếp với kỹ sư chịu trách nhiệm.

“Trong cuộc thi hackathon, chúng tôi gần như không có băng thông sẵn có để điều tra - và chúng tôi không cần đến điều đó. Chúng tôi luôn cố gắng kết hợp với tác tử để tiến lên phía trước, và loại hình điều tra chủ động này không phải lúc nào cũng có thể thực hiện được với những giải pháp khác. DevOps Agent đang cung cấp những cách mới để hiểu cách các nền tảng của chúng tôi hoạt động”.

Theo Massard, Giám đốc Kỹ thuật Nền tảng, Zenchef

Missing alt text value

Trường hợp sử dụng

Ứng phó và giải quyết sự cố

AWS DevOps Agent tự động phân loại sự cố và hướng dẫn các đội ngũ giải quyết nhanh chóng. AWS DevOps Agent tích hợp với nhiều công cụ khả năng quan sát, kho lưu trữ mã và quy trình CI/CD để tạo mối tương quan giữa và phân tích dữ liệu đo lường từ xa, mã và triển khai, chia sẻ giả thuyết, kết quả quan sát và nội dung phát hiện của mình. Thông qua các cuộc điều tra có hệ thống, AWS DevOps Agent sẽ xác định nguyên nhân gốc rễ của các vấn đề xuất phát từ thay đổi hệ thống, bất thường trong đầu vào, giới hạn tài nguyên, lỗi thành phần và vấn đề trong quan hệ phụ thuộc trên khắp toàn bộ môi trường của bạn.

Điều phối xử lý sự cố tự động

Bạn có thể khởi động và chỉ đạo điều tra bằng cách sử dụng tính năng trò chuyện tương tác. AWS DevOps Agent hoạt động như một thành viên trong đội ngũ vận hành của bạn, làm việc trực tiếp trong phạm vi các công cụ điều phối của bạn như ServiceNow và Slack để chia sẻ nội dung phát hiện và điều phối phản hồi. Khi cần thiết, hãy tạo trường hợp Hỗ trợ AWS trực tiếp từ cuộc điều tra, cung cấp cho các chuyên gia Hỗ trợ AWS bối cảnh tức thì để tăng tốc giải quyết.

Ngăn chặn sự cố vận hành trong tương lai

AWS DevOps Agent phân tích xu hướng trên nhiều sự cố đã từng xảy ra để đưa ra đề xuất có thể hành động nhằm củng cố bốn lĩnh vực chính: khả năng quan sát, tối ưu hóa cơ sở hạ tầng, nâng cao quy trình triển khai và khả năng phục hồi cho ứng dụng. 

Tăng tốc xử lý tác vụ SRE theo yêu cầu

Nhận câu trả lời ngay lập tức, theo ngữ cảnh cho các câu hỏi về vận hành mà không cần chuyển qua lại giữa các bảng điều khiển. Truy vấn tình trạng tài nguyên, điều tra các mô hình sự cố, theo dõi các bản triển khai và khám phá các đề xuất thông qua cuộc trò chuyện tự nhiên. Ngoài hỏi đáp, hãy tạo, lưu và chia sẻ các đồ thị và báo cáo tùy chỉnh như tóm tắt tình trạng vận hành hàng ngày hoặc xu hướng lỗi 4xx. Lịch sử hội thoại được duy trì để bạn có thể tận dụng các truy vấn trước đó mà không mất đi ngữ cảnh.

Hôm nay, bạn đã tìm thấy nội dung mình cần chưa?

Chia sẻ với chúng tôi để chúng tôi có thể cải thiện chất lượng nội dung trên trang