Amazon DevOps Guru

애플리케이션 가용성을 개선하는 기계 학습 기반 클라우드 운영 서비스

Amazon DevOps Guru는 기계 학습(ML) 기반 서비스로서 애플리케이션의 운영 성능 및 가용성을 쉽게 개선하도록 설계되었습니다. DevOps Guru는 정상적인 운영 패턴에서 벗어나는 동작의 탐지를 도와 고객에게 영향을 미치기 훨씬 전에 운영 문제를 확인할 수 있습니다.

DevOps Guru는 오랫동안 Amazon.com 및 AWS 운영 우수성을 기반으로 축적된 기계 학습 모델을 사용함으로써 비정상적인 애플리케이션 동작(예: 지연 시간, 오류율, 리소스 제약 등의 증가)을 식별하여 가동 중단 또는 서비스 중단을 유발할 수 있는 중요한 문제 탐지를 돕습니다. DevOps Guru가 중요한 문제를 식별하면 자동으로 알림을 발송하면서 관련 이상 현상, 가능한 근본 원인 및 문제가 발생한 시기 및 위치에 대한 컨텍스트를 요약하여 제공합니다. 가능한 경우, DevOps Guru는 문제를 해결하는 방법에 대한 권장 사항 제공도 돕습니다.

DevOps Guru는 1-Click 배포로 AWS 애플리케이션에서 운영 데이터를 자동으로 수집하며, 운영 데이터의 문제를 시각화할 수 있는 단일 대시보드를 제공합니다. 수동 설정이나 기계 학습 전문 지식 없이도 사용 중인 AWS 계정의 모든 리소스, AWS CloudFormation 스택의 리소스, AWS 태그로 묶인 리소스 그룹에 대해 DevOps Guru를 활성화하여 시작할 수 있습니다.

7,200시간 동안의 AWS 리소스 시간 무료

리소스 그룹 A 및 B에 대해 각각

AWS 프리 티어를 3개월간 매달 제공

장점

문제 탐지

운영 문제를 자동으로 탐지

Amazon DevOps Guru는 기계 학습을 사용함으로써 애플리케이션 지표, 로그 및 이벤트와 같은 데이터와 정상적인 운영 패턴에서 벗어난 동작을 자동으로 수집 및 분석할 수 있습니다. 이 서비스는 가동 중단, 메모리 누수, 부족하게 프로비저닝된 컴퓨팅 용량, 데이터베이스 입력/출력(I/O) 과다 사용을 유발할 수 있는 임박한 리소스 고갈, 코드 및 구성 변경 등과 같은 운영 문제 및 위험을 자동으로 탐지하고 알리도록 설계되었습니다.

문제 해결

기계 학습 기반 인사이트로 신속하게 문제 해결

Amazon DevOps Guru는 비정상적인 동작과 운영 이벤트를 상호 연결하여 문제의 근본 원인을 식별하고 해결하는 시간을 절감할 수 있습니다. 문제가 발생하면 DevOps Guru는 문제와 관련되는 이상 현상 및 컨텍스트 정보에 대한 요약과 함께 인사이트를 생성하도록 설계되었습니다. 가능한 경우, 문제 해결을 위한 실행 가능한 권장 사항을 제공하도록 돕습니다.

크기 조정

간편한 가용성 확장 및 유지

Amazon DevOps Guru는 정적 규칙 및 경보를 수동으로 업데이트하는 데 드는 시간과 노력을 절감할 수 있게 하며, 따라서 발전하는 복잡한 애플리케이션을 효과적으로 모니터링할 수 있습니다. 새로운 AWS 서비스를 마이그레이션하거나 채택하면 DevOps Guru는 그 지표, 로그 및 이벤트를 자동으로 분석합니다. 그런 다음 인사이트를 생성하며, 이를 통해 변화하는 동작 및 시스템 아키텍처에 쉽게 적응할 수 있습니다.

노이즈 감소

노이즈 및 경보 피로 감소


Amazon DevOps Guru는 사전 훈련된 기계 학습 모델을 사용하여 관련 이상 현상을 상호 연결 및 그룹화하고 가장 중요한 알림을 표시함으로써 개발자와 IT 운영자가 경보 노이즈를 줄이고 경보 피로를 극복할 수 있도록 지원합니다. DevOps Guru를 사용하면 여러 모니터링 도구 및 경보를 관리해야 할 필요성을 줄일 수 있으며, 이는 문제의 근본 원인 및 해결에 집중할 수 있다는 것을 의미합니다.

작동 방식

DevOps Guru 작동 방식
운영 인사이트 받기


Amazon DevOps Guru로 운영 인사이트 확보

사용 사례

운영 성능 및 가용성 개선

운영 문제가 발생하기 전에 예방합니다. Amazon DevOps Guru는 자동 크기 조정 그룹의 한계에 도달하거나 대기 시간 패턴이 변경되거나 API 호출 볼륨이 증가하는 등 시간 경과에 따라 애플리케이션 안정성에 영향을 미칠 수 있는 중간 및 낮은 심각도의 결과를 표시하도록 설계되었습니다.

새로운 리소스와 지표를 동적으로 검색

애플리케이션이 발전하고 새롭게 지원되는 리소스가 추가되면 Amazon DevOps Guru는 새로운 각 지표의 패턴을 학습해서 운영 문제에 대한 조기 경고를 알려주도록 설계되었습니다. DevOps Guru가 이러한 리소스에서 지표를 수집하고 자동으로 분류하므로 더 이상 잘못 구성된 경보를 업데이트하거나 수정하지 않아도 됩니다.

평균 복구 시간 감소

관계형 데이터베이스를 포함한 AWS 리소스의 문제(리소스의 과잉 사용, 특정 SQL 쿼리의 오작동)를 DevOps Guru의 운영 인사이트와 함께 빠르게 진단하고 해결합니다. 이러한 인사이트는 영향 받는 리소스 및 관련 이상 현상에 해당하는 정보를 사용하여 평균 복구 시간(MTTR)을 줄이고 로그 및 관련 이벤트와 같은 상황별 데이터를 사용하여 권장 사항을 제공합니다.

사전 예방적 리소스 관리

DevOps Guru를 사용하면 메모리, CPU 및 디스크 공간과 같이 고갈될 수 있는 리소스가 프로비저닝된 용량을 초과하는 시기를 식별할 수 있습니다. DevOps Guru는 AWS에서 실행되는 리소스 및 애플리케이션을 지속적으로 수집하고 분석하므로 대시보드에 노이즈가 적은 알림을 생성하여 임박한 중단을 방지하는 데 도움이 됩니다.

고객

HCL Technologies
“당사는 항상 운영 문제 해결에 소요되는 시간을 줄일 방법을 찾습니다. 이제 Amazon DevOps Guru를 사용하고 기계 학습 기반 인사이트를 활용하여 운영 문제를 빠르게 식별하고 연관하고 해결하고 있습니다. Amazon DevOps Guru가 제공하는 인사이트를 활용하면 처음부터 문제의 근본 원인을 찾을 필요 없이 문제를 빠르게 찾을 수 있습니다. 회사의 IT 팀은 MTTR을 크게 단축했고 가능한 최고의 최종 사용자 경험을 보장하면서 문제 해결 시간을 대폭 줄이고 있습니다.”

Anchal Gupta, HCL의 DevOps 수석 기술 리드

Thomson Reuters
“저희는 고객 경험과 만족도를 가장 중요하게 생각합니다. 여러 소스의 알림과 모니터링 이벤트가 수신되면 노이즈를 필터링하여 고객에 영향을 미치는 인시던트를 찾기가 어렵고 시간이 많이 듭니다. Amazon DevOps Guru를 사용하면 기계 학습 기반 인사이트를 활용하여 명확한 작업 경로를 제공함으로써 고객에게 영향을 미치는 문제를 줄이고 많은 경우 제거할 수 있습니다. Amazon DevOps Guru를 PagerDuty와 통합하면 담당자에게 적시에 빠르고 효율적으로 권장 사항을 직접 전달할 수 있습니다. 앞으로 운영 중단이 대폭 줄어들 것으로 기대하고 있습니다.”

Steve Thoennes, Thomson Reuters의 인프라 호스팅 포트폴리오 디렉터

605.tv
“우리는 수십 개의 AWS 계정과 수만 개의 리소스를 모니터링해야 합니다. 코드형 인프라를 사용하고 이러한 서비스에 대한 동적 알림을 생성해도 지표 관리 및 상호 연계를 통해 문제를 빠르게 해결하기는 어렵습니다. Amazon DevOps Guru를 사용하면 여러 서비스에 걸쳐 연관된 기계 학습 기반 지표에서 정확한 알림을 수신할 수 있습니다. Amazon DevOps Guru 통합은 구현하는 데 몇 분 밖에 걸리지 않았습니다. 수천 개의 AWS CloudFormation 스택에 아주 빠르게 통합되었습니다. Amazon DevOps Guru는 인프라 로드맵에 집중하는 데 도움이 되는 인사이트를 제공해 주었습니다.”

Jared Williams, 605.tv의 DevOps 디렉터

파트너

Atlassian
"Atlassian의 고객들은 Amazon DevOps Guru를 통해 클라우드 애플리케이션의 운영 성능을 관리하는 AIOps 전략을 구현하고 있습니다. 새로운 Opsgenie와 Jira Service Management의 통합으로, Amazon DevOps Guru가 잠재적 문제를 발견해서 기계 학습을 사용하여 인시던트 심각도에 따라 문제의 우선 순위를 지정하는 즉시 해당하는 팀에게 알림이 전송됩니다. 이 통합 덕에 모든 팀이 모든 인시던트에 대해 빠르게 응답하고 기계 학습 기반 권장 사항을 사용하여 문제를 해결하며 학습할 수 있습니다.”

Emel Dogrusoz, Atlassian의 Opsgenie 제품 책임자

Amazon DevOps Guru와 Atlassian Opsgenie를 통합하여 비상 대기 팀에 운영 인사이트를 직접 제공하는 방법 알아보기
PagerDuty
"PagerDuty는 Amazon DevOps Guru와의 새로운 통합을 통해 AWS와의 파트너십을 강화하고 있습니다. PagerDuty의 디지털 운영 관리 플랫폼은 DevOps 문화로의 전환을 촉진하도록 구축되었으며 이 통합을 통해 이 약속을 지속할 수 있게 되어 기쁩니다. PagerDuty는 DevOps Guru의 기계 학습 기능을 활용하여 당사의 공동 고객들에게 실시간 효율을 훨씬 높인 신호 대 조치 기능을 제공하고 있습니다. PagerDuty의 Amazon Simple Notification Service(SNS) 수집을 통해 AWS 고객은 운영 문제가 고객에 영향을 미치는 가동 중단으로 악화되기 전에 이에 대한 조치를 실시간으로 취할 수 있습니다."

Jonathan Rende, PagerDuty의 부사장

PagerDuty와 Amazon DevOps Guru를 통해 비상 대기 팀에 기계 학습 기반의 운영 인사이트를 제공하는 방법을 자세히 알아보세요.

블로그 게시물 및 기사

devops guru 1a

신규- 애플리케이션 오류와 수정 사항을 파악하는 데 도움을 주는 Amazon DevOps Guru

2020년 12월

Harunobu Kameda

블로그 읽기 »

devops guru 2

AWS CloudFormation StackSets를 사용하여 여러 계정과 리전에 걸쳐 Amazon DevOps Guru를 손쉽게 구성할 수 있습니다.

2020년 12월

Nikunj Vaidya, Nuatu Tseggai

블로그 읽기 »

devops guru reinvent thumbnail

AWS re:Invent 2020: Amazon DevOps Guru가 제공하는 기계 학습 기반 인사이트로 애플리케이션 가용성 개선

2020년 12월

Jacob Sullivan

웨비나 보기 »

devops guru 4

Amazon DevOps Guru는 운영 효율성을 인코딩하는 사전 훈련된 기계 학습 모형을 기반으로 합니다.

2020년 2월

Caner Turkmen, Ravi Turlapati, Tim Januschowski

블로그 읽기 »

코드 검토 자동화

코드 검토 자동화
Amazon CodeGuru로 코드 문제를 조기에 더욱 신속하게 파악

Amazon DevOps Guru 기능
제품 기능 확인

애플리케이션의 운영 성능 및 가용성을 손쉽게 개선

자세히 알아보기 
무료 계정에 가입
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입 
콘솔에서 구축 시작
콘솔에서 구축 시작

AWS Management Console에서 Amazon DevOps Guru를 사용하여 구축을 시작하세요.

로그인