AWS에서 통합 로그 분석 솔루션을 구축하여 새로운 정보를 파악하는 Autodesk

3D 설계 및 엔지니어링 소프트웨어 분야의 선도 업체인 Autodesk는 소프트웨어 제작 및 공급뿐 아니라 전 세계 수백만 명의 사용자에게 해당 소프트웨어를 실행하는 최적의 환경도 제공하고자 합니다. 이 목표를 달성하려면 소프트웨어 문제를 모니터링하여 최대한 빨리 해결해야 합니다. 하지만 쉽지 않은 작업이었습니다. 분석/저장해야 하는 데이터의 양이 갈수록 늘어남에 따라, Autodesk의 이전 애플리케이션 데이터 로그 솔루션으로는 모든 데이터를 처리하기가 어려웠기 때문입니다.

이 솔루션은 매일 2TB의 데이터를 수집하는데, 데이터 수집량은 향후 몇 년 내에 10TB까지 늘어날 것으로 예상되었습니다. Autodesk의 선임 소프트웨어 아키텍트인 Tommy Li는 “이전 솔루션에는 성능 문제가 있어 문제를 빠르게 탐지할 수 없었습니다. Autodesk에는 고객의 문의 사항에 더 빠르게 답변하기 위해 실시간으로 로깅, 인시던트 데이터를 모니터링하는 기능이 필요했습니다.”라고 설명합니다.

또한 Autodesk 재무 부서에서 가성비가 더 우수한 로깅 솔루션을 선택하라는 요청을 하기도 했습니다. Li는 “Autodesk의 IT 팀은 소규모이므로 비용은 줄이면서 로그 데이터는 쉽게 관리할 수 있는 솔루션을 찾아야 했습니다.”라고 말합니다.

“결론적으로는 로그 데이터를 실시간으로 확인함으로써 고객에게 더 유용한 서비스를 제공하고 있으며 소프트웨어 제품도 개선하고 있습니다.”

Tommy Li(Autodesk 선임 소프트웨어 아키텍트)

  • Autodesk 정보
  • 미국 캘리포니아 주 산라파엘 소재 기업인 Autodesk는 아키텍처, 엔지니어링, 건설, 제조, 미디어/엔터테인먼트 업계용 제품을 생산하는 소프트웨어 업체입니다. Autodesk에서 개발한 소프트웨어로는 AutoCAD, 3D 솔루션 등이 있습니다.

  • 이점
    • 실시간 데이터 분석을 통해 애플리케이션 문제를 더 빨리 확인하여 해결
    • 평균 문제 탐지/복구 시간 단축
    • 소규모 IT 팀에서 엔터프라이즈 데이터 로깅 분석 솔루션 구축
  • 사용된 AWS 서비스

AWS 기반의 완전관리형 통합 로그 데이터 솔루션 개발

Autodesk는 근본 원인 분석용 로그 분석 기능을 개선하기 위해 Amazon Web Services(AWS)를 활용한 클라우드 기반 통합 로그 데이터 솔루션을 구축할 방법을 조사했습니다. Li는 “Autodesk 내부의 여러 팀에서 이미 AWS 서비스를 사용해왔으며 통합 로깅 시스템을 개발하여 사용을 확장하기를 원했다"고 설명합니다.

Amazon Data Firehose는 로깅 데이터용 데이터 전송 계층으로 사용되며, Amazon Managed Service for Apache Flink는 응답 시간, 오류율 급증 등의 실시간 모니터링 지표를 확인하는 데 사용됩니다. 이 파이프라인을 통과한 로깅 데이터는 Amazon CloudWatch로 전송됩니다. 그러면 회사 전체에서 확인 가능한 표준 대시보드에 추가 지표가 표시됩니다. 이러한 지표에는 응답 시간, 오류, 총 요청 수를 포함한 전반적인 트래픽 요약, 응답 시간 백분위수, 성공 요청 수, 오류 요청 수를 포함한 API 지표, 각 CPU의 CPU, 네트워크, 디스크 수뿐만 아니라 AWS 서비스용 Amazon CloudWatch 지표 등이 포함됩니다.

동시에 Amazon Data Firehose는 Amazon OpenSearch Service에 로그 데이터를 제공합니다. 이 서비스는 대화형 로그 분석, 실시간 애플리케이션 모니터링, 웹 사이트 검색 등을 쉽게 수행하도록 지원하는 관리형 서비스입니다. Li는 "[Amazon OpenSearch Service]를 사용하면 데이터 포렌식 활동을 수행하고 애플리케이션 문제를 더 빠르게 해결할 수 있다"고 말합니다. Amazon Athena는 심층 대화형 분석 쿼리 기능을 제공하며, AWS X-Ray는 추적 데이터 분석용 도구를 제공합니다. 또한, Amazon OpenSearch Service와 통합된 Kibana 오픈 소스 데이터 시각화 도구는 대시보드를 구동하여 실시간으로 데이터를 모니터링합니다.

이전보다 빠르게 문제 확인 및 해결

Amazon OpenSearch Service에 구축된 통합 로깅 솔루션에서는 데이터 로그에 대한 더 나은 효율성을 보다 빠르게 제공합니다. "[Amazon OpenSearch Service]를 사용하면 보다 일관된 방식으로 실시간 로깅 데이터를 수집하고 측정할 수 있습니다"라고 Li는 말합니다. "이 서비스에서 제공하는 심층 데이터 분석 기능을 활용하면 로깅 이벤트 간의 상관 관계를 더욱 적절하게 지정할 수 있으므로 애플리케이션 문제를 해결하는 방법을 더 빠르게 파악할 수 있습니다." 일례로 Autodesk 팀은 이상 현상을 나타내는 추세와 패턴을 식별하는 대시보드를 만들었는데, 이 대시보드를 통해 세부 로그 레코드의 상관 관계를 빠르게 지정하여 자세한 포렌식을 진행할 수 있습니다.

구체적으로 설명하자면, Autodesk는 계측 데이터를 사용해 오류를 탐지 및 해결하여 전반적인 평균 복구 시간을 단축함으로써 포렌식 분석 과정의 효율성을 높이고 있습니다. 또한 오류율, 응답 시간 급등과 같은 API 사용 관련 이상 현상을 탐지할 수 있습니다. 그뿐만 아니라, Amazon CloudWatch 알림 이벤트가 제공되므로 인시던트를 파악하여 대응 팀에 연락을 하는 데 걸리는 평균 시간도 단축하고 있습니다.

또한 Autodesk는 소프트웨어 및 고객 서비스 개선을 위해 분석 데이터에서 심층 정보를 파악하고자 합니다. Li는 “결론적으로는 로그 데이터를 실시간으로 확인함으로써 고객에게 더 유용한 서비스를 제공하고 있으며 소프트웨어 제품도 개선하고 있습니다.”라고 설명합니다.

Autodesk는 AWS를 활용하여 확장성이 매우 뛰어난 로그 분석 기능을 구축함으로써 전반적인 솔루션 비용을 줄이고 있습니다.

데이터 사일로 문제 해소

Autodesk는 Elasticsearch 클러스터 및 아키텍처 관리 작업을 AWS에서 처리함으로써 통합 로깅 솔루션을 쉽게 구축할 수 있었습니다. Li는 “저희 IT 팀은 매우 소규모이지만 AWS에서 기술 관련 작업을 처리해 주므로 유용한 로깅 솔루션을 개발하고 유지 관리할 수 있습니다. 그러므로 더 이상 기본 인프라 관리에 리소스를 배정할 필요가 없으며, 계속 증가하는 로깅 데이터를 지원하기 위해 온디맨드 방식으로 솔루션을 확장할 수 있습니다.”라고 강조합니다.

현재 Autodesk는 애플리케이션 성능, 가동 중단 시간 등의 로깅 데이터를 한곳에서 확인할 수 있는 솔루션을 활용하고 있습니다.

Li는 “여러 팀이 각기 다른 로깅 솔루션을 사용함에 따라 발생하는 데이터 사일로는 더 이상 문제가 되지 않습니다. AWS 솔루션을 사용하면 모두가 같은 보기에 액세스할 수 있으므로 전반적인 플랫폼 상태와 관련한 업데이트된 정보를 받을 수 있기 때문입니다. 그리고 Kibana 대시보드를 사용하면 모든 직원이 문제를 진단하는 데 사용할 수 있는 공통 용어를 생성할 수 있습니다. 따라서 회사 전반에 걸쳐 더욱 통합된 방식을 활용해 문제를 파악하고 해결할 수 있습니다.”라고 설명합니다.


자세히 알아보기

자세히 알아보기: Big Data on AWS