Amazon Web Services 한국 블로그

Thomson Reuters, Amazon SageMaker기반 자연어 처리 솔루션 개발 사례

이 게시물은 Thomson Reuters의 John Duprey와 Filippo Pompili가 공동 작성하였습니다. 본 게시물의 내용은 AWS의 공식적인 입장과 다를 수 있습니다.

Thomson Reuters(TR)는 세계에서 가장 신뢰할 수 있는 답변 제공 업체 중 하나로, 전문가들이 자신 있게 의사 결정을 내리고 더 나은 비즈니스를 운영할 수 있도록 지원합니다. TR의 전문가 팀은 정보, 혁신, 신뢰할 수 있는 인사이트를 결합하여 복잡한 상황을 해소하고, 전 세계 기자 및 편집자 네트워크를 통해 고객이 글로벌 개발을 가속화할 수 있도록 합니다. TR은 법률, 세금, 뉴스 및 기타 부문에 대해 사람이 주석을 추가한 150년 이상의 풍부한 데이터를 보유하고 있습니다. TR의 데이터는 비즈니스의 보고이며, TR을 경쟁사와 구별하는 측면 중 하나입니다.

2018년에 TR의 AI 및 인지 컴퓨팅 센터의 연구 사이언티스트 팀이 자연어 이해의 최전선에서 실험 프로젝트를 시작했습니다. 이 프로젝트는 기계 독해(MRC) 분야에서 큰 혼란을 초래한 최신 과학적 발견을 기반으로 하며 텍스트 분류, 자연어 질문 답변 등 수많은 태스크를 해결하는 데 사용할 수 있는 기술을 개발하는 것을 목표로 합니다.

이 글에서는 TR이 Amazon SageMaker를 사용하여 상당한 비용을 절감하고 유연성을 확보하여 연구 및 개발 노력을 가속화한 방법에 대해 설명합니다. 또한 팀에서 강력한 질문 응답 기능을 생성하기 위해 다양한 BERT 변종을 실험한 방법을 살펴봅니다. 마지막으로, 팀에서 Amazon SageMaker 리소스 및 TR 독점 데이터에 쉽고 안전하게 액세스할 수 있도록 해준 TR의 Secure Content Workspace(SCW)에 대해 설명합니다.

고객 과제

TR의 연구 개발 팀은 반복 작업을 빠르고 안전하게 수행해야 했습니다. 팀원들은 이미 얕은 알고리즘을 위한 전용 특성 추출과 특성 없는 신경 기반 솔루션을 통해 질문 응답 솔루션을 개발하는 데 충분한 전문 지식을 보유하고 있었습니다. 이들은 TR로부터 호평을 받은 두 제품인 Westlaw Edge(법률)와 Checkpoint Edge(세금)를 구동하는 기술을 개발하는 데 핵심적인 역할을 했습니다. 각 프로젝트는 15~18개월의 집중적인 연구 및 개발 기간이 필요했으며 놀라운 성과 수준에 도달했습니다. MRC의 경우 연구 팀은 법률 영역과 세금 영역을 구분하여 두 TR 데이터 집합에 대해 BERT와 여러 변종을 실험하기로 결정했습니다.

법률 교육 코퍼스는 편집 주간으로 검토된 수만 개의 질문으로 구성되었습니다. 짧은 온-포인트 텍스트 요약 형태로 각 질문을 몇 가지 잠재적 답변과 비교했습니다. 이러한 요약은 수십 년에 걸친 법률 사례에서 추출하여 신중하게 선별된 편집 자료로서, 수천만 개의 텍스트 요약에서 도출된 수십만 개의 질문-답변(QA) 쌍으로 구성된 후보 교육 세트가 탄생했습니다. 미국 연방 세법에 따라 편집 주간으로 선별된 60,000건 이상의 문서로 구성된 세금 코퍼스에는 수천 개의 질문과 수만 개의 QA 쌍이 포함되어 있습니다.

이러한 데이터 집합에 대한 모델 사전 훈련과 미세 조정은 최신 컴퓨팅 파워가 없다면 불가능합니다. 이러한 컴퓨팅 리소스를 조달하려면 일반적으로 리드 타임이 길고 많은 선행 투자가 필요했습니다. 제품으로 출시될 수도 있고 그렇지 않을 수도 있는 연구 아이디어에 대해 그 정도로 많은 실험 비용을 정당화하는 데 어려움이 있었습니다.

Amazon SageMaker를 선택해야 하는 이유

TR은 이 프로젝트의 기계 학습(ML) 서비스로 Amazon SageMaker를 선택했습니다. Amazon SageMaker는 기계 학습 모델을 대규모로 구축, 교육, 조정, 배포할 수 있는 완전 관리형 서비스입니다. TR이 Amazon SageMaker를 선택하기로 결정한 핵심 요인 중 하나는 종량제 방식으로 청구되는 관리형 서비스의 이점 때문이었습니다. TR에서는 Amazon SageMaker를 사용하여 실행할 실험 수를 결정하고 교육 비용을 제어할 수 있습니다. 무엇보다 훈련 작업을 마치고 나면 팀에서 사용한 GPU 인스턴스에 대한 요금이 더 이상 청구되지 않습니다. 따라서 훈련 리소스를 자체적으로 관리하는 것에 비해 많은 비용이 절감되고, 서버 사용률이 낮아졌습니다. 연구 팀은 필요한 만큼 인스턴스를 가동하고 장기 실험이 완료되면 프레임워크에서 해당 실험을 종료하도록 할 수 있습니다. 따라서 대규모 시제품을 빠르게 제작할 수 있게 되었습니다.

또한 Amazon SageMaker에는 관리형 스팟 인스턴스를 사용할 수 있는 기능이 내장되어 있어서 경우에 따라 훈련 비용을 50% 이상 절감했습니다. 방대한 독점 데이터 집합에 대해 BERT와 같은 모델을 사용하는 일부 대규모 자연어 처리(NLP) 실험에서는 교육 시간이 몇 주가 아닌 며칠 단위로 측정되며 고가의 GPU가 관련 하드웨어에 포함됩니다. 한 번의 실험에 수천 달러가 소요될 수 있습니다. Amazon SageMaker를 활용한 관리형 스팟 교육을 통해 TR은 훈련 비용을 평균 40-50% 절감할 수 있었습니다. 자체 관리형 훈련과 비교하여 Amazon SageMaker에는 전체 보안 기능이 내장되어 있습니다. 따라서 팀에서는 자체 관리형 기계 학습 인프라에 필요한 수많은 코딩 시간을 절약했습니다.

훈련 작업을 시작한 후 TR은 Amazon SageMaker 콘솔에서 해당 작업을 쉽게 모니터링할 수 있습니다. 로깅 및 하드웨어 사용률 측정 기능을 활용하여 팀에서 작업 상태를 빠르게 파악할 수 있었습니다. 예를 들어 훈련 손실이 예상대로 진행되고 할당된 GPU가 얼마나 잘 활용되는지 확인할 수 있습니다.

Amazon SageMaker를 사용하면서 TR은 자체 인프라를 프로비저닝하거나 서버 세트, 보안 태세 및 패치 적용 수준을 관리해야 하는 부담 없이 최신 기본 GPU 인프라에 쉽게 액세스할 수 있게 되었습니다. 앞으로 더 빠르고 저렴한 GPU 인스턴스가 출시될 경우 TR은 새로운 유형에 맞는 간단한 구성 변경으로 해당 인스턴스를 사용하여 비용을 절감하고 훈련 시간을 단축할 수 있습니다. 이 프로젝트에서 팀은 특정 요구 사항에 따라 P2, P3 및 G4 패밀리의 인스턴스를 쉽게 실험할 수 있었습니다. 또한 AWS는 TR에 광범위한 기계 학습 서비스, 비용 효율적인 요금 옵션, 세분화된 보안 제어 및 기술 지원을 제공했습니다.

솔루션 개요

고객은 법률, 세금, 규정 준수, 정부, 미디어 등 사회를 발전시키는 복잡한 분야에서 사업을 운영하고 있으며, 규제와 기술이 모든 산업에 지장을 줄 정도로 복잡성이 증가하고 있습니다. TR은 고객이 작업 방식을 새롭게 고안하도록 도와줍니다. TR은 MRC를 사용하여 수동 특성 추출에 의존하는 이전 모델보다 우수한 자연어 검색 기능을 제공할 것으로 기대됩니다.

TR 연구 팀이 개발 중인 BERT 기반 MRC 모델은 수십 GB를 초과하는 압축 데이터를 포함하는 텍스트 데이터 집합에서 실행됩니다. TR에서 선택한 딥 러닝 프레임워크는 TensorFlow 및 PyTorch입니다. 이 팀은 시간이 많이 걸리는 신경망 훈련 작업에 GPU 인스턴스를 사용하며 런타임은 수십 분에서 며칠에 이릅니다.

MRC 팀은 다양한 BERT 변종을 실험했습니다. 1억 개 파라미터를 위한 12개 계층의 누적 변환기 인코더와 12개 주의 헤드로 구성된 기본 모델부터 시작하여, 24개 계층, 16개 헤드 및 3억 개 파라미터로 구성된 대형 모델까지 확장했습니다. 가장 큰 32GB RAM을 갖춘 V100 GPU의 출시는 가장 큰 모델 변형을 훈련하는 데 중요한 역할을 했습니다. 팀은 질문 응답 문제를 이진 분류 태스크로 공식화했습니다. 각 QA 쌍은 SME(주제 전문가) 풀에 의해 A, C, D, F의 네 가지 등급 중 하나로 평가됩니다. 여기서 A는 완벽한 답변을 나타내고, F는 완전히 잘못된 오류를 나타냅니다. 각 QA 쌍의 등급은 숫자로 변환되고, 평가자 간의 평균을 구한 후 이진화됩니다.

각 질문 응답 시스템은 도메인에 특정하므로 연구 팀은 전이 학습 및 도메인 적응 기술을 사용하여 여러 하위 도메인에서 이 기능을 활성화했습니다. 예를 들어 법률은 단일 도메인이 아닙니다. TR은 언어 모델 사전 훈련과 BERT 모델 미세 조정 모두에 Amazon SageMaker를 사용했습니다. 사용 가능한 온프레미스 하드웨어와 비교할 때 Amazon SageMaker P3 인스턴스는 미세 조정 작업의 훈련 시간을 수 시간에서 1시간 미만으로 단축했습니다. 도메인 특정 코퍼스에 대한 BERT 사전 교육은 수 주에서 단 며칠로 단축되었습니다. Amazon SageMaker가 제공하는 획기적인 시간 절약 및 비용 절감 효과가 없었다면 TR 연구 팀은 이 프로젝트에 필요한 광범위한 실험을 완료하지 못했을 것입니다. Amazon SageMaker를 통해 애플리케이션을 본질적으로 개선하여 사용자가 더 빠르고 정확하게 검색할 수 있도록 하는 획기적인 발전을 이루었습니다.

추론을 위해 TR은 방대한 양의 테스트 샘플에서 모델 점수를 매기기 위해 Amazon SageMaker 배치 변환 함수를 사용했습니다. 모델 성능 테스트가 만족스럽게 완료되었을 때 Amazon SageMaker 관리형 호스팅은 실시간 추론을 지원했습니다. TR은 연구 및 개발 결과에 기반하여 프로덕션 단계로 전환하고 있으며, Amazon SageMaker 엔드포인트를 사용하여 특화된 전문 도메인에서 매일 수백만 건의 요청을 처리할 것으로 기대합니다.

방대한 양의 독점 데이터에 안전하고 간편하며 지속적으로 액세스

비즈니스의 장기적인 성공을 위해 TR의 지적 재산권을 보호하는 것이 매우 중요합니다. 따라서 TR은 자산을 보호하기 위해 준수해야 하는 클라우드 보안 및 작업 방식과 관련된 명확한 표준을 수립하여 지속적으로 개선하고 있습니다.

이로 인해 TR 사이언티스트에게 몇 가지 핵심 질문이 제기됩니다. TR 표준을 보호 및 준수하는 Amazon SageMaker 노트북의 인스턴스를 생성하거나 훈련 작업을 시작하려면 어떻게 해야 합니까? 사이언티스트가 Amazon SageMaker 내에서 TR 데이터에 안전하게 액세스하려면 어떻게 해야 합니까? TR은 사이언티스트가 최소한의 노력으로 작업을 일관되고 안전하게 수행할 수 있도록 보장해야 합니다.

Secure Content Workspace(SCW)를 시작합니다. SCW는 TR의 연구 개발 팀에서 개발한 웹 기반 도구로서, 이러한 질문에 대한 답변을 제공합니다. 다음 다이어그램은 앞서 설명한 TR의 연구 노력의 맥락에서 SCW를 보여줍니다.

SCW를 사용하면 TR 데이터에 안전하고 제어된 방식으로 액세스할 수 있습니다. 또한 TR 표준을 준수하여 Amazon SageMaker와 같은 서비스를 프로비저닝할 수 있습니다. SCW를 사용하면 사이언티스트가 클라우드에서 보안 프로토콜을 준수하여 안심하고 작업할 수 있습니다. SCW를 사용하면 어려운 문제는 인공 지능(AI)에 맡기고 사이언티스트는 잘하는 일에 집중할 수 있습니다.

결론

Thomson Reuters는 고객의 작업을 지원하기 위한 최신 AI 기능을 연구 개발하기 위해 최선을 다하고 있습니다. MRC 연구는 이러한 노력 중 가장 최근에 진행된 것입니다. 초기 결과는 TR 제품 라인 전반에 걸쳐, 특히 자연어 질문에 대한 답변에 광범위한 적용을 나타냅니다. 이전 솔루션에는 포괄적인 특성 추출과 복잡한 시스템이 포함되지만, 이 새로운 연구에서는 기계 학습 솔루션이 더 간단해졌습니다. 이 분야에서 과학계 전체가 매우 활발하게 활동하고 있으며 TR은 동참하게 된 것을 자랑스럽게 생각합니다.

GPU가 제공하는 뛰어난 연산 능력과 확장 가능한 온디맨드 기능이 없었다면 이번 연구는 불가능했을 것입니다. Amazon SageMaker 기능은 TR에 테스트용 모델을 구축, 교육, 호스팅하는 데 필요한 물리적 파워와 프레임워크를 제공했습니다. TR은 MRC와 같은 클라우드 기반 연구 및 개발을 지원하기 위해 SCW를 구축했습니다. SCW는 클라우드에서 사이언티스트의 작업 환경을 설정하고 TR의 모든 보안 표준과 권장 사항을 준수하도록 보장합니다. TR 데이터를 안전하게 보호하는 Amazon SageMaker와 같은 도구를 사용하여 SCW를 만들었습니다.

TR 연구 팀은 Amazon SageMaker 및 SCW를 사용하여 이러한 강력한 딥 러닝 아키텍처를 기반으로 훨씬 더 광범위한 AI/ML 기능을 도입하려고 합니다. 고급 기능의 예로는 즉석 답변 생성, 긴 텍스트 요약, 완전 관리형 인터랙티브 질문 답변 기능이 있습니다. 이러한 기능을 사용하면 포괄적인 지원 AI 시스템에서 모든 정보 요구 사항에 가장 적합한 솔루션을 사용자에게 안내할 수 있습니다.


작성자 소개

Mark Roy는 기계 학습 전문가 솔루션 아키텍트로서 고객이 규모에 맞게 잘 설계된 기계 학습 솔루션으로 전환할 수 있도록 지원합니다. 여가 시간에 Mark는 농구를 즐기고, 지도하고, 배우는 것을 좋아합니다.

Qingwei Li는 Amazon Web Services의 기계 학습 전문가입니다. 그는 지도 교수의 연구 보조금 계정을 깨고 약속한 노벨상 수상에 실패한 후 운영 연구 박사 학위를 취득했습니다. 현재 그는 금융 서비스 및 보험 업계 고객이 AWS에서 기계 학습 솔루션을 구축하도록 지원하고 있습니다. 여가 시간에는 독서와 강의를 즐깁니다.

John Duprey는 Thomson Reuters AI 및 인지 컴퓨팅 센터(C3)의 엔지니어링 담당 선임 이사입니다. John과 엔지니어링 팀은 사이언티스트 및 제품 기술 팀과 함께 Thomson Reuters 고객의 가장 까다로운 문제에 대한 AI 기반 솔루션을 개발하고 있습니다.

Filippo Pompili는 Thomson Reuters AI 및 인지 컴퓨팅 센터(C3)의 수석 NLP 연구 사이언티스트입니다. Filippo는 기계 독해, 정보 검색, 신경 언어 모델링에 대한 전문 지식을 보유하고 있습니다. 그는 Thomson Reuters의 최고급 제품에 최신 기계 학습 발견 사항을 도입하기 위해 적극적으로 노력하고 있습니다.