이 콘텐츠는 어떠셨나요?
Amazon SageMaker를 사용한 비정형 데이터 처리 자동화
작성자: AWS DACH Region Head of Startup Business Development ANikhil Dinesh, AWS Machine Learning Specialist Solutions Architect Sayon Saha
전자 상거래 제품 리스팅에 표시되는 이미지, 비디오 및 텍스트와 같은 비정형 데이터는 전환율에 큰 영향을 미칩니다. eBay Research의 연구에 따르면 초대형 이미지는 사진 수, 항목 상태 등 중요한 역할을 하는 다른 요인과 함께 전환율을 15.3% 높일 수 있습니다. 마켓플레이스와 셀러는 마케팅 팀이 결정한 다양한 개방형 결정 요인을 기반으로 전환율을 최적화해야 합니다. 이 문제를 해결하기 위해 데이터 과학과 기계 학습(ML)을 사용하는 것은 새로운 일이 아닙니다. AWS는 ML의 획일적인 측면을 지원하기 위해 Amazon Rekognition(이미지 및 비디오용), Amazon Comprehend(텍스트용), Amazon SageMaker(모델 개발 및 배포용), Amazon SageMaker GroundTruth(데이터 주석용) 등 다양한 서비스를 개발했습니다.
베를린에 본사를 둔 Startup인 super.AI는 이러한 빌딩 블록을 적절한 사용자 경험을 통해 적절히 조합하여 다양한 산업에서 비정형 데이터 처리(UDP)라는 목표를 실현할 수 있는 중요한 기회가 될 수 있다고 믿습니다. Gartner에 따르면 일반적인 기업 데이터의 80%가 비정형 데이터입니다. Super.AI의 플랫폼은 비정형 데이터에서 유용한 정보를 추출하여 기업이 복잡한 비즈니스 프로세스를 자동화할 수 있도록 합니다. 연쇄 AI 기업가이자 super.AI 설립자/CEO인 Brad Cordova는 “전자 상거래, TIC(테스트, 검사 및 인증) 서비스, 보험, 의료, 제조 및 농업 분야의 고객들은 super.AI 플랫폼을 사용하여 제품 리스팅 품질 평가, 육안 검사, 차량 손상 감지 및 작물 수확량 평가와 같은 복잡한 사용 사례를 자동화하고 있습니다. 고객들은 시간과 비용 절감, 오류 감소, 고객 만족도 향상을 통해 상당한 ROI를 실현하고 있습니다”라고 말합니다.
이 문서에서는 AWS의 super.AI 아키텍처에서 데이터 모으기, 사전 레이블링, 활성 학습 파이프라인 및 실시간 지원 레이블링이 어디에 속하는지 보여주고, 그 다음에는 목표, 리스크, 개선 기회가 있는 부분에 대해 설명합니다.
super.AI의 비정형 데이터 처리 플랫폼
super.AI 플랫폼은 고객이 이미지, 비디오, 텍스트, 문서 및 오디오와 같은 비정형 데이터와 관련된 프로세스를 혁신하고 AI, 소프트웨어, 인간의 조합을 사용하여 자동화할 수 있도록 지원합니다. 이 super.AI 제품 이미지 분류 데모에서는 super.AI 제품 이미지 분류 기능이 소매업체가 웹 사이트 전환율을 높이는 데 어떻게 도움이 되는지 보여줍니다.
능동적 학습 및 사전 레이블링
super.AI 고객들은 더 효율적이고 정확한 레이블링 메커니즘을 요청했습니다. 그에 따라 super.AI는 최근에 능동적 학습 및 사전 레이블링이라는 새로운 기능을 출시했습니다. 이 기능을 통해 파이프라인은 SageMaker에서 실행되는 ML 모델을 사용하여 데이터 포인트를 사전 처리합니다. 이 솔루션은 모델에 가장 유용한 데이터 포인트를 레이블링하도록 우선순위를 지정합니다. ML 모델은 업로드된 모든 데이터 포인트에 대해 실행되어 출력(예: 신뢰도 점수)을 생성합니다. 이 출력은 우선순위가 지정된 방식으로 데이터 포인트를 제공하는 데 사용됩니다. 사전 레이블은 가능한 경우에 생성되어 검토 또는 편집을 위해 레이블링 담당자에게 제공됩니다.
이제 수요에 따라 파이프라인이 확장됩니다. 고객은 API(또는 UI)를 통해 데이터를 업로드하고 능동적 학습 및 사전 레이블링을 위해 여러 모델을 적용할 수 있습니다. 고객은 super.AI에서 제공하는 다양한 모델 중에서 선택하거나, 자체 모델을 사용할 수 있습니다. super.AI는 ML 모델에서 생성된 신뢰도 점수를 사용하여 데이터 포인트에 우선순위를 지정하고 더 효율적으로 제공합니다. 필요한 경우, 레이블링 담당자는 시스템에서 생성된 사전 레이블을 사용하여 수동으로 정확하게 데이터에 레이블을 지정할 수 있습니다.
실시간 지원 레이블링
이 플랫폼은 SageMaker의 서버리스 아키텍처를 활용합니다. 고객들은 이미지에 레이블링하기 위해 이 서비스를 실시간으로 사용해야 합니다. 이 도구는 AWS Lambda를 Amazon SageMaker 엔드포인트와 함께 활용하여 10초 미만의 응답 시간으로 동시 요청을 실시간으로 처리합니다. super.AI의 온라인 설명서에서 이미지 태깅 애플리케이션에 대해 알아볼 수 있습니다.
Amazon SageMaker GroundTruth를 사용한 능동적 학습 파이프라인 구축
SageMaker Ground Truth는 다양한 인력 옵션을 사용하여 정확하게 레이블링된 대규모 ML 데이터 세트를 구축하는 관리형 데이터 레이블링 서비스입니다. 텍스트, 이미지, 비디오 및 3D 포인트 클라우드에 대한 다양한 내장 및 사용자 지정 데이터 레이블링 워크플로와 함께 관련 ML 모델을 사용하여 객체에 자동으로 주석을 달고 사람이 주석을 달 수 있는 신뢰도가 낮은 객체를 할당함으로써 능동적 학습을 통해 자동화된 데이터 레이블링 파이프라인을 구축할 수 있습니다.
이 파이프라인의 첫 번째 단계에는 SageMaker Ground Truth가 자동 레이블링에 사용되는 모델을 훈련하고 검증하기 위해 사람이 주석을 달 수 있도록 무작위 데이터 세트 샘플을 전송하는 작업이 포함됩니다. 훈련된 모델의 출력 신뢰도 점수와 검증 데이터의 품질 지표를 나머지 데이터 세트에 주석을 달기 위한 품질 레이블을 결정하는 임계값과 비교합니다. 신뢰도 점수가 원하는 임계값을 충족하는지 여부에 따라 객체가 자동 레이블링된 것으로 간주되거나 주석을 달기 위해 작업자에게 전송됩니다. 그리고 이러한 주석은 자동 레이블링 모델을 업데이트하고 개선하는 데 사용됩니다. 이 활성 학습 파이프라인은 필요한 데이터 세트가 완전히 레이블링되거나 다른 중지 조건이 충족될 때까지 계속 처리됩니다(이 문서에서 데이터 레이블링 자동화에 대해 자세히 알아보기). 다음 다이어그램은 능동적 학습 프로세스를 보여줍니다.
많은 AWS 고객이 단순히 내장된 ML 모델을 사용하지만, SageMaker Ground Truth를 사용하면 맞춤형 사용 사례가 있는 경우에 자체 ML 모델을 사용할 수 있습니다. 이에 대한 자세한 내용은 ‘Bring Your Own Model for Amazon SageMaker Labeling Workflows with Active Learning’ 블로그에서 확인할 수 있습니다.
레이블링 담당자가 능동적 학습 기법을 활용하면 레이블링해야 하는 데이터의 하위 집합을 식별하여 데이터 레이블링 프로세스를 훨씬 빠르게 수행할 수 있습니다. 또한 주석의 정확도를 높게 유지하여 인건비를 크게 줄일 수 있습니다. ‘Annotate Data for Less with Amazon SageMaker Ground Truth and Automated Data Labeling’ 블로그에서 자동 데이터 레이블링을 사용한 객체 탐지 작업의 사용 사례에 대해 알아볼 수 있습니다.
결론
지난 몇 년간 기업들이 디지털 트랜스포메이션을 실현하기 위해 애쓰면서, 로봇 프로세스 자동화(RPA)는 가장 빠르게 성장 중인 소프트웨어 카테고리 중 하나였습니다. 하지만 기업 데이터의 80%가 자동화 대상에서 배제된 비정형 데이터입니다. AWS ML 서비스를 활용하는 super.AI 같은 회사의 새로운 비정형 데이터 처리 솔루션은 기업이 이미지, 비디오, 오디오, 문서 및 텍스트와 같은 비정형 데이터에서 유용한 정보를 추출하여 자동화 범위를 대폭 확장할 수 있도록 지원합니다. 이러한 플랫폼은 사람의 개입을 최소화하면서 육안 검사부터 온라인 제품 리스팅 품질 평가에 이르기까지 다양한 사용 사례를 처리할 수 있습니다. 이러한 플랫폼을 조기에 도입한 기업들은 비용을 절감하고 오류를 줄이며 차별화된 고객 경험을 제공하며 경쟁 우위를 확보하고 있습니다.
AWS Editorial Team
AWS Startups Content Marketing 팀은 규모와 업종을 불문하고 모든 스타트업과 협력하여 교육하고, 환대하고, 영감을 주는 뛰어난 콘텐츠를 제공합니다.
이 콘텐츠는 어떠셨나요?