Amazon Web Services 한국 블로그
스타트업이 딥러닝을 만날때 – 원티드랩, 매스프레스, 버즈빌 사례
오늘은 국내에서 AWS 기반으로 딥러닝을 활용하는 스타트업에 있는 분들에 대한 대담 기사를 보내 드립니다. 아래 글은 벤처스퀘어에‘스타트업과 딥러닝이 만나면?, 세 스타트업 개발자의 딥러닝 토크라는 기사로 소개되었습니다.
—
직장인을 위한 채용공유 사이트 원티드랩, 초중고생을 위한 Q&A 서비스 콴타를 만드는 매스프레소, 그리고 스마트폰 잠금화면 서비스를 만드는 버즈빌 등이 어떻게 클라우드를 통해 AI 서비스를 구현할 수 있었는지 이야기 들어보자.
좌로부터: 홍진우(원티드랩), 정원국(매스프레소), 위동윤(버즈빌)
Q: 여러분이 하고 있는 서비스와 인공 지능 활용 기능에 대해 간단히 소개해 달라.
홍진우(원티드랩 개발자 , 이하 홍): 지인에게 딱 맞는 일자리를 추천하고 합격이 됐을 때 50만원 이상의 보상금을 주는 원티드라는 채용 플랫폼이다. 사용자와 회사들이 입력한 데이터들을 분석하여 채용 과정에서 최적의 매칭을 하는데 딥러닝을 활용하고 있다.
정원국(매스프레소 CTO, 이하 장): 콴다는 공부를 하다 모르는 문제가 있으면 활동중인 선생님에게 편하게 질문하며 공부할 수 있는 앱이다. 올해 4월 문자 인식(OCR) 기술을 기반으로 기출 문제 사진을 찍으면 해설을 검색할 수 있는 서비스를 베타 버전으로 출시했다. 어떤 문제든 찍으면 답을 검색할 수 있는 문제계의 샤잠 같은 서비스를 만들고자 한다. 그런데, OCR이 핵심이다 보니 인공 지능 기술이 꼭 필요했다.
위동윤(버즈빌 개발자, 이하, 위): 이미지와 텍스트로 구성된 광고나 뉴스와 같은 컨텐츠들을 스마트폰 잠금화면에서 제공하고 있다. 사용자에게 콘텐츠를 주다 보니 필터링과 추천 등에 있어 인공 지능 기술은 필수다.
Q:스타트업의 인력과 예산으로 보면 인공 지능 도입은 어려웠을 텐데…
정원국: 딥러닝 기술 자체는 텐서플로 같은 오픈 소스 프레임웍과 예제 자료가 많아서 진입 장벽이 상대적으로 높지 않지만, OCR 인식 같은 기술에 들어가면 이야기가 달라진다. 수 많은 학습과 튜닝이 필요하다. 문제를 인식하고 해설을 검색하는두 가지 모두 중요하지만, 높은 서비스 퀄리티를 위해서는 OCR 성능이 특히 중요하다. 한글이나 수식 등 다양한 텍스트를인식하기 위해 CNN 기반의 OCR 모델을 구현하고 해설 검색에도 사용하고 있다.
홍: 원티드 서비스에도 이력서가 들어오면 거기에 텍스트를 분석하고, 이미지를 분석하는 등의 작업이 필요한데 딥러닝 학습 모델을 통해 많은 성능 개선을 얻었다. 문제는 일반 PC나 물리 서버에서는 학습 시간이 많이 걸린다는 점이다. AWS에서는 다양한 GPU 인스턴스를 제공해 주면서 이를 탄력적으로 활용 가능한 것이 큰 장점이다.
위: 우리도 마찬가지다. 딥러닝 중 어떤 학습 모델은 CPU가 좋아야 하고, 어떤 것은 GPU가 좋아야 한다. 목적에 따라 다양한 연산 장치가 필요한데, AWS에서는 C5(컴퓨팅), G3(그래픽), P2/P3(범용 GPU) 등 다양한 인스턴스 타입이 있다. 특히, 대용량 데이터에 딥러닝 알고리즘을 적용할 경우, 반복적인 대량 행렬 연산이 필요하기 때문에 GPU 인스턴스는 필수다. 시간이 돈이기 때문에 짧은 시간에 학습을 끝낼 수 있다는 점은 매우 큰 장점이다.
Q: 모두 AWS 클라우드로 딥러닝 워크로드를 수행하시는 것 같다. 다른 장점이 있을까?
위동윤: 그냥 GPU 인스턴스만 있어서는 안된다. 대용량 스토리지를 비롯 I/O 속도, 네트워크 속도 및 GPU 메모리까지 다양한 요건들이 있다. AWS는 안정적인 클라우드 환경으로 이미 정평이 나 있어서, 기존의 다양한 빌딩 블록을 연계할 수 있다는 점이 장점이다.
정: AWS 쓴지 얼마 안됐는데, 아직 3개월 동안 한번도 터지지 않았다. OCR 성능 개선을 이루어질 때 마다 다시 학습을 하는데, 좀 더 비용 효율적으로 하기 위해 GPU 인스턴스에 대해 스팟 인스턴스 사용을 검토해 보고 있다. 얼마전 알게 된 스팟 인스턴스로 GPU 클러스터를 구성한다면, 비용은 80%이상 줄것 같다. 시간은 말할 것도 없다.
Q: 더 나은 AI 학습을 위해 AWS에 바라는 점은 없나?
위: 대부분 만족한다. 그래도 한 가지를 꼽짜면 데이터 파이프라인이다. 인공 지능 학습에는 필연적으로 대량의 데이터를 처리하는 데이터 파이프 라인의 구축이 있어야 한다. 데이터 처리가 이루어지는 각각의 인스턴스가 다양하게 구성될 경우가 많다. 이 경우, 보안이나 데이터 입출력 과정에서 발생하는 속도 저하 등 다양한 문제가 발생하여 개발 및 유지 보수에 까다로울 수 있다. AWS에서 효율적이고 간편한 AI 전문 데이터 파이프 라인을 제공한다면, 더 효율적인 AI/ML 서비스 개발이 가능해질 것이라고 기대한다.
홍: 동의한다. AWS가 매년 다양한 서비스를 많이 내고 있는데, 아마 소원을 말하면 이루어지지 않을까 싶다. 데이터 전처리를 할 수 있는 AWS Glue라는 ETL 서비스가 나왔고, Kinesis Firehose 같은 데이터 파이프라인 서비스도 있지만, 딥러닝 학습 데이터를 서로 이동하는 방법이나 아니면 아예 딥러닝 매니지드 서비스가 나와줘도 좋을 것 같다. (편집자주: AWS에서는 딥러닝 데이터 치리, 모델 구현 및 서비스 배포를 위한 Amazon SagaMaker라는 신규 서비스를 출시했습니다.)
Q: 향후 AI 활용 계획은 살짝 귀뜸해 주신다면?
홍: 이력서와 회사 간 매칭 알고리즘을 계속해서 발전시켜 나가기 위해서 자연어 처리, 텍스트 분석 기술 등을 활용하여 고도화하는 작업을 진행할 예정이다. 미국, 일본 등 글로벌 시장에서 챗봇 AI 기술을 채용에 활용하려는 시도들이 나타나고 있어서 기술적으로 관심을 가지고 지켜보고 있다.
위: 기존에 자동화가 어려웠던 광고 추천이나 고객 세그멘테이션, 어뷰저 적발 등 회사의 전반적인 서비스 및 업무에 적용이 가능할 것 같다. 이를 위해 AWS의 다양한 AI 시스템을 활용하여 효율적인 데이터 처리 및 서비스 제공에 활용할 계획이다. 더불어 이미지, 텍스트와 같은 비정형 데이터 처리를 위한 API도 활용할 계획을 갖고 있다. Buzzvil도 최근 미국을 비롯한글로벌 시장을 개척하면서 다양한 국가에 서비스를 제공하고 있는데, 글로벌 클라우드로서 AWS의 장점은 작은 스타트업에게는 큰 힘이다.
정: AI에 속하는지는 모르겠지만, 서비스 퀄리티를 향상시키기 위한 미니 프로젝트들을 많이 진행한다. 선생님을 매칭하는데 걸리는 시간 예측하기, 문제의 난이도 예측하기, 학생의 질문 및 문제 풀이 데이터들을 활용하여 학생의 상태를 분석하고 컨텐츠를 추천하기 위한 연구 또한 진행하고 있다. 이런 실험을 다양하게 할 수 있다는 점이 클라우드를 통한 인공 지능의 혜택이다.
Q: 뭔가 대단한 것을 하고 있으시다. 딥러닝을 활용하려는 스타트업에 대해 조언을 주신다면?
홍: 사업 초기부터 어떤 데이터를 어떻게 체계적으로 쌓을 것인지에 대해서 생각해보면 좋을 것 같다. 이미 사업을 오래 운영해 왔다면 사업의 핵심 부분이 무엇인지를 파악해서 그 부분에 딥러닝을 적용해보길 권한다.
정: 맞다. 세상에서 우리가 활용할 수 있는 (또는 쌓을 수 있는) 데이터가 얼마나 있고, 그 데이터가 가져다 줄 수 있는 가치가 어디까지인지를 끊임없이 고민해야 한다. OCR 같은 이미지 인식은 데이터량이 매우 중요한데, OCR은 데이터를 여러 방향으로 합성하여 만들어 학습하는 것이 가능하기 때문에 딥러닝을 택했다. AI 적용 방식에 따라 데이터량은 얼마든지 만들어 낼 수 있다.
위: 서비스 분야에 따라 다를 것 같아 조심스럽지만, 딥러닝 기술 자체는 커뮤니티와 오픈소스 생태계 덕분에 정말정말 쉬워진 시대가 됐다. 아직 딥러닝 검토 전이라면, AI의 흐름을 관심가지고 계속 지켜보시고, 가능성이 있어 보인다면 겁 없이 도전해 보셔도 좋을 것 같다.
—
위의 사례에 대한 자세한 내용은 아래 링크를 참고하시기 바랍니다.
– 박세정, AWS 스타트업 BD