Amazon Web Services 한국 블로그

Amazon SageMaker, 기계 학습 분야를 선도하다! GPU 인스턴스 요금 최대 18% 인하 발표

Amazon Web Services(AWS)는 2006년 이래로 수백만 개의 고객사가 IT 워크로드를 구축하고 관리하는 작업을 도왔습니다. 스타트업에서 대기업, 공공 기관에 이르기까지 모든 규모의 기관이 AWS 클라우드 컴퓨팅 서비스에서 지금까지 경험해보지 못한 수준의 보안, 회복성, 확장성을 얻고 있습니다. 이들은 나날이 실험, 혁신, 프로덕션 배포에 소요되는 시간을 단축하고, 그 어느 때보다도 큰 비용을 절감하고 있습니다. 이에 따라 비즈니스 기회를 탐색하여 포착하고, 이를 산업용 제품과 서비스로 바꿀 수 있습니다.

기계 학습(ML)이 점점 더 고객의 우선순위가 되어가면서, 고객들은 이와 동일한 민첩성과 안정성을 갖춘 ML 서비스 구축을 요청했습니다. 그 결과 모든 개발자와 데이터 과학자에게 신속하게 ML 모델을 구축, 훈련 및 배포하는 기능을 제공하는 완전 관리형 서비스인 Amazon SageMaker가 AWS re:Invent 2017에서 출시되었습니다.

현재 Amazon SageMaker는 금융 서비스(Euler Hermes, Intuit, Slice Labs, Nerdwallet, Root Insurance, Coinbase, NuData Security, Siemens Financial Services), 의료 서비스(GE Healthcare, Cerner, Roche, Celgene, Zocdoc), 신문 및 미디어(Dow Jones, Thomson Reuters, ProQuest, SmartNews, Frame.io, Sportograf), 스포츠(Formula 1, Bundesliga, Olympique de Marseille, NFL, Guiness Six Nations Rugby), 리테일(Zalando, Zappos, Fabulyst), 자동차(Atlas Van Lines, Edmunds, Regit), 데이트(Tinder), 숙박(Hotels.com, iFood), 산업 및 제조(Veolia, Formosa Plastics), 게임(Voodoo), 고객 관계 관리(Zendesk, Freshworks), 에너지(Kinect Energy Group, Advanced Microgrid Systems), 부동산(Realtor.com), 위성 이미지(Digital Globe), 인적 자원(ADP) 등 각종 산업의 고객사 수만 개가 고품질의 모델을 구축, 훈련하고 프로덕션에 배포하도록 지원하고 있습니다.

고객에게 Amazon SageMaker에서 ML 워크로드를 표준화하기로 결정한 이유를 물었더니, “SageMaker는 ML 프로세스의 각 단계에서 무차별적인 무거운 작업을 제거해준다.“는 답이 가장 많이 나왔습니다. 자세한 조사를 통해서 SageMaker가 가장 많이 도움이 되는 영역 5가지를 알아냈습니다.

#1 – 안전하고 안정적인 ML 모델을 빠르게 구축
비즈니스 애플리케이션과 최종 사용자에게 실시간 예측을 제공하는 용도로 많은 ML 모델을 사용하기 때문에, 모델을 빠르고 안정적으로 제공하는 것이 가장 중요합니다. 이를 위해 Amazon SageMaker 엔드포인트는 여러 AWS 가용 영역에 부하를 분산시키는 기능을 기본적으로 지원하고, 수신되는 트래픽에 따라 프로비저닝된 인스턴스 개수를 동적으로 조절하는 Auto Scaling 기능을 내장했습니다.

안정성과 확장성을 더욱 강화하기 위해서 Amazon SageMakerTensorFlow Serving, Multi-Model Server, TorchServe와 같은 프로덕션급 오픈 소스 모델 서버를 사용합니다. AWS와 Facebook가 합작하여 만든 TorchServe가 PyTorch 프로젝트에서 제공되며, 사용자 지정 코드를 작성할 필요 없이 훈련된 모델을 대규모로 배포할 수 있습니다.

Amazon SageMaker Model Monitor를 사용하면 회복력 있는 인프라와 확장 가능한 모델을 제공할 뿐만 아니라, 엔드포인트에 발생할 가능성이 있는 예측 품질 문제를 발견할 수 있습니다. 외부로 나가는 예측과 수신되는 요청을 모두 저장하고, 훈련 세트에서 구축된 기준과 비교하는 방법으로 특징 누락, 데이터 드리프트와 같은 문제를 빠르게 발견해 수정할 수 있습니다.

Veolia Water Technologies의 최고 디지털 책임자인 Aude Giard는 이렇게 말했습니다. “8주라는 짧은 기간 내에 AWS와 협력해서 탈염 공장에서 물 거름막을 세척하거나 교체해야 하는 시기를 예측하는 프로토타입을 개발했습니다. Amazon SageMaker를 사용해서 이전 패턴에서 학습하고 나중에 부착물 지표가 어떻게 변화할지 예측하는 ML 모델을 구축했습니다. AWS에서 ML 워크로드를 표준화한 덕분에 비용을 절감하고 가동 중단 시간을 없애면서도 생산하는 물의 품질을 개선할 수 있습니다. 두 팀이 하나의 목표를 달성하기 위해 힘을 모으고 기술적 경험과 신뢰를 공유하지 않았더라면 이런 결과는 얻을 수 없었을 것입니다.” 자세한 내용은 이 동영상에서 확인하실 수 있습니다.

#2 – 원하는 방식으로 ML 모델 구축
Amazon SageMaker는 모델 구축과 관련하여 여러 가지 옵션을 제공합니다. AWS Marketplace에 가서 파트너가 공유한 알고리즘이나 모델을 선택하면, 클릭 몇 번만으로 SageMaker에 배포할 수 있습니다. 또는, 내장 알고리즘 중 하나를 사용하거나 대중적인 오픈 소스 ML 프레임워크(TensorFlow, PyTorch, Apache MXNet)에 대해 직접 작성한 프레임워크를 사용하거나, Docker 컨테이너에 패키징된 사용자 지정 코드를 사용해서 모델을 훈련시킬 수 있습니다.

또한, 혁신적인 AutoML 기능인 Amazon SageMaker AutoPilot을 사용할 수도 있습니다. ML 경험이 거의 없거나 아예 없는 사용자나 수백 개의 데이터 세트를 탐색해야 하는 경험이 풍부한 실무자 모두 SageMaker AutoPilot를 사용해서 하나의 API 호출로 모든 것을 처리할 수 있습니다. 데이터 세트를 자동으로 분석하고, 해결하려는 문제 유형을 알아내며, 여러 가지 데이터 처리 및 훈련 파이프라인을 구축해 훈련하고, 최적화를 통해 정확도를 최대로 높입니다. 게다가 데이터 처리 및 훈련 소스 코드가 자동 생성된 노트북에 제공되어, 이를 검토하고 나중의 실험에 직접 실행할 수도 있습니다. SageMaker Autopilot은 속도는 40% 빠르고, 정확도는 200% 더 높은 기계 학습 모델을 생성할 수 있습니다. 소량의 불균형한 데이터 세트로도 가능합니다.

또 다른 인기 기능으로는 Automatic Model Tuning이 있습니다. 직접 탐색할 필요도 없고, 며칠간 실행해야 해서 비용이 많이 들어가는 그리드 검색 작업도 필요 없습니다. SageMaker는 ML 최적화를 사용해 고성능 모델로 신속히 융합하기 때문에 시간과 비용을 절약하고, 최적의 모델을 더 빠르게 프로덕션에 배포할 수 있습니다.

선임 엔지니어링 관리자 Ryan Kirkman은 “NerdWallet는 데이터 과학과 ML을 사용해 고객에게 개인 맞춤형 금융 상품을 안내합니다. 데이터 과학 엔지니어링 업무를 빠르게 현대화하고, 장애물을 제거해 제공 시간을 단축할 수 있었기 때문에 AWS에서 ML 워크로드 표준화를 선택했습니다. Amazon SageMaker를 사용한 덕분에 우리 데이터 과학자들은 전략적 목표에 더 많은 시간을 할애하고, 경쟁 우위가 있는 분야, 즉 사용자를 위해 해결하고 있는 문제에 대한 연구에 더욱 열정적으로 임할 수 있었습니다.“라고 말했습니다. 자세한 내용은 이 사례 연구를 참조하세요.
Freshworks Platform의 제품 부문 수석 이사, Tejas Bhandarkar는 이렇게 말했습니다. “고객 사용 사례에 최적화된 기계 학습 모델을 간편하게 구축, 훈련, 배포할 수 있기 때문에 AWS에서 ML 워크로드 표준화를 선택했습니다. Amazon SageMaker 덕분에 11,000명 이상의 고객에게 30,000개 이상의 모델을 구축하고 모델 훈련 시간을 24시간에서 33분으로 단축했습니다. SageMaker Model Monitor를 사용하면서 데이터 드리프트를 추적하고 모델을 다시 훈련해 정확도를 보장할 수 있게 되었습니다. Amazon SageMaker를 기반으로 한 Freddy AI Skills는 스마트 작업, 심층적 데이터 인사이트, 의도 중심적 대화로 끊임없이 진화하고 있습니다.

#3 – 비용 절감
ML 인프라를 직접 구축하고 관리하는 데는 비용이 많이 들 수 있어 Amazon SageMaker는 여기에 좋은 대안입니다. 사실, 3년 동안 Amazon SageMaker의 총소유비용(TCO)은 다른 옵션보다 54% 저렴했고, 개발자의 생산성은 최대 10배까지 향상되었습니다. Amazon SageMaker가 일반적으로 ML에 필요한 모든 훈련과 예측 인프라를 관리하기 때문에 개발 팀은 당면한 ML 문제를 조사하고 해결하는 데만 집중할 수 있습니다.

게다가 Amazon SageMaker에는 최대한 훈련 작업을 신속하고, 비용 효율적으로 실행하는 데 도움이 되는 다양한 기능이 내장되어 있습니다. 가장 인기 있는 기계 학습 라이브러리의 최적화된 버전, 최대 100GB의 네트워킹을 제공하는 다양한 CPU 및 GPU 인스턴스에 더해 훈련 작업 비용을 최대 90%까지 절감해주는 Managed Spot Training까지 제공합니다. 마지막으로, Amazon SageMaker Debugger는 ML 훈련 작업에서 개발 중인 복잡한 문제를 자동으로 식별합니다. 비생산적인 작업은 조기에 종료하고, 훈련 중에 발견된 모델 정보를 사용하여 근본 원인을 찾아낼 수 있습니다.

Amazon SageMaker로 예측 비용을 절감할 수 있습니다. Multi-Model Endpoints를 사용하면 하나의 예측 엔드포인트에 여러 모델을 배포할 수 있어서 추가 작업을 할 필요가 없고, 여러 개의 트래픽이 적은 엔드포인트를 실행하는 비용이 발생하지 않습니다. 완전한 GPU 없이 다소의 하드웨어 가속만 필요한 모델의 경우, Amazon Elastic Inference를 사용하면 예측 비용을 90%까지 절약할 수 있습니다. 반면, 대량의 예측 워크로드는 AWS Inferentia(AWS에서 설계한 맞춤형 칩)를 사용하면 GPU 인스턴스보다 처리량을 최대 30%까지 높이면서도 추론 비용을 45%까지 낮출 수 있습니다.

미국과 캐나다 지역에서 최대 규모를 자랑하는 교통망, Lyft는 2017년에 Level 5 자율 주행 차량 사업부를 출범하고 수많은 운전자에게 도움이 되는 자율 주행 시스템을 개발하기 시작했습니다. Lyft Level 5는 매일 10TB 이상의 데이터를 집계해서 회사에서 보유한 자율 주행 차량에 대해 ML 모델을 훈련합니다. 직접 ML 워크로드를 관리하는 데 점점 더 많은 시간과 비용이 들어가게 되었습니다. Lyft Level 5의 ML 시스템 책임자인 Alex Bain는 이렇게 말했습니다. “Amazon SageMaker의 분산된 훈련을 사용하고 나서 모델 훈련 시간이 며칠에서 몇 시간으로 단축되었습니다. AWS에서 ML 워크로드를 실행한 덕분에 배포 주기가 단축되고 비용이 절감되어, 고객에게 자율 주행 기능을 제공하겠다는 목표에 훨씬 가까워질 수 있었습니다.

#4 – 안전하고 규정을 준수하는 ML 시스템 구축
AWS는 언제나 보안을 최우선으로 생각합니다. 특히, 보안과 규정 준수 수준이 가장 높은 솔루션을 구현해야 하기 때문에 금융 서비스나 의료 서비스와 같이 규제가 엄격한 산업에 속한 고객에게는 보안이 중요합니다. 이를 위해서 Amazon SageMaker는 여러 가지 보안 기능이 적용되었고, SOC 1/2/3, PCI, ISO, FedRAMP, DoD CC SRG, IRAP, MTCS, C5, K-ISMS, ENS High, OSPAR, HITRUST CSF 등의 국제 기준을 준수하고 있습니다. 또한, HIPAA BAA도 준수합니다.

Intuit의 최고 데이터 책임자 Ashok Srivastava는 이렇게 말했습니다. “Amazon SageMaker를 사용하고 플랫폼에 알고리즘을 구축, 배포할 수 있게 되었기 때문에 인공 지능 이니셔티브를 더욱 빠르게 추진할 수 있습니다. 새로운 대규모 기계 학습 및 AI 알고리즘을 개발해서 이 플랫폼에 배포하고, 고객이 성공할 수 있도록 복잡한 문제를 해결할 것입니다.”

#5 – 데이터에 주석 기록 및 인간의 개입 유지
ML 실무자라면 알고 있겠지만, 데이터를 데이터 세트로 변환하려면 많은 시간과 노력이 들어갑니다. Amazon SageMaker Ground Truth는 완전관리형 데이터 레이블 지정 서비스로, 이런 시간과 노력을 줄여줍니다. 어떤 규모로든 훈련 데이터 세트에 손쉽게 주석을 달고 매우 정확하게 구축할 수 있습니다(텍스트, 이미지, 동영상, 3D 포인트 클라우드 데이터 세트).

AstraZeneca의 병리학 연구 부문 이사 Magnus Soderberg는 이렇게 말했습니다. “AstraZeneca는 연구 개발의 모든 단계를 기계 학습으로 실험하였고, 얼마 전에는 병리학으로 실험해 조직 샘플 검토 속도를 높였습니다. 먼저 기계 학습 모델에 대량의 대표적 데이터 세트를 훈련시킵니다. 데이터에 레이블을 지정하는 데도 매우 시간이 오래 걸립니다. 특히, 정확한 모델을 훈련하려면 수천 개의 티슈 조직 이미지가 필요하기 때문이기도 합니다. AstraZeneca는 Amazon SageMaker Ground Truth(인간이 참여하는 기계 학습 기반 데이터 레이블 지정 및 주석 서비스)를 사용하여 이 작업에서 가장 번거로운 부분을 자동화하였고, 샘플을 분류하는 시간이 50% 이상 단축되었습니다.

Amazon SageMaker 평가
출시 이후로 수백 개의 새로운 기능Amazon SageMaker에 추가되었다는 사실은 AWS가 고객을 대신해 부단히 혁신하고 있다는 것을 보여주는 증거입니다. 사실, 이 서비스는 2020년 2월에 Gartner 클라우드 AI 개발자 서비스 매직 쿼드런트에서 전체 리더로 선정되었습니다. Gartner 가입자는 여기를 클릭해 “2020년 7월, Amazon SageMaker 솔루션 점수”가 100점 만점에 84점을 기록해, 동종 기업 중 가장 높은 점수를 받은 이유를 확인하실 수 있습니다. Gartner에 따르면 필수 기준의 87%, 권장 기준의 73%, 선택 기준의 85%를 달성했습니다.

GPU 인스턴스 가격 인하 발표

고객의 신뢰에 감사를 표하고 Amazon SageMaker를 가장 우수하고 비용 효율적인 ML 서비스로 만들겠다는 신념을 이어가기 위해, 모든 ml.p2ml.p3 GPU 인스턴스의 가격을 대폭 인하한다는 소식을 전해드립니다. 10월 1일부터 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤), EU(아일랜드), EU(프랑크푸르트), EU(런던), 캐나다(중부), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(서울), 아시아 태평양(도쿄), 아시아 태평양(뭄바이), AWS GovCloud(US-Gov-West) 리전에서 모든 SageMaker 구성 요소에 적용됩니다.

인스턴스 이름 요금 인하
ml.p2.xlarge -11%
ml.p2.8xlarge -14%
ml.p2.16xlarge -18%
ml.p3.2xlarge -11%
ml.p3.8xlarge -14%
ml.p3.16xlarge -18%
ml.p3dn.24xlarge -18%

Amazon SageMaker 시작하기
보시다시피, Amazon SageMaker에는 시도해 볼 만한 여러 가지 흥미로운 기능이 있습니다! Amazon SageMaker전 세계적으로 제공되어 쉽게 데이터 세트 작업을 시작하실 수 있습니다. 이 서비스는 AWS 프리 티어에 포함되므로 신규 사용자께서는 처음 2개월 간 무료로 수백 시간을 이용하실 수 있습니다.

자습서를 참고하시면 몇 분 만에 바로 시작하실 수 있습니다. SageMaker Studio를 사용하여 XGBoost 알고리즘에 기반한 분류 모델을 구축, 훈련 및 배포하는 방법을 배우실 수 있습니다.

마지막으로 얼마 전 제가 모든 SageMaker 기능에 대한 상세한 설명과 60개 이상의 오리지널 Jupyter 노트북 일러스트를 담은 500쪽 분량의”Learn Amazon SageMaker“라는 책을 출간했습니다. 이 책을 참고하시면 바로 시작하는 데 도움이 될 것입니다.

언제나와 마찬가지로, 여러분의 피드백을 기다립니다. 평소의 AWS 지원 담당자 또는 AWS 포럼 SageMaker 부문에 공유해주세요.

– Julien