Amazon SageMaker 알아두어야 할 신규 기능: 워크 플로, 새로운 알고리즘 및 보안 규정 준수

지난 1년간 Amazon SageMaker는 다양한 고객사에서 금융 사기 행위를 찾고, 스포츠 플레이를 예측하고, 자동차 엔진 성능을 튜닝하는 등 다양한 인공 지능 서비스를 만들 수 있도록 하는 완전 관리형 기계 학습(ML)서비스입니다. 작년 re:Invent에서 SageMaker가 처음 선보인 이래 100개에 가까운 새로운 기능이 추가되었고 그중 대부분은 고객의 피드백을 기초로 한 것이었습니다.

이 글에서는 그 중에서도 꼭 알아두어야 할 몇 가지 중요한 기능을 알려드립니다.

1. SageMaker 워크플로우 소개

지난 11월 Amazon SageMaker에서 기계 학습 워크플로우를 손쉽게 구축, 관리, 공유할 수 있는 새로운 자동화, 오케스트레이션 및 협업 기능을 포함하는 워크플로우를 발표하였습니다.

기계 학습은 고도의 협업을 바탕으로 한 프로세스로, 분야별 경험과 기술 역량의 결합이 성공의 기초가 되며 다양한 데이터 세트와 기능을 사용하여 여러 차례 반복하고 실험해야 하는 경우가 많습니다. 대개 개발자들은 많은 협력자들과 진행 상황을 공유하고 피드백을 수집해야 합니다. 한 번에 모델을 성공적으로 학습시키기는 사실상 불가능하므로 중요한 결정 사항을 지속적으로 추적하고, 성공적인 부분을 재현하고, 효과적인 것은 재사용하며, 잘 되지 않은 부분에 대해서는 도움을 받을 수 있어야 합니다. Amazon은 이 같은 반복을 보다 쉽게 관리하고 반복 실행하며 공유할 수 있는 새로운 기능을 선보입니다.

SageMaker Search를 사용한 실험 관리

성공적인 ML 모델을 개발하려면 지속적인 실험을 통해 새로운 알고리즘과 모델 하이퍼파라미터를 적용해보면서 사소한 잠재적 변경 사항이 성능과 정확도에 미치는 영향을 관찰해야 합니다. 이 같은 반복 학습 때문에 “성공적인” 모델을 만들어내는 데이터 세트, 알고리즘 및 파라미터의 고유한 조합을 추적하기가 어려울 수 있습니다.

이제 데이터 과학자와 개발자는 Amazon SageMaker Search를 사용하여 기계 학습 모델 학습 실험을 구성하고 추적하고 평가할 수 있습니다. SageMaker Search를 사용하면 AWS 콘솔에서 바로 수천 회에 달할 수도 있는 Amazon SageMaker 모델 학습 실행 중 가장 효과적인 모델 학습 실행을 찾고 평가할 수 있습니다.

버전 관리를 통한 협업

기계 학습의 발전을 위해 데이터 과학자, 개발자, 데이터 엔지니어, 분석가 및 비즈니스 리더가 아이디어와 작업을 공유하고 협업해야 하는 경우가 많습니다. 지금까지 전통적인 소프트웨어 개발 방식에서는 버전 관리가 이 같은 유형의 협업을 위한 사실상의 표준으로 여겨졌습니다. 버전 관리는 ML에서도 중요한 역할을 하며, Amazon은 버전 관리가 용이하도록 Amazon SageMaker에 Git 통합 기능과 시각화 기능을 새로 추가합니다.

이제 고객은 IAM, LDAP 및 AWS Secrets Manager를 사용하여 GitHub, AWS CodeCommit 또는 자체 호스팅 Git 리포지토리를 SageMaker 노트북에 연결하고, 퍼블릭 및 프라이빗 리포지토리를 복제하며, Amazon SageMaker에 리포지토리 정보를 안전하게 저장할 수 있습니다. 새로운 오픈 소스 노트북 앱을 사용하여 SageMaker에서 바로 분기, 병합 및 버전을 검토할 수 있습니다.

Step Functions 및 Apache Airflow를 사용한 자동화

ML에서는 전체 워크플로우의 여러 단계를 조정된 순서로 실행해야 하는 경우가 있습니다. 예를 들어 SageMaker에서 모델을 학습시키고 프로덕션 환경에 배포하기 전에 Amazon Athena에서 쿼리를 수행하거나 AWS Glue에서 데이터를 집계 및 준비해야 할 수 있습니다. 여러 서비스에 걸쳐 이 같은 단계를 자동화하고 오케스트레이션하면 재사용 및 복제가 가능한 ML 워크플로우를 구축하여 여러 엔지니어 및 과학자가 공유할 수 있습니다.

이제 Step Functions를 사용하여 SageMaker 단계를 포괄적인 워크플로우에서 자동화하고 오케스트레이션할 수 있습니다. Amazon S3에 데이터 세트를 게시하고 SageMaker를 사용하여 ML 모델에 데이터를 학습시키고 예측을 위해 모델을 배포하는 작업을 자동화할 수 있습니다. AWS Step Functions는 작업이 성공 또는 실패할 때까지 SageMaker(및 Glue) 작업을 모니터링하고 워크플로우의 다음 단계로 넘어가거나 작업을 재시도합니다. AWS Step Functions에는 기본 제공 오류 처리 기능, 파라미터 전달 기능, 명령문 관리 기능, 실행되는 ML 워크플로우를 모니터링할 수 있는 시각적 콘솔이 포함되어 있습니다.

현재 많은 개발자들은 Step Functions 외에 다단계 워크플로우를 작성하고 스케줄링하며 모니터링하는 인기 오픈 소스 프레임워크인 Apache Airflow도 사용하고 있습니다. 이제 Amazon SageMaker는 Airflow와도 통합되므로 데이터 준비, 학습 및 튜닝과 같은 SageMaker 작업을 실행하는 데 사용하던 것과 동일한 오케스트레이션 도구를 이용할 수 있습니다. Airflow를 처음 사용하는 사용자라도 CloudFormation을 통해 클릭 몇 번으로 새 인스턴스를 등록하고 AWS에서 워크플로우의 오케스트레이션을 시작할 수 있습니다.

고객은 다음 달부터 이러한 새로운 기능을 시험 사용해 볼 수 있습니다.

2. 새로운 알고리즘 및 프레임워크 지원

얼마 전까지만 해도 기계 학습은 ‘비즈니스에 활용하기 위한 비용’의 일부로서 새로운 알고리즘의 연구 개발에 엄청난 투자가 필요하다 여겨졌습니다. 이는 적절한 수준의 정확도를 실현하고 알고리즘을 연구실에서 복잡한 대규모 학습 데이터 세트에 걸쳐 실행할 수 있는 실생활 환경으로 가져오기 위한 투자였습니다.

SageMaker에서는 고객이 세 가지 방법으로 학습 모델의 알고리즘을 실행할 수 있습니다. 즉, 맞춤형 컨테이너에 자체적인 알고리즘을 가져오거나, 기본 제공 SageMaker 알고리즘을 사용하거나, 단 20줄의 코드로 완전 관리형 MXNet, TensorFlow, PyTorch 및 Chainer 알고리즘을 실행할 수도 있습니다. 텍스트 분류를 위한 BlazingText, 이미지의 객체 탐지 등 새로운 알고리즘을 연중 꾸준히 추가하고 있습니다.

그리고 이제 의심스러운 IP 주소를 탐지하고(IP Insights), 고차원 객체의 저차원 임베딩을 지원하며(Object2Vec), 오래되었지만 유용한 비지도 그룹화를 지원하는(K-평균 군집화) 등의 새로운 기본 제공 알고리즘을 발표하게 된 것을 기쁘게 생각합니다. 이들 알고리즘은 모두 페타바이트 규모의 데이터 세트를 기존 방식보다 10배 향상된 성능으로 지원하도록 설계되었습니다. 전체 연구 개발 부서가 참여할 필요 없이 개발자라면 누구나 SageMaker의 다른 API에 액세스하듯이 이들 알고리즘에 액세스하여 대규모 데이터 세트에 대해서도 빠르고 저렴한 학습의 이점을 실현할 수 있습니다.

또한 새로운 프레임워크 지원(PyTorch 1.0 및 Chainer 포함)도 연중 꾸준히 추가하고 있으며 다른 프레임워크(예: 최신 MXNet 1.3)도 최신으로 유지하고 있습니다. 이제 곧 대규모 분산 학습을 위한 완전 관리형 Horovod 작업과 추론을 위한 scikit-learn 및 Spark MLeap도 실행할 수 있게 될 것입니다.

3. 새로운 규정 준수 표준 및 승인

보안, 암호화, 규정 준수 및 승인은 모두 기계 학습에서 중요한 분야로, ML을 사용하는 모든 사용자가 번거로움 없이 규제 기관과 조직의 데이터(모델 및 노트북과 같은 데이터 의존 자산) 관련 요건을 충족할 수 있도록 보장합니다.

System and Organizational Controls(SOC) 등급 1, 등급 2 및 등급 3 감사에 SageMaker를 추가하게 된 것을 기쁘게 생각합니다. 이제 AWS Management Console에서 SOC 보고서를 사용할 수 있으며 SOC3 보고서를 PDF로 다운로드할 수도 있습니다. 이러한 통제 수단은 SageMaker의 기존 인증을 보완합니다. 이 서비스는 ISO 9001:2015, 27001:2013, 27017:2015, 27018:2014, PCI DSS 3.2 등급 1의 범위에 포함되며 AWS에 적용되는 HIPAA 및 BAA의 적용 대상입니다. ITAR 워크로드는 AWS GovCloud(미국) 리전의 SageMaker에서 실행할 수 있습니다.

Amazon SageMaker를 사용한 실용적 기계 학습

이러한 새로운 기능, 알고리즘 및 승인은 더 많은 개발자에게 기계 학습 워크로드를 지원하는 데 도움이 됩니다. 고객의 요구 사항에 철저히 집중함으로써 Amazon SageMaker를 통해 실생활에서 기계 학습의 유용성과 가용성을 높이는 데 있어 큰 진전을 보이고 있습니다. 승인, 실험 및 자동화는 인공 지능과 크게 관련이 없어 보이지만 고객들은 이러한 기능을 활용함으로써 모델을 구축하고 학습시키고 배포하는 데 소요되는 시간을 더욱 단축할 수 있다고 입을 모읍니다. 연구 개발 부서 없이도 말이죠.

–Matt Wood, AWS 인공 지능 부문 총괄 관리자

이 글은 AWS Machine Learning Blog의 New Features For Amazon SageMaker: Workflows, Algorithms, and Accreditation의 한국어 번역으로 정도현 AWS 테크니컬 트레이너가 감수하였습니다.

Amazon Web Services 한국 블로그