Amazon SageMaker Pipelines

기계 학습을 위한 최초의 특수 목적용 CI/CD 서비스

Amazon SageMaker Pipelines는 ML(기계 학습)을 위한 최초의 사용하기 쉬운 특수 목적용 CI/CD(Continuous Integration and Continuous Delivery) 서비스입니다. SageMaker Pipelines를 사용하면 엔드 투 엔드 ML 워크플로를 규모에 맞게 생성, 자동화 및 관리할 수 있습니다.

기계 학습 프로세스의 각 단계에서 워크플로 오케스트레이션(예: 데이터 탐색 및 준비, 다양한 알고리즘과 파라미터 실험, 모델 훈련 및 튜닝, 프로덕션에 모델 배포)에는 몇 달의 코딩 시간이 걸릴 수 있습니다.

SageMaker Pipelines는 기계 학습을 위해 특별히 제작되어, 데이터 로드, 데이터 변환, 훈련 및 튜닝, 배포 등 ML 워크플로의 다양한 단계를 자동화하도록 도와줍니다. SageMaker Pipelines를 사용하면 일주일에 수십 개의 ML 모델을 구축하고 방대한 양의 데이터, 수천 개의 훈련 실험 및 수백 개의 다른 모델 버전을 관리할 수 있습니다. 워크플로를 공유하고 재사용하여 모형을 다시 생성하거나 최적화함으로써 조직 전체로 기계 학습을 확장할 수 있습니다.

Amazon SageMaker Pipelines로 완전 자동화된 기계 학습 워크플로를 생성하는 방법(29:23)

주요 피처

ML 워크플로 작성, 관리 및 재사용

Amazon SageMaker Pipelines를 사용하면 사용하기 쉬운 Python SDK로 ML 워크플로를 생성한 후, Amazon SageMaker Studio를 사용하여 워크플로를 시각화하고 관리할 수 있습니다. SageMaker Pipelines에서 생성한 워크플로 단계를 저장하고 재사용하면 보다 효율적으로 작업할 수 있고 빠르게 확장할 수 있습니다. 또한 기본 제공 템플릿을 사용해 빠르게 시작하여 모델을 구축, 테스트, 등록 및 배포할 수 있어, ML 환경에서 CI/CD를 빠르게 시작할 수 있습니다.

프로덕션에 배포할 최상의 모델 선택

많은 고객이 동일한 모델의 각각 다른 버전을 사용하는 수백 개의 워크플로를 갖고 있습니다. SageMaker Pipelines 모델 레지스트리를 사용하면 비즈니스 요구 사항에 기반하여 배포에 적합한 모델을 쉽게 선택할 수 있는 중앙 리포지토리에서 이러한 버전을 추적할 수 있습니다. 사용자는 SageMaker Studio를 사용하여 모델을 찾아보고 검색할 수도 있고 SageMaker Python SDK를 통해 모델에 액세스할 수 있습니다.

모델 자동 추적

Amazon SageMaker Pipelines는 워크플로의 모든 단계를 기록하여, 훈련 데이터, 플랫폼 구성, 모델 파라미터, 학습 기울기 등 모델 구성 요소의 감사 추적을 생성합니다. 감사 추적을 사용하여 모델을 다시 생성하고 규정 준수 요구 사항을 지원할 수 있습니다.

기계 학습에 CI/CD 적용

Amazon SageMaker Pipelines는 개발 및 프로덕션 환경 간의 패리티 유지, 버전 제어, 온디맨드 테스트, 엔드 투 엔드 자동화 등의 CI/CD 방법을 기계 학습에 제공하여, 조직 전체로 ML을 확장하도록 도와줍니다.

고객

iFood
“iFood에서는 ML(기계 학습) 등의 기술을 사용하는 서비스를 통해 고객에게 즐거움을 드리기 위해 노력합니다. ... 모델을 개발, 훈련, 배포하기 위한 완전하고 원활한 워크플로를 구축하는 것은 ML을 확장하는 우리 여정에서 매우 중요한 부분이었습니다. Amazon SageMaker Pipelines는 확장 가능하고 자동화된 여러 ML 워크플로를 신속하게 구축하게 해주고 우리 모델을 효과적으로 배포하고 관리하기 쉽게 해줍니다. SageMaker Pipelines를 사용하면 개발 주기에서 효율성을 높일 수 있습니다. 우리는 AI/ML을 사용하여 Amazon SageMaker의 모든 신규 기능을 통해 뛰어난 고객 서비스와 효율성을 제공하면서 리더십을 계속 강화하고 있습니다.”

Sandor Caetano, iFood의 수석 데이터 사이언티스트

Invista_Logo
"INVISTA에서는 변환을 기반으로, 전 세계 고객에게 유용한 기술과 제품을 개발하고자 노력하고 있습니다. 우리는 기계 학습이 고객 경험을 개선하는 방법임을 목격하고 있습니다. 하지만 수억 개의 행에 걸쳐 있는 데이터 세트를 사용하기 위해서는 데이터를 준비하고 ML 모델을 규모에 맞게 개발, 배포, 관리하도록 도와주는 솔루션이 필요했습니다. ... Amazon SageMaker Pipelines를 사용해 ML 워크플로를 규모에 맞게 손쉽게 자동화하고 관리할 수 있어, ML 워크플로의 개별 단계를 쉽게 서로 연결할 수 있습니다... Amazon SageMaker Pipelines를 사용하면 ML 워크플로를 더 빠르게 운영할 수 있습니다.”

Caleb Wilkinson, INVISTA의 리드 데이터 사이언티스트

Care.com
“공급이 수요와 일치하는 탄탄한 의료 산업은 개인의 가정에서 국가 GDP까지의 경제 성장에서 꼭 필요합니다. Amazon SageMaker Pipelines는 정말 흥미로운 서비스입니다. 데이터 준비부터 배포까지의 확장 가능한 엔드 투 엔드 ML(기계 학습) 모델 파이프라인을 구축하는 데 사용할 수 있는 큐레이팅된 일관된 데이터 세트를 통해 데이터 사이언스 팀과 개발 팀 전체에서 확장성을 높여줄 것으로 생각하기 때문입니다. 우리는 새로 발표된 Amazon SageMaker 기능을 사용하여 다양한 애플리케이션에 대한 ML 모델의 개발 및 배포를 가속화할 수 있어, 고객이 더 빠른 실시간 권장 사항을 통해 더 현명한 결정을 내리도록 도울 수 있습니다.”

Clemens Tummeltshammer, Care.com의 데이터 사이언스 관리자

3M_Logo
“ML을 사용하면서, 3M은 사포와 같이 검증된 제품을 개발하고자 노력하고 있으며, 의료 분야를 포함해 기타 여러 분야에서 혁신을 주도하고 있습니다. 기계 학습을 3M의 더 많은 영역으로 확장하려는 계획을 세우면서 데이터와 모델의 양이 매년 2배씩 매우 빠르게 증가한다는 사실을 확인했습니다. 새로운 SageMaker 피처는 확장을 지원해줄 수 있다는 점에서 매우 반가울 소식이 아닐 수 없습니다. Amazon SageMaker Data Wrangler를 사용하면 모델 훈련을 위해 더욱 간편하게 데이터를 준비할 수 있고, Amazon SageMaker Feature Store를 통해 동일한 모델 피처를 반복해서 만들지 않아도 됩니다. 마지막으로, Amazon SageMaker Pipeline은 포괄적인 워크플로 단계로 데이터 준비, 모델 구축 및 모델 배포를 자동화해주므로, 모델의 시장 출시 기간을 단축할 수 있습니다. 저희 3M에서는 이러한 보다 빠른 속도의 과학을 활용할 수 있기를 더욱 기대하고 있습니다."

David Frazee, 3M 기업 시스템 연구소의 기술 책임자

Amazon SageMaker Pipelines 시작하기