MLOps용 Amazon SageMaker

대규모로 빠르게 고성능 프로덕션 ML 모델 제공

Amazon SageMaker MLOps를 사용해야 하는 이유는 무엇인가요?

Amazon SageMaker는 MLOps(기계 학습 운영)에서 ML 수명 주기 동안 프로세스를 자동화 및 표준화하는 데 도움을 주도록 특별히 구축된 도구를 제공합니다. SageMaker MLOps 도구를 사용하면 대규모로 ML 모델을 손쉽게 훈련, 테스트, 문제 해결, 배포 및 관리하여 데이터 사이언티스트와 ML 엔지니어의 생산성을 높이면서 프로덕션에서 모델 성능을 유지할 수 있습니다.

작동 방식

사용 방법

SageMaker MLOps의 이점

반복 가능한 훈련 워크플로를 만들어 모델 개발 가속화
재현성과 거버넌스를 위해 ML 아티팩트를 중앙에서 분류
CI/CD 파이프라인과 ML 워크플로를 통합하여 프로덕션으로 보다 빠른 이전
프로덕션에서 지속적으로 데이터 및 모델을 모니터링하여 품질 유지

모델 개발 가속화

표준화된 데이터 과학 환경 프로비저닝

ML 개발 환경을 표준화하면 손쉬운 새로운 프로젝트 시작, 프로젝트 간 데이터 사이언티스트 교체, ML 모범 사례 구축이 가능함에 따라 데이터 사이언티스트 생산성이 증가하고 최종적으로 혁신의 속도가 증가합니다. Amazon SageMaker Projects는 테스트가 완료된 최신 도구와 라이브러리, 소스 제어 리포지토리, 보일러플레이트 코드 및 CI/CD 파이프라인으로 표준화된 데이터 사이언티스트 환경을 빠르게 프로비저닝합니다.

SageMaker Projects로 MLOps를 자동화하는 개발자 안내서 읽기

SageMaker MLOps - 표준화된 ML 환경 프로비저닝

ML 실험 중에 MLflow를 사용하여 협업

ML 모델 구축은 최적의 모델 정확도를 위한 최선의 알고리즘, 아키텍처 및 파라미터를 찾기 위해 수백 개의 모델을 훈련하는 반복적인 프로세스입니다. MLflow를 사용하면 이러한 훈련 반복에서 입력과 출력을 추적하여 시도의 반복성을 개선하고 데이터 과학자 사이의 협업을 촉진할 수 있습니다. 완전관리형 MLflow 기능을 사용하면 각 팀을 위한 MLflow 추적 서버를 생성하여 ML 실험 중에 효율적인 협업을 촉진할 수 있습니다.

MLflow가 포함된 Amazon SageMaker는 다양한 프레임워크 및 환경에서 효율적인 모델 훈련을 간소화하고, 실험을 추적하고, 재현성을 유지하면서 엔드 투 엔드 기계 학습 수명 주기를 관리합니다. 진행 중인 훈련 작업을 시각화하고, 동료와 실험을 공유하고, 실험으로부터 직접 모델을 등록할 수 있는 단일 인터페이스가 제공됩니다.

MLflow를 사용한 기계 학습 실험 관리

SageMaker Experiments

GenAI 모델 사용자 지정 워크플로 자동화

Amazon SageMaker Pipelines를 사용하면 데이터 처리, 모델 훈련, 미세 조정, 평가, 배포의 엔드 투 엔드 ML 워크플로를 자동화할 수 있습니다. Pipelines 시각적 편집기에서 클릭 몇 번으로 자신만의 모델을 구축하거나 SageMaker Jumpstart에서 파운데이션 모델을 사용자 지정하세요. 정기적으로 또는 특정 이벤트(예: S3의 새 훈련 데이터)가 트리거될 때 자동으로 실행되도록 SageMaker Pipelines를 구성할 수 있습니다.

Amazon SageMaker Pipelines에 대해 자세히 알아보기

SageMaker Pipelines

프로덕션 환경에 손쉽게 모델 배포 및 관리

모델을 빠르게 재현하여 문제 해결

모델 동작의 문제를 해결하고 근본 원인을 파악하기 위해 프로덕션에서 모델을 재현해야 하는 경우가 많습니다. 이에 도움이 되도록 Amazon SageMaker 로그는 워크플로의 모든 단계를 기록하여, 훈련 데이터, 구성 설정, 모델 파라미터, 학습 기울기 등 모델 아티팩트의 감사 추적을 생성합니다. 계보 추적을 사용하여 모델을 재생성하고 잠재적 문제를 디버깅할 수 있습니다.

Amazon SageMaker ML 계보 추적에 대해 자세히 알아보기

SageMaker 계보 추적

모델 버전을 중앙에서 추적 및 관리

ML 애플리케이션 구축에는 모델, 데이터 파이프라인, 훈련 파이프라인 및 검증 테스트가 수반됩니다. Amazon SageMaker Model Registry를 사용하면 중앙 리포지토리에서 모델 버전, 사용 사례 그룹화와 같은 메타데이터 및 모델 성능 지표 기준을 추적하고 비즈니스 요구 사항에 따라 배포에 적합한 모델을 손쉽게 선택할 수 있습니다. 추가로 SageMaker Model Registry는 감사 및 규정 준수에 대한 승인 워크플로를 자동으로 로깅할 수 있습니다.

모델 레지스트리로 모델 등록 및 배포에 대해 자세히 알아보기

SageMaker Model Registry

코드를 통해 ML 인프라 정의

일반적으로 “코드형 인프라”라 하는 선언형 구성 파일을 통한 인프라 오케스트레이션은 ML 인프라 프로비저닝 및 CI/CD 파이프라인이나 배포 도구에 지정된 대로 정확하게 솔루션 아키텍처를 구현하는 데 있어 많이 사용되는 접근 방식입니다. Amazon SageMaker Projects를 사용하면 사전 구축된 템플릿 파일을 사용하여 코드형 인프라를 작성할 수 있습니다.

SageMaker Projects로 MLOps 자동화에 대해 자세히 알아보기

통합 및 구축(CI/CD) 워크플로 자동화

ML 개발 워크플로는 프로덕션 애플리케이션의 새 모델을 신속하게 제공할 수 있도록 통합 및 배포 워크플로를 통합해야 합니다. Amazon SageMaker Projects는 개발 환경과 프로덕션 환경 간의 동등성 유지, 소스 및 버전 제어, A/B 테스트, 엔드 투 엔드 자동화와 같은 CI/CD 사례를 기계 학습으로 가져옵니다. 그 결과, 승인되는 대로 모델을 프로덕션에 가져오게 되고, 그에 따라 민첩성이 증가합니다. 

추가로 Amazon SageMaker에는 엔드포인트 가용성을 유지하고 배포 위험을 최소화하는 데 도움이 되는 보호 기능이 내장되어 있습니다. SageMaker는 블루/그린 배포와 같은 배포 모범 사례를 설정 및 오케스트레이션하고 자동 롤백 메커니즘과 같은 엔드포인트 업데이트 메커니즘을 통합하여 문제를 조기에 자동으로 식별하고 이러한 문제가 프로덕션에 큰 영향을 미치기 전에 교정 조치를 취할 수 있도록 돕습니다.

SageMaker Projects를 사용하여 CI/CD로 엔드 투 엔드 ML 솔루션 생성

기계 학습을 위한 Amazon SageMaker CI/CD

예측 품질 유지를 위해 지속적으로 모델 재훈련

모델이 프로덕션에 배포되면 비상 대기 중인 데이터 사이언티스트가 문제를 해결하고 재훈련을 트리거할 수 있도록 알림을 구성하여 성능을 모니터링할 수 있습니다. Amazon SageMaker Model Monitor는 실시간으로 모델 드리프트 및 개념 드리프트를 감지하고 즉각적인 조치를 취할 수 있도록 알림을 보내, 품질을 유지하도록 도와줍니다. SageMaker Model Monitor는 모델 성능 특성(예: 총 예측 수와 비교하여 정확한 예측 수를 측정하는 정확도)을 지속적으로 모니터링하므로, 이상 항목을 해결할 수 있습니다. SageMaker Model Monitor는 SageMaker Clarify와 통합되어 잠재적 바이어스에 대한 가시성을 높입니다.

자세히 알아보기

SageMaker Model Monitor

성능 및 비용을 위해 모델 배포 최적화

Amazon SageMaker를 사용하면 어느 사용 사례에서나 높은 성능과 낮은 비용으로 추론이 가능하도록 ML 모델을 손쉽게 배포할 수 있습니다. 다양한 ML 인프라 및 모델 배포 옵션 중에서 선택하여 모든 ML 추론 요건을 충족할 수 있습니다.

자세히 알아보기

SageMaker Model Hosting