메인 콘텐츠로 건너뛰기

Amazon SageMaker AI

MLOps용 Amazon SageMaker

대규모로 빠르게 고성능 프로덕션 ML 모델 제공

Amazon SageMaker MLOps를 사용해야 하는 이유는 무엇인가요?

Amazon SageMaker는 MLOps(기계 학습 운영)에서 ML 수명 주기 동안 프로세스를 자동화 및 표준화하는 데 도움을 주도록 특별히 구축된 도구를 제공합니다. SageMaker MLOps 도구를 사용하면 대규모로 ML 모델을 손쉽게 훈련, 테스트, 문제 해결, 배포 및 관리하여 데이터 사이언티스트와 ML 엔지니어의 생산성을 높이면서 프로덕션에서 모델 성능을 유지할 수 있습니다.

작동 방식

SageMaker MLOps의 이점

반복 가능한 훈련 워크플로를 통한 모델 개발 가속화
재현성과 거버넌스를 위해 ML 아티팩트를 중앙에서 분류
CI/CD 파이프라인과 ML 워크플로를 통합하여 프로덕션으로 보다 빠른 이전
프로덕션에서 지속적으로 데이터 및 모델을 모니터링하여 품질 유지

모델 개발 가속화

표준화된 데이터 과학 환경 프로비저닝

ML 개발 환경을 표준화하면 손쉬운 새로운 프로젝트 시작, 프로젝트 간 데이터 사이언티스트 교체, ML 모범 사례 구축이 가능함에 따라 데이터 사이언티스트 생산성이 증가하고 최종적으로 혁신의 속도가 증가합니다. Amazon SageMaker Projects는 테스트가 완료된 최신 도구와 라이브러리, 소스 제어 리포지토리, 보일러플레이트 코드 및 CI/CD 파이프라인으로 표준화된 데이터 사이언티스트 환경을 빠르게 프로비저닝합니다.

Screenshot showing the Amazon SageMaker 'Create project' interface with MLOps project templates for model building, training, and deployment, alongside a code repository directory view for batch inference template management.

MLflow를 활용한 ML 실험 단계의 협업

ML 모델 구축은 최적의 모델 정확도를 위한 최선의 알고리즘, 아키텍처 및 파라미터를 찾기 위해 수백 개의 모델을 훈련하는 반복적인 프로세스입니다. MLflow를 사용하면 이러한 훈련 반복에서 입력과 출력을 추적하여 시도의 반복성을 개선하고 데이터 과학자 사이의 협업을 촉진할 수 있습니다. 완전관리형 MLflow 기능을 사용하면 각 팀을 위한 MLflow 추적 서버를 생성하여 ML 실험 중에 효율적인 협업을 촉진할 수 있습니다.

MLflow가 포함된 Amazon SageMaker는 다양한 프레임워크 및 환경에서 효율적인 모델 훈련을 간소화하고, 실험을 추적하고, 재현성을 유지하면서 엔드 투 엔드 기계 학습 수명 주기를 관리합니다. 진행 중인 훈련 작업을 시각화하고, 동료와 실험을 공유하고, 실험으로부터 직접 모델을 등록할 수 있는 단일 인터페이스가 제공됩니다.

Screenshot of the Amazon SageMaker Studio MLflow Tracking Server dashboard. The interface displays MLflow Tracking Servers management, server status, and options to open, edit, or delete an MLflow server. It also highlights features such as creating a tracking server, logging MLflow experiments, and registering MLflow models.

GenAI 모델 사용자 지정 워크플로 자동화

Amazon SageMaker Pipelines를 사용하면 데이터 처리, 모델 훈련, 미세 조정, 평가, 배포의 엔드 투 엔드 ML 워크플로를 자동화할 수 있습니다. Pipelines 시각적 편집기에서 클릭 몇 번으로 자신만의 모델을 구축하거나 SageMaker Jumpstart에서 파운데이션 모델을 사용자 지정하세요. 정기적으로 또는 특정 이벤트(예: S3의 새 훈련 데이터)가 트리거될 때 자동으로 실행되도록 SageMaker Pipelines를 구성할 수 있습니다.

A workflow diagram visualizing an automated fine-tuning process in Amazon SageMaker Pipelines. The flow shows steps including preparing a fine-tuning dataset, fine-tuning a Llama 3.1 model, evaluating large language model (LLM) performance, conditional logic for deployment, and registering or deploying the model for inference.

프로덕션 환경에 손쉽게 모델 배포 및 관리

빠른 모델 재현을 통해 문제 해결

모델 동작의 문제를 해결하고 근본 원인을 파악하기 위해 프로덕션에서 모델을 재현해야 하는 경우가 많습니다. 이에 도움이 되도록 Amazon SageMaker 로그는 워크플로의 모든 단계를 기록하여, 훈련 데이터, 구성 설정, 모델 파라미터, 학습 기울기 등 모델 아티팩트의 감사 추적을 생성합니다. 계보 추적을 사용하여 모델을 재생성하고 잠재적 문제를 디버깅할 수 있습니다.

Diagram showing the architecture for Amazon SageMaker lineage tracking across AWS accounts, with pipelines, models, data processing steps, and cross-account data lineage visualization.

모델 버전의 중앙 집중식 추적 및 관리

ML 애플리케이션 구축에는 모델, 데이터 파이프라인, 훈련 파이프라인 및 검증 테스트가 수반됩니다. Amazon SageMaker Model Registry를 사용하면 중앙 리포지토리에서 모델 버전, 사용 사례 그룹화와 같은 메타데이터 및 모델 성능 지표 기준을 추적하고 비즈니스 요구 사항에 따라 배포에 적합한 모델을 손쉽게 선택할 수 있습니다. 추가로 SageMaker Model Registry는 감사 및 규정 준수에 대한 승인 워크플로를 자동으로 로깅할 수 있습니다.

데모 보기

Screenshot of the Amazon SageMaker Model Registry interface showing a side-by-side comparison of model version metrics, including confusion matrix, receiver operating characteristic (ROC) curve, PRC, and statistical values for recall, precision, and accuracy.

코드를 통해 ML 인프라 정의

일반적으로 “코드형 인프라”라 하는 선언형 구성 파일을 통한 인프라 오케스트레이션은 ML 인프라 프로비저닝 및 CI/CD 파이프라인이나 배포 도구에 지정된 대로 정확하게 솔루션 아키텍처를 구현하는 데 있어 많이 사용되는 접근 방식입니다. Amazon SageMaker Projects를 사용하면 사전 구축된 템플릿 파일을 사용하여 코드형 인프라를 작성할 수 있습니다.

Diagram illustrating the Amazon SageMaker CI/CD machine learning pipeline, showing automated model build and re-training workflows, model registry for configuration and metadata management, and model deployment approval workflows.

통합 및 배포(CI/CD) 워크플로 자동화

ML 개발 워크플로는 프로덕션 애플리케이션의 새 모델을 신속하게 제공할 수 있도록 통합 및 배포 워크플로를 통합해야 합니다. Amazon SageMaker Projects는 개발 환경과 프로덕션 환경 간의 동등성 유지, 소스 및 버전 제어, A/B 테스트, 엔드 투 엔드 자동화와 같은 CI/CD 사례를 기계 학습으로 가져옵니다. 그 결과, 승인되는 대로 모델을 프로덕션에 가져오게 되고, 그에 따라 민첩성이 증가합니다.

추가로 Amazon SageMaker에는 엔드포인트 가용성을 유지하고 배포 위험을 최소화하는 데 도움이 되는 보호 기능이 내장되어 있습니다. SageMaker는 가용성을 극대화하기 위해 블루/그린 배포와 같은 배포 모범 사례의 설정 및 오케스트레이션을 자동으로 처리하고, 자동 롤백 메커니즘 등 엔드포인트 업데이트 메커니즘과 통합합니다. 이를 통해 문제를 조기에 자동으로 식별하고, 프로덕션에 큰 영향을 주기 전에 교정 조치를 취할 수 있도록 지원합니다.

Diagram illustrating the Amazon SageMaker CI/CD machine learning pipeline, showing automated model build and re-training workflows, model registry for configuration and metadata management, and model deployment approval workflows.

예측 품질 유지를 위한 지속적인 모델 재훈련

모델이 프로덕션에 배포되면 비상 대기 중인 데이터 사이언티스트가 문제를 해결하고 재훈련을 트리거할 수 있도록 알림을 구성하여 성능을 모니터링할 수 있습니다. Amazon SageMaker Model Monitor는 실시간으로 모델 드리프트 및 개념 드리프트를 감지하고 즉각적인 조치를 취할 수 있도록 알림을 보내, 품질을 유지하도록 도와줍니다. SageMaker Model Monitor는 모델 성능 특성(예: 총 예측 수와 비교하여 정확한 예측 수를 측정하는 정확도)을 지속적으로 모니터링하므로, 이상 항목을 해결할 수 있습니다. SageMaker Model Monitor는 SageMaker Clarify와 통합되어 잠재적인 편향을 더욱 명확하게 파악할 수 있도록 가시성을 향상시킵니다.

Screenshot of the Amazon SageMaker Data Quality Monitoring interface, showing a line chart that tracks the 'State_AR: Sum' metric over time to identify data drift and data quality issues for a machine learning model endpoint in production.

성능 및 비용을 위한 모델 배포 최적화

Amazon SageMaker를 사용하면 어느 사용 사례에서나 높은 성능과 낮은 비용으로 추론이 가능하도록 ML 모델을 손쉽게 배포할 수 있습니다. 모든 ML 추론 요구 사항을 충족할 수 있도록 다양한 ML 인프라 및 모델 배포 옵션을 제공합니다.

A visual comparison of Amazon SageMaker model hosting instance types, illustrating CPU (C5), GPU (P3, G4), and custom chip (Inf1) options, along with their throughput, performance, cost, and flexibility characteristics.

새로운 소식

Amazon SageMaker Pipelines를 통한 Amazon SageMaker Autopilot 실험 실행으로 손쉬운 MLOps 워크플로 자동화 실현

2022년 11월 30일

성공 사례 읽기

Amazon SageMaker Pipelines, 로컬 환경에서의 ML 워크플로 테스트 기능 제공

2022년 8월 17일

성공 사례 읽기

Amazon SageMaker Pipelines, 계정 간 파이프라인 엔터티 공유 기능 지원

2022년 8월 9일

성공 사례 읽기

MLOps Workload Orchestrator, Amazon SageMaker 모델 설명 가능성과 편향 모니터링 지원 기능 추가

2022년 2월 2일

성공 사례 읽기

Amazon SageMaker Pipelines, 동시성 제어 지원 시작

2022년 1월 21일

성공 사례 읽기