데이터 사이언티스트를 위한 Amazon SageMaker

데이터 사이언티스트를 위한 Amazon SageMaker

데이터 사이언스

Amazon SageMaker는 ML(기계 학습)을 사용하여 비즈니스 문제를 쉽게 해결할 수 있게 해주기 때문에 수만 명의 데이터 사이언티스트가 SageMaker를 사용합니다. SageMaker Studio는 ML을 위한 완전한 IDE(통합 개발 환경)을 제공하므로, 사용자는 단일의 시각적 경험으로 데이터를 준비하고 모델을 구축, 훈련 및 배포할 수 있습니다. 전반적으로, 데이터 사이언스 팀은 SageMaker를 사용하여 생산성을 10배까지 높일 수 있습니다.

Machine Learning

투명성

바이어스는 연령 또는 소득 계층처럼 여러 그룹 전반에서 예측의 정확도에 불균형이 있다는 것을 의미합니다. 바이어스는 모델 훈련에서 사용되는 데이터 또는 알고리즘으로 인해 발생할 수 있습니다. 기계 학습 필드는 데이터 및 모델에서 바이어스를 감지하여 해결할 수 있는 기회를 제공합니다.

바이어스 감지 및 예측 이해

Amazon SageMaker Clarify는 데이터 준비 중에 그리고 훈련 후에 바이어스 감지를 통해 모델 품질을 개선하는 데이터를 제공합니다. 또한 SageMaker Clarify는 모델 설명가능성 보고서를 제공하므로 이해관계자는 모델이 예측을 수행하는 방법과 이유를 확인할 수 있습니다.

자세히 알아보기 »
SageMaker Clarify

훈련 데이터 수집 및 준비

Amazon SageMaker는 고품질 훈련 데이터를 생성하는 데 필요한 모든 도구를 제공합니다. 사용자는 AWS 및 타사 데이터 원본의 데이터에 쉽게 액세스하고, 데이터에 레이블을 지정하고, 데이터를 자동으로 정리 및 변환하고, 데이터를 시각화하여 모델 피처를 엔지니어링할 수 있습니다. 

몇 분 안에 ML 데이터 준비

SageMaker Data Wrangler의 데이터 선택 도구를 사용하면 여러 데이터 원본(예: Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon S3, Amazon SageMaker Feature Store)에서 빠르게 데이터를 선택할 수 있습니다. 또한 데이터 원본에 대한 쿼리를 작성하고 다양한 파일 형식에서 SageMaker로 직접 데이터를 가져올 수 있으며, SageMaker Data Wranger의 시각화 템플릿 및 기본 제공 데이터 변환 기능을 사용하여 준비된 데이터로 정확한 ML 모델을 구축하도록 할 수 있습니다. 

자세히 알아보기 »
SageMaker Data Wrangler

데이터 레이블링

Amazon SageMaker Ground Truth는 기계 학습을 위해 매우 정확한 훈련 데이터 세트를 구축할 수 있도록 지원합니다. 3D 포인트 클라우드, 비디오, 이미지 및 텍스트를 포함한 사용자 지정 또는 기본 제공 데이터 레이블링 워크플로를 사용하여 SageMaker Ground Truth 콘솔을 통해 데이터 레이블링을 몇 분 만에 시작하세요.

시작하기 »
SageMaker Ground Truth

짧은 대기 시간의 피처 스토어

Amazon SageMaker Feature Store는 ML(기계 학습) 피처를 저장, 업데이트, 검색 및 공유하기 위한 완전 관리형 리포지토리입니다. SageMaker Feature Store는 훈련을 위해 일괄적으로 그리고 추론을 위해 실시간으로 정확히 동일한 피처를 제공합니다. 따라서 사용자는 피처를 일관되게 유지하기 위해 코드를 작성할 필요가 없습니다. 사용자는 새로운 피처를 쉽게 추가하고, 기존 피처를 업데이트하고, 훈련을 위해 피처를 일괄적으로 검색하고, 실시간 추론에 한 자릿수의 밀리초 대기 시간밖에 걸리지 않으면서 동일한 피처를 얻을 수 있습니다.

자세히 알아보기 »
SageMaker Feature Store

모델 구축

데이터가 준비되면 Amazon SageMaker는 그 성능을 평가하기 위해 다양한 모델링 기술을 반복적으로 시도하는 데 필요한 모든 도구를 제공합니다. SageMaker에 최적화되어 있으며 기본 제공되는 15개 이상의 알고리즘을 포함해 다양한 알고리즘을 선택할 수 있으며, 클릭 몇 번 만으로 사용 가능한 인기 있는 모델 모음에서 사전 제작된 150개 이상의 모델을 클릭 몇 번 만으로 선택할 수 있습니다. SageMaker Studio 내에서 사용자는 모델을 소규모로 실행하여 결과를 보고 성능에 대한 보고서를 확인할 수 있으므로 우수한 품질의 작업 프로토타입을 만들 수 있습니다.

원클릭 Jupyter 노트북

Amazon SageMaker Studio 노트북은 클릭 한 번으로 작동하는 Jupyter 노트북으로, 빠르게 작업을 시작할 수 있습니다. 기본 컴퓨팅 리소스는 완전히 탄력적이므로 사용 가능한 리소스를 쉽게 확장하거나 축소할 수 있으며 변경 작업이 백그라운드에서 자동으로 진행되므로 작업에 방해가 되지 않습니다. 사용자는 클릭 한 번으로 노트북을 공유할 수 있으며, 사용자의 동료는 동일한 장소에 저장된 동일한 노트북을 받을 수 있습니다.

시작하기 »
SageMaker Studio 노트북

기본 제공 알고리즘

또한 Amazon SageMaker는 추론을 빠르게 훈련하고 실행하는 데 사용할 수 있는 사전 구축된 컨테이너 이미지에서 사용 가능한 15개 이상의 기본 제공 알고리즘을 제공합니다.

시작하기 »
기본 제공 알고리즘

로컬 모드

Amazon SageMaker를 사용하면 로컬로 테스트하고 프로토타입을 만들 수 있습니다. SageMaker에서 사용되는 Apache MXNet 및 TensorFlow Docker 컨테이너는 GitHub에서 제공합니다. 이러한 컨테이너를 로컬 환경에 다운로드하고 SageMaker 훈련 또는 호스팅 환경에 배포하기 전에 SageMaker Python SDK를 사용하여 스크립트를 테스트할 수 있습니다. 

시작하기 »
SageMaker 로컬 모드

강화 학습

Amazon SageMaker는 기존의 지도 학습 및 비지도 학습뿐 아니라 강화 학습을 지원합니다. SageMaker는 학술 문헌에 언급되는 몇 가지 최고의 최신 성능 알고리즘을 비롯하여 완전 관리형 강화 학습 알고리즘을 기본 제공합니다.

시작하기 »
강화 학습

모델 훈련 및 튜닝

Amazon SageMaker는 모델을 훈련하고 튜닝하는 데 필요한 모든 도구를 제공합니다. 다양한 훈련 실행을 쉽게 관리하여 데이터 세트, 알고리즘 버전, 모델 파라미터 변경의 영향을 분리 및 측정하거나 자동 모델 튜닝을 활용할 수 있습니다. 

훈련 실행 구성, 추적 및 평가

Amazon SageMaker Experiments는 훈련 입력 파라미터, 구성, 결과를 자동으로 캡처하여 ‘실험’으로 저장합니다. 사용자는 활성 실험을 탐색하고, 특성별로 이전 실험을 검색하고, 결과와 함께 이전 실험을 검토하고, 실험 결과를 시각적으로 비교할 수 있습니다.

시작하기 »
SageMaker Experiments

문제 감지 및 디버그

Amazon SageMaker Debugger는 실시간으로 메트릭을 캡처하므로, 사용자는 모델이 프로덕션에 배포되기 전에 성능 문제를 빠르게 수정할 수 있습니다.

자세히 알아보기 »
SageMaker Debugger

관리형 스팟 훈련

Amazon SageMaker는 관리형 스팟 훈련을 제공하므로 훈련 비용을 최대 90% 줄일 수 있습니다. 이 기능은 예비 AWS 컴퓨팅 용량인 Amazon EC2 스팟 인스턴스를 사용합니다. 컴퓨팅 용량을 사용할 수 있으면 훈련 작업이 자동으로 실행되고 용량 변경으로 인한 중단에 탄력적으로 대응하므로 훈련 작업 실행 시 유연성을 갖추고 있다면 비용을 절감할 수 있습니다.

시작하기 »
관리형 스팟 훈련

자동 모델 튜닝

Amazon SageMaker는 수천 개의 다양한 알고리즘 파라미터 조합을 조정하여 자동으로 모델을 튜닝함으로써 모델이 산출할 수 있는 가장 정확한 예측에 도달하는 동시에 몇 주간의 노력을 단축할 수 있습니다. 모델 자동 튜닝 기능은 기계 학습을 사용하여 모델을 신속하고도 최대한 정확하게 튜닝합니다. 

시작하기 »
자동 모델 튜닝

프로덕션에 모델 배포

Amazon SageMaker에서는 프로덕션에서 기계 학습 모델을 배포하고 시간 경과에 따라 모델 품질을 모니터링하는 데 필요한 모든 기능을 제공하여 손쉽게 예측을 생성할 수 있습니다. 

자동 워크플로

Amazon SageMaker Pipelines는 CI/CD 방법을 사용하여 ML 워크플로를 규모에 맞게 생성, 자동화 및 관리하도록 도와줍니다. 워크플로가 생성되면 SageMaker Studio에서 워크플로를 시각화하고 관리할 수 있습니다. SageMaker Pipelines는 ML 워크플로의 각 단계 간의 종속성 관리와 관련된 모든 어려운 작업을 처리합니다. 업데이트된 데이터로 언제든지 전체 워크플로를 다시 실행하여, 모델을 정확하게 유지할 수 있고 프로젝트에서 협업이 이루어지도록 워크플로를 다른 팀과 공유할 수 있습니다. 

자세히 알아보기 »
SageMaker Pipelines

모델을 지속적으로 모니터링

Amazon SageMaker Model Monitor는 모델 및 개념 드리프트를 자동으로 감지하고 문제의 원인을 식별하도록 도와주는 자세한 알림을 제공하므로, 사용자는 시간이 지나면서 모델 품질을 개선할 수 있습니다. SageMaker에서 훈련된 모든 모델은 SageMaker Studio에서 수집하고 볼 수 있는 주요 메트릭을 자동으로 생성합니다.

자세히 알아보기 »
SageMaker 모델 모니터

인적 검토

많은 기계 학습 애플리케이션에서 정확한 결과를 위해 신뢰도가 낮은 예측은 사람이 검토해야 합니다. Amazon Augmented AI는 일반적인 기계 학습 사용 사례를 위한 기본 인적 검토 워크플로를 제공합니다.

시작하기 »

배치 변환

Amazon SageMaker 배치 변환을 사용하면 일괄 처리 작업을 위해 대량 데이터 세트의 크기를 조정할 필요가 없습니다. 배치 변환은 간단한 API를 사용하여 대규모 또는 소규모 배치 데이터 세트에 대한 예측을 실행할 수 있게 해 줍니다. 

시작하기 »

다중 모델 엔드포인트

Amazon SageMaker는 많은 수의 사용자 지정 기계 학습 모델을 배포하는 확장 가능하고 비용 효율적인 방법을 제공합니다. SageMaker 다중 모델 엔드포인트를 사용하면 단일 엔드포인트에서 한 번의 클릭으로 여러 모델을 배포하고 단일 지원 컨테이너를 사용하여 지원할 수 있습니다.

시작하기 »