Amazon SageMaker Data Wrangler

기계 학습을 위해 데이터를 준비하는 가장 빠르고 쉬운 방법

Amazon SageMaker Data Wrangler는 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. SageMaker Data Wrangler를 통해 데이터 준비 및 피처 엔지니어링 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. SageMaker Data Wrangler의 데이터 선택 도구를 사용하면 다양한 데이터 원본에서 원하는 데이터를 선택하고 한 번의 클릭으로 가져올 수 있습니다. SageMaker Data Wrangler에는 300개가 넘는 기본 제공 데이터 변환이 포함되어 있어서, 코드를 작성하지 않고도 빠르게 피처를 정규화하고 변환하며 결합할 수 있습니다. SageMaker Data Wrangler의 시각화 템플릿을 사용하면 ML을 위해 처음으로 완벽하게 통합된 개발 환경(IDE)인 Amazon SageMaker Studio에서 템플릿을 보며 이러한 변환이 의도한 대로 완료되었는지 빠르게 미리 보고 검사할 수 있습니다. 데이터가 준비되면 Amazon SageMaker Pipelines에서 완벽하게 자동화된 ML 워크플로를 구축하고 Amazon SageMaker Feature Store에서 재사용하도록 저장할 수 있습니다.

몇 분 안에 ML 데이터 준비

몇 번의 클릭으로 데이터 선택 및 쿼리

SageMaker Data Wrangler의 데이터 선택 도구를 사용하면 여러 데이터 원본(예: Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation 및 Amazon SageMaker Feature Store)에서 빠르게 데이터를 선택할 수 있습니다. 또한 데이터 원본에 대한 쿼리를 작성하고 다양한 파일 형식(예: CSV 파일, Parquet 파일 및 데이터베이스 테이블)에서 SageMaker로 직접 파일을 가져올 수 있습니다.

간편한 데이터 변환

SageMaker Data Wrangler에서는 300개가 넘는 미리 구성된 데이터 변환(예: 열 유형 변환, 단일 핫 인코딩, 누락된 데이터를 평균값 또는 중앙값으로 전가, 열 크기 조정, 데이터/시간 임베드)을 제공하므로, 코드를 전혀 작성하지 않고도 모델에 대해 효과적으로 사용할 수 있는 형식으로 데이터를 변환할 수 있습니다. 예를 들어, 한 번의 클릭으로 텍스트 필드 열을 숫자 열로 변환하거나 PySpark, SQL 및 Pandas에서 사용자 지정 변환을 작성할 수 있습니다.

시각화를 통해 데이터 이해

SageMaker Data Wrangler에서는 미리 구성된 강력한 시각화 템플릿 세트를 통해 데이터를 이해하고 잠재적 오류와 극단 값을 이해하고 식별할 수 있습니다. 히스토그램, 산점도, 상자 수염 플롯, 선형 플롯 및 막대 차트 모두 사용 가능합니다. 히스토그램과 같은 템플릿을 사용하면 코드를 작성하지 않고도 고유한 시각화를 간편하게 만들고 편집할 수 있습니다.

빠르게 ML 모델 정확도 예측

보다 빠르게 ML 데이터 준비 문제 진단 및 수정

SageMaker Data Wrangler에서는 모델을 프로덕션으로 배포하기 전에 데이터 준비 워크플로에서 불일치를 빠르게 식별하고 문제를 진단할 수 있습니다. 성능을 개선하기 위해 추가 피처 엔지니어링이 필요한지를 판단할 수 있도록 준비된 데이터로 정확한 모델을 생성할 수 있는지 빠르게 식별할 수 있습니다.

한 번의 클릭으로 준비에서 프로덕션까지

ML 데이터 준비 워크플로 자동화

한 번의 클릭으로 노트북 또는 코드 스크립트로 데이터 준비 워크플로를 내보내 프로덕션으로 가져옵니다. SageMaker Data Wrangler는 Amazon SageMaker Pipeline과 데이터 준비 워크플로를 원활하게 통합하여 모델 배포 및 관리를 자동화합니다. 또한 Amazon SageMaker Feature Store에 피처를 게시하여 팀과 피처를 공유하고 다른 사용자가 고유한 모델과 분석을 위해 이를 재사용할 수 있습니다.

고객

Invista_Logo
"INVISTA에서는 변환을 기반으로, 전 세계 고객에게 유용한 기술과 제품을 개발하고자 노력하고 있습니다. 고객 경험을 개선하는 한 가지 방법으로 기계 학습을 고려하고 있지만, 수십억 개의 행에 분포된 데이터 세트를 사용하는 환경에서 대규모로 데이터를 준비하고 ML 모델을 개발, 배포 및 관리할 수 있는 솔루션이 필요했습니다. 이제 Amazon SageMaker Data Wrangler를 통해 데이터에 대해 대화식으로 선택, 정리, 탐색 및 이해 과정을 수행할 수 있으므로, 데이터 사이언스 팀이 수십억 개의 행에 분포된 데이터 세트로 손쉽게 확장 가능한 피처 엔지니어링 파이프라인을 생성할 수 있습니다. 또한 Amazon SageMaker Data Wrangler를 사용하여 ML 워크플로를 보다 빠르게 운영할 수 있습니다."

INVISTA의 리드 데이터 사이언티스트, Caleb Wilkinson

3M_Logo
"ML을 사용하면서, 3M은 사포와 같이 검증된 제품을 개발하고자 노력하고 있으며, 의료 분야를 포함해 기타 여러 분야에서 혁신을 주도하고 있습니다. 기계 학습을 3M의 더 많은 영역으로 확장하려는 계획을 세우면서 데이터와 모델의 양이 매년 2배씩 매우 빠르게 증가한다는 사실을 확인했습니다. 새로운 SageMaker 피처는 확장을 지원해줄 수 있다는 점에서 매우 반가울 소식이 아닐 수 없습니다. Amazon SageMaker Data Wrangler를 사용하면 모델 훈련을 위해 더욱 간편하게 데이터를 준비할 수 있고, Amazon SageMaker Feature Store를 통해 동일한 모델 피처를 반복해서 만들지 않아도 됩니다. 마지막으로, Amazon SageMaker Pipeline은 포괄적인 워크플로 단계로 데이터 준비, 모델 구축 및 모델 배포를 자동화해주므로, 모델의 시장 출시 기간을 단축할 수 있습니다. 저희 3M에서는 이러한 보다 빠른 속도의 과학을 활용할 수 있기를 더욱 기대하고 있습니다."

3M 기업 시스템 연구소의 기술 책임자, David Frazee

Deloitte_Logo
"Amazon SageMaker Data Wrangler를 통해 새로운 제품을 시장에 출시하는 데 필요한 기계 학습 데이터 준비 프로세스를 가속화해주는 다양한 변환 도구 모음을 사용하여 데이터 준비 요구 사항을 성공적으로 해결할 수 있습니다. 그리고 배포된 모델을 빠르게 확장하면서 고객 요구 사항을 충족시키는 측정 가능하고 지속 가능한 결과를 수개월이 아니라, 불과 며칠 안에 지원할 수 있으므로, 고객도 혜택을 누릴 수 있습니다."

Deloitte의 수석, AI 에코시스템 및 플랫폼 리더, Frank Farrall

NRI_Logo-White
"저희 엔지니어링 팀은 AWS 프리미어 컨설팅 파트너로서 AWS와 긴밀하게 협력하면서 고객이 운영 효율성을 지속적으로 개선할 수 있는 혁신적인 솔루션을 구축하고 있습니다. 기계 학습은 혁신적인 저희 솔루션의 핵심이지만, 데이터 준비 워크플로에는 정교한 데이터 준비 기법이 포함되므로, 프로덕션 환경에서 운영되기까지 상당한 시간이 소요됩니다. Amazon SageMaker Data Wrangler를 사용하면 데이터 선택, 정리, 탐색, 시각화 등 데이터 준비 워크플로의 각 단계를 수행할 수 있어 데이터 준비 프로세스를 가속화하고 기계 학습을 위한 데이터를 손쉽게 준비할 수 있습니다. Amazon SageMaker Data Wrangler를 사용하면 기계 학습을 위한 데이터를 보다 빠르게 준비할 수 있습니다."

Shigekazu Ohmoto, 전무이사 - NRI Japan

Amazon SageMaker Data Wrangler 시작하기

AWS Management Console에서 기계 학습을 위한 데이터 준비 시작하기