Amazon SageMaker Data Wrangler

기계 학습에 사용할 테이블 및 이미지 데이터를 준비하는 가장 빠르고 쉬운 방법

왜 SageMaker Data Wrangler를 사용해야 할까요?

Amazon SageMaker Data Wrangler는 ML용 테이블 및 이미지 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 줄여줍니다. SageMaker Data Wrangler를 이용하면 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색, 시각화 및 대규모 처리를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. SQL을 사용하여 다양한 데이터 소스에서 원하는 데이터를 선택하고 신속하게 가져올 수 있습니다. 그런 다음 데이터 품질 및 인사이트 보고서를 사용하여 자동으로 데이터 품질을 확인하고 이상(예: 중복된 행 및 타겟 누수)을 감지할 수 있습니다. SageMaker Data Wrangler에는 300개가 넘는 기본 제공 데이터 변환이 포함되어 있어서, 코드를 작성하지 않고도 빠르게 데이터를 변환할 수 있습니다.

Amazon SageMaker Data Wrangler 개요

SageMaker Data Wrangler의 이점

단 몇 분 안에 데이터를 선택하고 데이터 인사이트를 파악하며 데이터를 변환하여 기계 학습(ML)용 데이터를 준비
모델을 프로덕션에 배포하기 전에 ML 모델의 정확도를 빠르게 예측하고 문제를 진단
PySpark 코드를 작성하거나 Apache Spark를 설치하거나 클러스터를 가동할 필요 없이 데이터를 더 빠르게 프로덕션 환경으로 옮길 수 있습니다.

작동 방식

Amazon SageMaker Data Wrangler 작동 방식

신속한 데이터 액세스, 선택 및 쿼리

SageMaker Data Wrangler 데이터 선택 도구를 사용하면 다양한 주요 소스(예: Amazon Simple Storage Service[S3], Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake 및 Databricks)와 50여 개의 기타 서드 파티 소스(예: Salesforce, SAP, Facebook Ads 및 Google Analytics)의 테이블 및 이미지 데이터에 빠르게 액세스하여 선택할 수 있습니다. 또한 SQL을 사용하여 데이터 소스에 대한 쿼리를 작성하고 다양한 파일 형식(예: CSV, Parquet 및 JSON과 데이터베이스 테이블)에서 SageMaker로 직접 파일을 가져올 수 있습니다.

데이터 인사이트를 생성하고 데이터 품질을 확인

SageMaker Data Wrangler는 데이터 품질(예: 누락 값, 중복 행 및 데이터 유형)을 자동으로 확인하고 데이터의 이상(예: 이상값, 클래스 불균형 및 데이터 누수)을 감지하는 데 도움이 되는 데이터 품질 및 인사이트 보고서를 제공합니다. 데이터 품질을 효과적으로 확인한 후에는 도메인 지식을 빠르게 적용하여 ML 모델 훈련을 위한 데이터 세트를 처리할 수 있습니다.

시각화를 통해 데이터 이해

SageMaker Data Wrangler는 미리 구성된 강력한 시각화 템플릿 세트를 통해 데이터를 이해하고 잠재적 오류와 극단 값을 식별하는 데 도움이 됩니다. 데이터에 적용할 수 있도록 히스토그램, 산점도, 상자 및 위스커 플롯, 선 도표 및 막대 차트가 모두 내장되어 있습니다. 특성 중요도 및 특성 상관 관계를 보여주는 고급 ML 관련 시각화(예: 바이어스 보고서, 특성 상관 관계, 다중 공선성, 대상 누수 및 시계열)도 사용할 수 있습니다. 이러한 도구는 분석 탭에서 액세스할 수 있습니다.

보다 효율적인 데이터 변환

SageMaker Data Wrangler는 300여 개의 사전 구축된 PySpark 기반 데이터 변환 기능을 제공하므로 단 한 줄의 코드 작성 없이 데이터를 변환하고 데이터 준비 워크플로를 확장할 수 있습니다. 일반적인 사용 사례에는 미리 구성된 변환을 사용할 수 있습니다. 예를 들어 JSON 파일을 일반화하고, 중복 행을 삭제하고, 누락 데이터를 평균 또는 중앙값, 원핫 인코딩 및 시계열 관련 변환으로 채워 ML용 시계열 데이터를 빠르게 준비할 수 있습니다. 이미지 데이터의 경우 SageMaker Data Wrangler로 일반적인 이미지 보강(예: 흐림, 강화, 크기 변경) 및 정리 작업(예: 손상된 이미지 및 중복 이미지 삭제)을 수행할 수 있습니다. 또한 PySpark, SQL 및 Pandas에서 사용자 지정 변환을 작성할 수도 있습니다. SageMaker Data Wrangler는 CV 사용 사례에 대한 사용자 지정 변환을 생성하는 데 사용할 수 있는 이미지(imgaug, OpenCV) 라이브러리와 사용자 지정 변환 작성을 간소화하기 위한 풍부한 코드 조각 라이브러리를 제공합니다.

데이터의 예측 능력 이해

SageMaker Data Wrangler Quick Model 기능을 사용하면 데이터의 예상되는 예측 능력을 추정할 수 있습니다. Quick Model은 데이터를 훈련 및 테스트 데이터 세트로 자동 분할하고 XGBoost 모델에서 기본 하이퍼파라미터를 사용하여 데이터를 훈련합니다. 해결하는 태스크(예: 분류 또는 회귀)에 따라 SageMaker Data Wrangler는 데이터 준비 흐름을 빠르게 반복하는 데 도움이 되는 모델 요약, 특성 요약 및 혼동 행렬을 제공합니다.

ML 데이터 준비 워크플로 자동화 및 배포

SageMaker Data Wrangler UI를 사용하면 PySpark 코드를 작성하거나 Apache Spark를 설치하거나 클러스터를 가동할 필요 없이 대규모 데이터 세트로 확장하여 시작할 수 있습니다. 작업을 시작하거나 예약하여 데이터를 빠르게 처리하거나 SageMaker Studio 노트북으로 내보낼 수 있습니다. SageMaker Data Wrangler는 SageMaker Data Wrangler 작업, SageMaker 특성 저장소 및 SageMaker Pipelines를 비롯한 다수의 내보내기 옵션을 제공하므로 데이터 준비 흐름을 ML 워크플로에 통합할 수 있도록 합니다. 데이터 준비 워크플로를 SageMaker에서 호스팅되는 엔드포인트에 배포할 수도 있습니다. 마지막으로 SageMaker Canvas의 시각적 인터페이스를 사용하여 데이터를 직접 내보내서 ML 모델을 훈련시킬 수 있습니다.

고객

Invista
"INVISTA에서는 변환을 기반으로, 전 세계 고객에게 유용한 기술과 제품을 개발하고자 노력하고 있습니다. 우리는 ML이 고객 경험을 개선하는 방법임을 목격하고 있습니다. 하지만 수억 개의 행에 걸쳐 있는 데이터 세트를 사용하기 위해서는 데이터를 준비하고 ML 모델을 규모에 맞게 개발, 배포, 관리하도록 도와주는 솔루션이 필요했습니다. 이제 Amazon SageMaker Data Wrangler를 사용하여 대화식으로 데이터를 효과적으로 선택, 정리, 탐색 및 이해할 수 있으므로 데이터 과학 팀이 수억 개의 행에 걸쳐 있는 데이터 세트로 손쉽게 확장할 수 있는 특성 추출 파이프라인을 생성할 수 있게 되었습니다. Amazon SageMaker Data Wrangler로 ML 워크플로를 더 빠르게 운영할 수 있습니다."

Caleb Wilkinson, INVISTA, 전 Lead Data Scientist

3M
“ML을 사용하면서, 3M은 사포와 같이 검증된 제품을 개발하고자 노력하고 있으며, 의료 분야를 포함해 기타 여러 분야에서 혁신을 주도하고 있습니다. ML을 3M의 더 많은 영역으로 확장하려는 계획을 세우면서 데이터와 모델의 양이 매년 2배씩 매우 빠르게 증가한다는 사실을 확인했습니다. 새로운 SageMaker 피처는 확장을 지원해줄 수 있다는 점에서 매우 반가울 소식이 아닐 수 없습니다. Amazon SageMaker Data Wrangler를 사용하면 모델 훈련을 위해 더욱 간편하게 데이터를 준비할 수 있고, Amazon SageMaker 특성 저장소를 통해 동일한 모델 피처를 반복해서 만들지 않아도 됩니다. 마지막으로, Amazon SageMaker Pipelines는 포괄적인 워크플로 단계로 데이터 준비, 모델 구축 및 모델 배포를 자동화해주므로, 모델의 시장 출시 기간을 단축할 수 있습니다. 저희 3M에서는 이러한 보다 빠른 속도의 과학을 활용할 수 있기를 기대하고 있습니다."

David Frazee, 3M Corporate Systems Research Lab, 전 Technical Director

Deloitte
"Amazon SageMaker Data Wrangler를 통해 새로운 제품을 시장에 출시하는 데 필요한 ML 데이터 준비 프로세스를 가속화해주는 다양한 변환 도구 모음을 사용하여 데이터 준비 요구 사항을 성공적으로 해결할 수 있습니다. 그리고 배포된 모델을 빠르게 확장하면서 고객 요구 사항을 충족시키는 측정 가능하고 지속 가능한 결과를 수개월이 아니라, 불과 며칠 안에 지원할 수 있으므로, 고객도 혜택을 누릴 수 있습니다."

Frank Farrall, Deloitte Principal, AI Ecosystems and Platforms Leader

NRI
"저희 엔지니어링 팀은 AWS 프리미어 컨설팅 파트너로서 AWS와 긴밀하게 협력하면서 고객이 운영 효율성을 지속적으로 개선할 수 있는 혁신적인 솔루션을 구축하고 있습니다. ML은 혁신적인 저희 솔루션의 핵심이지만, 데이터 준비 워크플로에는 정교한 데이터 준비 기법이 포함되므로, 프로덕션 환경에서 운영되기까지 상당한 시간이 소요됩니다. Amazon SageMaker Data Wrangler를 사용하면 데이터 선택, 정리, 탐색, 시각화 등 데이터 준비 워크플로의 각 단계를 수행할 수 있어 데이터 준비 프로세스를 가속화하고 ML을 위한 데이터를 손쉽게 준비할 수 있습니다. Amazon SageMaker Data Wrangler를 사용하면 ML을 위한 데이터를 보다 빠르게 준비할 수 있습니다."

Shigekazu Ohmoto, NRI Japan Senior Corporate Managing Director

equilibrium
"인구 건강 관리 시장에서 당사의 입지가 더 많은 의료 납부자, 공급자, 보험약제 관리기업 등으로 확대됨에 따라 청구 데이터, 등록 데이터 및 약제 데이터를 비롯해 ML 모델을 제공하는 데이터 소스에 대한 엔드 투 엔드 프로세스를 자동화하는 솔루션이 필요했습니다. 이제 Amazon SageMaker Data Wrangler를 통해 검증 및 재사용이 더 쉬운 워크플로 세트를 사용하여 ML을 위한 데이터를 집계하고 준비하는 데 소요되는 시간을 단축할 수 있습니다. 이를 통해 모델의 제공 시간과 품질이 크게 향상되고 데이터 과학자의 효율성이 향상되었으며 데이터 준비 시간이 거의 50% 단축되었습니다. 또한 SageMaker Data Wrangler는 약국, 진단 코드, 응급실 방문, 입원은 물론 인구 통계 및 기타 사회적 결정 요인을 포함한 수천 가지 기능을 갖춘 데이터 마트를 구축할 수 있기 때문에 여러 ML 반복과 상당한 GPU 시간을 절약하여 고객의 전체 엔드 투 엔드 프로세스를 가속화하는 데 도움이 되었습니다. SageMaker Data Wrangler를 사용하면 교육용 데이터 세트를 구축하는 데 있어서 탁월한 효율성으로 데이터를 변환하고, ML 모델을 실행하기 전에 데이터 세트에 대한 데이터 인사이트를 생성하고, 대규모 추론/예측을 위해 실제 데이터를 준비할 수 있습니다.”

Lucas Merrow, Equilibrium Point IoT CEO

SageMaker Data Wrangler 시작하기

블로그

블로그

Amazon SageMaker Data Wrangler에서 데이터 품질 및 인사이트를 확인하여 데이터 준비를 빠르게 완료

블로그

Amazon SageMaker Data Wrangler, SaaS 애플리케이션을 데이터 소스로 지원

블로그

Amazon SageMaker Data Wrangler를 사용하여 Databricks의 데이터를 기계 학습용으로 준비

블로그

Amazon SageMaker Data Wrangler에서 PySpark 및 Altair 코드 조각을 사용하여 데이터 준비

블로그

교차 계정의 Amazon Redshift에서 Amazon SageMaker Data Wrangler로 데이터 가져오기

블로그

기본 수명 주기 구성을 통해 Amazon SageMaker Studio에서 Amazon SageMaker Data Wrangler 사용

실습

자습서

SageMaker Data Wrangler를 시작하기 위한 단계별 자습서

워크숍

SageMaker Data Wrangler를 사용 사례에 활용하는 방법 살펴보기

데모 동영상

동영상

re:Invent 2022: SageMaker Data Wrangler로 데이터 준비 가속화

re:Invent 2022: 데이터 준비 가속화(56:45)
동영상

SageMaker Data Wrangler를 사용하여 신속하게 ML에 대한 데이터 준비 가상 워크숍

ML용 데이터 준비 가속화 가상 워크숍(1:18:08)
동영상

AWS on Air 2020: AWS What’s Next ft(AWS 새로운 소식 특집). SageMaker Data Wrangler

AWS on Air 2020: AWS What’s Next ft(AWS 새로운 소식 특집). SageMaker Data Wrangler(27:51)
동영상

SageMaker Data Wrangler 심층 분석 데모

SageMaker Data Wrangler 심층 분석 데모(28:13)

새로운 소식

  • 날짜(최신순)
결과를 찾을 수 없음
1