게시된 날짜: Apr 27, 2022
Amazon SageMaker Data Wrangler는 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. SageMaker Data Wrangler를 통해 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. SageMaker Data Wrangler의 데이터 선택 도구를 사용하면 여러 데이터 원본(예: Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker 특성 저장소, Databricks Delta Lake 및 Snowflake)에서 빠르게 데이터를 선택할 수 있습니다.
오늘 Data Wrangler의 데이터 품질 및 인사이트 보고서 기능이 정식 출시됩니다. 이전에는 기계 학습용 데이터 및 데이터 품질에 대한 인사이트를 얻으려면 데이터 사이언티스트가 인사이트를 가져오고, 처리하고, 분석한 후 최종적으로 내보내는 많은 양의 코드를 작성해야 했습니다. 이 프로세스에는 많은 시간과 노동이 들어갔습니다. 오늘부터 데이터 및 데이터 품질에 대한 인사이트가 지원됨에 따라 클릭 몇 번으로 이러한 인사이트에 즉시 액세스할 수 있습니다. 이 새로운 보고서는 데이터 품질을 자동으로 확인하고 데이터의 이상을 감지합니다. 데이터 사이언티스트와 데이터 엔지니어는 이 도구를 사용하여 빠르고 효율적으로 도메인 지식을 적용함으로써 기계 학습 모델 훈련을 위한 데이터 집합을 처리할 수 있습니다.
보고서에 포함된 섹션은 다음과 같습니다.
- 요약 통계. 이 섹션은 행 수, 특성, 누락 %, 유효 %, 중복 행 및 특성 유형 분류(예: 숫자와 텍스트)에 대한 인사이트를 제공합니다.
- 데이터 품질 경고. 이 섹션은 데이터의 이상을 가리키는 경고를 제공합니다. 소수의 마이너리티 클래스의 존재, 높은 대상 카디널리티, 드문 대상 레이블, 불균형한 클래스 분산, 왜곡된 대상, 꼬리가 두꺼운 대상, 대상 내 이상값, 회귀가 빈발한 레이블, 잘못된 값 등에 대한 항목이 포함됩니다.
- 대상 열 인사이트. 이 섹션은 대상 열에 대한 통계를 제공합니다. 예를 들어 유효 %, 누락 %, 이상값 %, 단변량 통계(예: 최소/중간/최대)가 제공됩니다. 또한 이상값 또는 잘못된 대상 값의 관측치 예제도 보여줍니다.
- 빠른 모델. 데이터 인사이트 보고서는 사용자의 데이터를 바탕으로 모델을 자동 훈련하여 특성 추출 진행률의 방향을 확인하고 관련된 모델 통계를 보고서에 제공합니다.
- 특성 중요도. 이 섹션은 데이터 인사이트 및 데이터 품질 보고서를 준비할 때 자동으로 계산되는 특성 중요도를 기준으로 특성의 순위를 제공합니다.
- 이상 행 및 중복 행. 데이터 품질 및 인사이트 보고서는 격리 예측 알고리즘을 사용하여 이상 샘플을 감지하고 데이터 집합에 존재할 수 있는 중복 행을 표면화합니다.
- 특성 세부 정보. 이 섹션은 데이터 집합의 각 특성에 대한 요약 통계와 대상 변수의 해당하는 분포를 제공합니다.
데이터 품질 및 인사이트 보고서를 생성하는 방법과 데이터 준비 워크플로의 일부로 사용하는 방법에 대해 자세히 알아보려면 이 블로그를 읽어보세요.
Amazon SageMaker Data Wrangler의 새로운 기능을 시작하려면 Amazon SageMaker Studio를 최신 릴리스로 업그레이드한 후 열고 메뉴에서 파일(File) > 새로 만들기(New) > 흐름(Flow)을 클릭하거나 SageMaker Studio 시작 관리자에서 ‘새 데이터 흐름(New data flow)’을 클릭합니다. 새로운 기능에 대한 자세한 사항은 설명서를 참조하세요.