게시된 날짜: Apr 27, 2022
Amazon SageMaker Data Wrangler는 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. SageMaker Data Wrangler를 통해 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. SageMaker Data Wrangler의 데이터 선택 도구를 사용하면 여러 데이터 원본(예: Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker 특성 저장소, Databricks Delta Lake 및 Snowflake)에서 빠르게 데이터를 선택할 수 있습니다.
오늘, S3에서 데이터를 가져올 때 무작위 샘플링을 수행할 수 있는 기능과 Amazon SageMaker Studio에서 Amazon SageMaker Data Wrangler를 사용하여 데이터 집합의 무작위 또는 층화 샘플을 생성할 수 있는 새로운 변환이 정식 발표됩니다. 이전에는 기계 학습 애플리케이션을 위한 데이터를 준비할 때 데이터의 무작위 샘플 또는 층화 샘플을 생성하려면 코드를 작성해야 했습니다. 오늘부터는 가져오기 시 무작위 샘플링 옵션을 사용하여 데이터를 Data Wrangler로 가져올 때 S3의 데이터에 대한 무작위 샘플을 생성할 수 있습니다. 또한 무작위 및 층화 샘플링에 대한 새로운 변환을 통해 다음과 같은 유형의 데이터 집합 샘플을 생성할 수 있습니다.
- 무작위 샘플. 무작위 샘플은 대화형으로 준비하기에는 너무 큰 데이터 집합이 있는 경우 유용합니다. 무작위 샘플링 변환을 사용하면 데이터 집합의 일부를 무작위로 샘플링하여 기계 학습용으로 준비할 수 있습니다.
- 층화 샘플. 층화 샘플은 데이터에 드문 이벤트(예: 전체 신용카드 거래 중 1% 미만으로 발생하는 사기성 신용 카드 거래)가 포함되고 이 드문 이벤트의 일부를 샘플링된 데이터 집합에 보존하려는 경우 유용합니다.
- 첫 번째 K 샘플. 첫 번째 K 샘플은 데이터 집합의 첫 번째 K 행을 사용하여 샘플을 생성합니다. 여기서 K는 숫자입니다. 예를 들어 K가 1,000인 경우 데이터 집합의 처음 1,000개 행이 포함된 샘플이 생성됩니다. 첫 번째 K 샘플링은 데이터를 준비할 때 열 스키마만 수정하면 되는 경우에 유용합니다. 첫 번째 K 샘플의 추가적인 이점은 이 작업이 아주 시간 효율적이라는 것입니다.
Amazon SageMaker Data Wrangler를 통해 데이터를 샘플링하는 방법에 대해 자세히 알아보려면 이 블로그를 읽어보세요.
Amazon SageMaker Data Wrangler의 새로운 기능을 시작하려면 Amazon SageMaker Studio를 최신 릴리스로 업그레이드한 후 열고 메뉴에서 파일(File) > 새로 만들기(New) > 흐름(Flow)을 클릭하거나 SageMaker Studio 시작 관리자에서 ‘새 데이터 흐름(new data flow)’을 클릭합니다. 새로운 기능에 대한 자세한 사항은 설명서를 참조하세요.