게시된 날짜: Feb 2, 2022
Amazon SageMaker Data Wrangler는 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. SageMaker Data Wrangler를 통해 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. SageMaker Data Wrangler의 데이터 선택 도구를 사용하면 여러 데이터 원본(예: Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker 특성 저장소 및 Snowflake)에서 빠르게 데이터를 선택할 수 있습니다.
오늘부터 Data Wrangler 내에서 JSON, JSONL 및 ORC 파일 형식이 지원됩니다. 이제 Data Wrangler를 사용하여 이러한 파일 형식의 데이터를 검색하고, 미리 보고, 가져올 수 있습니다. ORC 파일 형식은 Hive 데이터를 저장할 수 있는 고도로 효율적인 방법을 제공하지만 텍스트 편집기에서 이 데이터를 미리 보기는 어려울 수 있습니다. 이제 Data Wrangler에서 ORC 파일이 지원됨에 따라 csv 파일과 마찬가지로 ORC 파일의 데이터도 손쉽게 검색할 수 있습니다. Data Wrangler에서 ORC 파일을 가져오고 JSON 데이터를 준비하는 방법에 대해 자세히 알아보려면 이 블로그를 읽어 보세요.
이와 더불어 몇 가지 새로운 변환이 정식으로 출시되었습니다. 데이터 집합의 불균형을 처리하는 변환, 배열 및 JSON 형식 문자열이 있는 열을 처리하는 변환과 높은 카디널리티의 범주별 데이터를 효율적으로 인코딩하는 유사성 인코딩 변환이 여기에 포함됩니다. 시계열 데이터 처리를 위한 다수의 변환이 포함된 300개 이상의 Data Wrangler 변환 컬렉션에 이러한 변환이 추가됩니다. 아래에 이 새로운 변환이 자세히 설명되어 있습니다.
- 데이터 밸런싱. 데이터 집합은 대상 클래스 선호도 차이로 인해 자주 불균형 상태가 될 수 있습니다. 이 새로운 밸런싱 변환은 소수의 희소한 클래스를 요구 사항에 따라 오버샘플링하는 데 도움이 될 수 있습니다. 또한 Data Wrangler에서 이제 정식 출시된 합성 소수자 오버샘플링 기술(SMOTE)을 사용하여 소수 클래스로 구성된 새로운 샘플을 생성할 수 있습니다. SMOTE는 데이터 집합의 유사 행 그룹에서 소수 클래스에 대한 새로운 관측을 생성합니다. Data Wrangler를 통해 데이터 집합 불균형을 처리하는 방법에 대해 자세히 알아보려면 이 블로그를 읽어 보세요.
- 구조적 열 처리. 배열이 포함된 열의 경우 새로운 배열 확대 변환을 사용하여 배열의 각 값에 대한 새 행을 생성할 수 있습니다. JSON 형식 문자열의 경우 새로운 구조적 열 평면화 변환을 사용하여 JSON 형식 문자열의 각 키-값 페어에 대한 새 열을 생성할 수 있습니다. Data Wrangler를 통한 구조적 열 처리에 대해 자세히 알아보려면 이 블로그를 읽어 보세요.
- 범주별 변수 인코딩. 이제 새로운 유사성 인코딩 변환을 사용하여 높은 카디널리티의 범주별 변수를 효율적으로 인코딩할 수 있습니다. 많은 데이터 사이언티스트는 원핫(one-hot) 인코딩을 범주별 변수에 자주 적용합니다. 이 인코딩은 각 범주별 값을 개별 열로 변환합니다. 이 원핫 인코딩 프로세스는 미국의 주가 포함된 단일 열을 50개의 새로운 바이너리 값 변수(각 주에 1개)로 바꿀 수 있습니다. 이제 Data Wrangler에서 유사성 인코딩을 사용하여 모델 성능을 유지하거나 개선하면서 범주별 변수를 훨씬 작은 수의 열로 인코딩할 수 있습니다.
마지막으로 정식 출시되는 기능은 클릭 한 번으로 데이터 처리 작업을 시작할 수 있는 원클릭 ‘작업 생성’ 경험입니다. 오늘부터 ‘작업 생성(Create job)’ 버튼을 클릭하고 Data Wrangler 흐름에 지정된 단계를 사용하여 데이터 처리 작업을 시작할 수 있습니다. 이전과 마찬가지로 Data Wrangler에서 데이터 처리 노트북을 사용하여 데이터 처리 작업을 시작하고 Data Wrangler를 MLOps 파이프라인에 통합할 수 있습니다. Data Wrangler를 통해 데이터 처리 작업을 시작하는 방법에 대해 자세히 알아보려면 이 블로그를 읽어 보세요.
Amazon SageMaker Data Wrangler의 새로운 기능을 시작하려면 Amazon SageMaker Studio를 최신 릴리스로 업그레이드한 후 열고 메뉴에서 파일(File) > 새로 만들기(New) > 흐름(Flow)을 클릭하거나 SageMaker Studio 시작 관리자에서 ‘새 데이터 흐름(new data flow)’을 클릭합니다. 새로운 기능에 대한 자세한 사항은 설명서를 참조하세요.