게시된 날짜: Jun 9, 2022
오늘 Amazon SageMaker Data Wrangler를 사용하여 데이터를 훈련 및 테스트 분할로 분할할 수 있음을 발표합니다. Amazon SageMaker Data Wrangler는 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. SageMaker Data Wrangler를 통해 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. SageMaker Data Wrangler의 데이터 선택 도구를 사용하면 여러 데이터 소스(예: Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake 및 Databricks Delta Lake)에서 빠르게 데이터를 선택할 수 있습니다.
오늘부터 Data Wrangler를 사용하여 클릭 몇 번으로 데이터를 훈련 및 테스트 세트로 분할할 수 있습니다. 이전까지는 데이터 사이언티스트가 ML 모델을 훈련하기 전에 데이터를 훈련 세트와 테스트 세트로 분할하는 코드를 작성해야 했습니다. SageMaker Data Wrangler의 새로운 훈련-테스트 분할 변환을 사용하면 이제 다운스트림 모델 훈련 및 검증에 사용하기 위해 데이터를 훈련, 테스트 및 검증 세트로 분할할 수 있습니다. 또한 SageMaker Data Wrangler는 각 분할에 들어갈 데이터의 양을 지정하는 옵션과 함께 무작위, 정렬, 계층화 및 키 기반 분할을 포함한 다양한 유형의 분할을 제공합니다. 예를 들어 데이터를 훈련 세트와 테스트 세트로 무작위로 분할하면 훈련 세트에서 기계 학습 모델을 훈련한 다음 테스트 세트에서 기계 학습 모델을 평가할 수 있습니다. 훈련 중에 본 데이터로 모델을 평가하는 것은 편향될 수 있으므로 훈련 전에 테스트 데이터를 따로 설정하는 것이 중요합니다. 결과적으로 테스트 세트 데이터에서 모델 정확도를 평가하면 모델 성능에 대한 실제 추정치를 제공합니다.
Amazon SageMaker Data Wrangler의 새로운 기능을 시작하려면 최신 릴리스로 업그레이드한 다음 메뉴에서 파일> 새로 만들기> 흐름을 클릭하거나 SageMaker Studio 시작 관리자에서 "새 데이터 흐름"을 클릭합니다. 새로운 기능에 대한 자세한 사항은 블로그를 읽고 설명서를 참조하세요.