게시된 날짜: Oct 21, 2022
오늘 AWS는 Amazon SageMaker Data Wrangler에서 파라미터를 사용하여 S3에 저장된 다른 데이터 세트를 동적으로 지원하는 기능을 발표했습니다. Amazon SageMaker Data Wrangler는 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. SageMaker Data Wrangler를 통해 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. 이전에는 고객이 일정에 따라 Data Wrangler 처리 작업 실행 시 동적으로 데이터 세트를 참조할 간편한 방법이 없었습니다. 또한 처리를 위해 사용된 S3 버킷의 파일을 보다 손쉽게 필터링하는 방법이 없었습니다. 마지막으로 Create Job 워크플로 또는 Data Wrangler 처리 노트북에서 Data Wrangler 처리 작업 실행 시 데이터 원본을 변경하는 간단한 방법이 없었습니다.
Data Wrangler에서 파라미터화된 데이터 세트를 지원함에 따라 고객은 파라미터를 사용하여 어떤 데이터 세트를 Data Wrangler 흐름과 처리할지 지정할 수 있게 되었습니다. 파라미터는 Data Wrangler에 저장할 수 있는 변수입니다. 날짜-시간 파라미터를 지정하여 데이터 세트의 특정 날짜-시간 범위를 참조할 수 있습니다. 패턴 파라미터를 통해 특정 패턴을 준수하는 파일 이름과 일치하도록 Python 정규식을 지정할 수 있습니다. 문자열 또는 숫자 파라미터는 일치 문자열 또는 숫자 값으로 파일 이름을 일치시키는 데 사용될 수 있습니다. 노드 “+” 메뉴를 클릭하거나 “Edit dataset”를 선택하여 Data Wrangler의 파라미터에 액세스할 수 있습니다. S3 경로의 어떤 부분이든 강조 표시하면 “Create custom parameter” 메뉴가 표시되어 새 파라미터를 손쉽게 추가할 수 있습니다. 파라미터의 전체 목록은 S3 경로 옆의 “{{ }}” 아이콘을 클릭하여 액세스할 수 있습니다.