게시된 날짜: Oct 17, 2022
오늘부터 Amazon SageMaker Data Wrangler를 통한 변환 다시 맞춤이 지원됩니다. XgBoost 등의 알고리즘에서 데이터를 사용할 수 있도록 하려면 데이터 사이언티스트가 원-핫 인코딩 등의 변환을 사용하여 숫자가 아닌 값을 숫자 값으로 변환해야 합니다. 원-핫 인코딩과 같은 변환은 데이터를 사용하므로 ‘맞춤형’ 변환으로 지칭되는 경우가 많습니다. 그러므로 시간의 경과에 따라 데이터가 계속 변경되면 데이터의 변경 사항을 반영하여 이러한 변환의 업데이트나 다시 맞춤을 수행해야 합니다. 그리고 샘플 데이터 세트를 사용할 때는 샘플 데이터 세트와 더 큰 데이터 세트 간의 변경 사항을 반영하여 변환을 업데이트해야 합니다. 원-핫 인코딩과 같은 변환 사용 시에는 추가 정보가 생성되는데, 데이터 준비 파이프라인에서 이러한 정보를 추적 및 캡처해야 합니다. 이 정보를 생략하거나 잘못 추적하면 데이터 준비 프로세스에서 오류가 발생할 수 있습니다. 변환 다시 맞춤이 지원되기 전까지는 대다수 데이터 사이언티스트가 맞춤형 변환 버전을 사용하거나 새 데이터를 반영하여 변환을 다시 맞춰야 하는 상황을 쉽게 지정할 수 없었습니다. 그리고 새 데이터 세트에 따라 변환을 다시 맞출 때 변환 파이프라인의 업데이트된 버전을 쉽게 생성할 수도 없었습니다.
이제는 Data Wrangler가 데이터 흐름에서 해당하는 모든 변환의 맞춤형 변환을 추적합니다. 그러므로 이제는 이러한 맞춤형 변환을 사용하여 새 데이터를 필요에 따라 더 쉽게 준비할 수 있습니다. 사용자는 변환을 재사용하거나 데이터를 반영하여 새 변환 다시 맞춤을 수행할 시기를 지정할 수 있습니다. 다시 맞춤 기능은 Data Wrangler 처리 작업을 시작할 때 Data Wrangler 시각적 인터페이스에서 사용할 수도 있고, 작업 생성 노트북 내에서도 사용 가능합니다. 작업 생성 워크플로의 “훈련된 파라미터”에서 “다시 맞춤”만 선택하면 흐름에서 변환을 다시 맞출 수 있습니다. 또한 Data Wrangler는 변환 다시 맞춤을 위해 업데이트된 값이 포함되어 있는 새 흐름 파일도 자동으로 생성합니다.