게시된 날짜: Aug 9, 2022
Amazon SageMaker Canvas의 데이터 준비 및 분석의 기능이 확장되었습니다. 이 기능은 누락된 값이나 이상치를 대체하고 데이터 세트 내 각기 다른 샘플 사이즈를 선택할 수 있는 유연성을 제공합니다. Amazon SageMaker Canvas는 시각적 포인트 앤 클릭 인터페이스로, 기계 학습 경험이 없는 비즈니스 분석가도 코드를 작성할 필요 없이 정확한 ML 예측을 스스로 생성할 수 있도록 합니다. SageMaker Canvas를 사용하면 다양한 소스의 데이터에 쉽게 액세스 및 결합하고, 데이터를 자동으로 정리하고, 기계 학습 모델을 구축하여 클릭 몇 번으로 정확한 예측을 생성할 수 있습니다.
오늘부터 SageMaker Canvas를 통해 누락된 값을 대체하여 데이터를 더 빨리 준비하고, 데이터의 이상치를 대체하여 더 정확한 ML 모델을 구축할 수 있을 뿐 아니라, 데이터 세트 샘플 크기를 더 다양하게 선택하여 데이터 분석을 좀 더 빨리 완료할 수 있게 되었습니다.
누락된 값 대체: 데이터 세트 내 누락된 값은 일반적으로 발생하며 ML 모델 정확성에 영향을 미칠 수 있습니다. SageMaker Canvas의 새로운 기능은 사용자 지정 값을 통한 데이터 내 누락된 값을 대체(또는 전가라고도 함)하며, 데이터 세트를 그대로 유지하면서 데이터를 신속하게 준비할 수 있습니다. 그 예로, 데이터의 평균값이나 중간값, 또는 사용자 지정 값의 숫자 열에서 누락된 값을 대체할 수 있습니다. 이를 통해 ML 모델을 구축하기 전에 데이터를 준비할 수 있습니다.
이상치 대체: 데이터 범위 내 이상치 또는 드물게 발생하는 값은 대규모 변수 또는 ML 모델 구축에서 바이어스로 유도할 수 있습니다. SageMaker Canvas는 이제 숫자 열의 이상치를 탐지할 수 있으며 특정 범위 내 값으로 대체할 수 있습니다. 또한 표준 편차나 사용자 지정 범위를 선택할 수 있으며 이상치를 특정 범위 내 최솟값 및 최댓값으로 대체할 수 있습니다.
데이터 세트 샘플용 크기 선택: SageMaker Canvas에서는 이제 개선된 데이터 분석을 통해 데이터 세트 샘플의 크기를 선택할 수 있습니다. 샘플링은 대규모 데이터 세트 내에서 패턴 및 추세를 식별할 수 있는 통계적인 기술로 소량의 관리 가능한 양의 데이터로 작업하면서 ML 모델을 구축하는 데 정확한 데이터 분석이 가능합니다. SageMaker Canvas는 보다 빠른 데이터 내 통찰력이 가능한 무작위 샘플링 방법을 사용합니다. 기본적으로, Canvas는 데이터 세트로부터 20,000개 행의 샘플 크기를 사용합니다. 이제 데이터 세트의 크기에 따라 샘플 데이터를 500개 행에서 40,000개 행 사이에서 선택할 수 있어 유연성과 제어력을 동시에 확보할 수 있게 되었습니다.