게시된 날짜: Oct 21, 2022
오늘부터 Amazon SageMaker Data Wrangler에서 주 성분 분석(PCA)을 사용한 차원 축소가 지원됩니다. Amazon SageMaker Data Wrangler는 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. Data Wrangler를 통해 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. PCA는 관찰별 차원 수가 많은 대규모 데이터 세트를 분석하는 인기 있는 기술로 XgBoost 및 random forest 같은 인기 있는 ML 알고리즘 사용 시 데이터 세트의 차원을 축소하는 데 도움이 되는 통계적 기술입니다. 이전에는 데이터 세트에서 PCA를 실행하려면 데이터 과학자가 적절한 라이브러리를 찾고 코드를 작성하여 고차원 데이터를 축소해야 했습니다.
Data Wrangler의 PCA 지원을 통해 이제 클릭 몇 번으로 손쉽게 고차원 데이터 세트의 차원을 축소할 수 있게 되었습니다. “Add step” 워크플로의 차원 축소를 선택하여 PCA에 액세스할 수 있습니다. 기본 제공 열 선택기를 통해 손쉽게 모든 숫자 열을 자동 선택하고 유지할 주 성분의 수를 지정할 수 있습니다. 선택적으로 적절한 분산 임계값 백분율을 지정할 수 있습니다. Data Wrangler는 변환된 데이터 세트에서 유지할 적절한 성분 수를 자동으로 결정합니다.