게시된 날짜: Sep 8, 2022
Amazon SageMaker Canvas에서 고급 시각화를 사용하는 EDA(탐색적 데이터 분석)용 추가 기능이 발표되었습니다. 이러한 기능을 사용하면 ML(기계 학습) 모델을 구축하기 전에 데이터를 더 자세히 탐색 및 분석할 수 있습니다. SageMaker Canvas는 시각적 포인트 앤 클릭 인터페이스로, 기계 학습 경험이 없는 비즈니스 분석가도 코드를 작성할 필요 없이 정확한 ML 예측을 스스로 생성할 수 있도록 합니다.
Amazon SageMaker Canvas에서는 오늘부터 EDA용 신규 시각화가 제공됩니다. 이러한 시각화를 활용하면 모델 구축 전에 데이터를 더 정확하게 파악할 수 있습니다. 이러한 시각화는 Canvas에서 이미 제공되고 있는 다양한 데이터 준비 및 탐색용 기능과 더불어 추가로 제공됩니다. 해당 기능으로는 유동적인 데이터 샘플링 크기 지정, 누락된 값 산입, 이상치 바꾸기, 데이터 세트 필터링/조인/수정, 확장된 타임스탬프 형식 등이 있습니다. 이러한 시각화를 사용해 데이터 세트 내의 기능 간 관계를 분석하고 데이터를 더욱 정확하게 이해할 수 있습니다. 즉, 쉽게 읽을 수 있는 시각적 형식으로 데이터를 확인할 수 있으며 데이터와 상호 작용하여 애드혹 쿼리에서는 놓칠 수도 있는 인사이트도 파악할 수 있습니다. ML 모델 구축 및 훈련 전에 SageMaker Canvas 내에서 데이터 시각화 도우미를 통해 이러한 시각화를 빠르게 생성할 수 있습니다. 새로운 시각화에는 다음 항목이 포함됩니다.
- 산점도: 데이터 내의 여러 숫자 변수 간 관계를 관찰하는 데 사용할 수 있습니다. 산점도에서는 두 숫자 변수의 값이 점으로 표시됩니다. 각 점의 위치는 가로 축과 세로 축에서 특정 데이터 포인트의 값을 나타냅니다.
- 막대 차트: 막대로 표시되는 범주 데이터 세트를 요약하여 데이터를 즉시 비교하는 데 사용할 수 있습니다. 각 막대의 높이는 특정 데이터 집계의 비율을 나타냅니다.
- 상자 그림: 사분위수 내의 숫자 데이터 그룹을 나타냅니다. 상자 그림을 사용하면 데이터의 값이 분산되는 방식을 확인할 수 있습니다. 그래픽 보기는 숫자 데이터 그룹 하나 이상의 분포를 나타냅니다.