데이터 정리란 무엇인가요?

데이터 정리는 기계 학습(ML) 및 비즈니스 인텔리전스(BI) 애플리케이션을 위한 원시 데이터 준비에 필수적인 프로세스입니다. 원시 데이터에는 많은 오류가 포함되어 ML 모델의 정확성에 영향을 미치고 부정확한 예측과 부정적인 비즈니스 영향으로 이어질 수 있습니다. 

데이터 정리의 주요 단계로는 부정확하고 불완전한 데이터 필드를 수정 및 제거하고, 중복된 정보 및 관련 없는 데이터를 식별하고 제거하며, 포맷팅, 누락된 값 및 철자 오류를 수정하는 작업 단계 등이 있습니다.

데이터 정리가 중요한 이유는 무엇인가요?

기업에서 데이터를 사용하여 의사 결정을 내릴 때는 적절하고 완전하며 정확한 데이터를 사용하는 것이 중요합니다. 하지만 데이터 세트에는 분석 전에 제거해야 할 오류가 있는 경우가 많습니다. 잘못 작성된 날짜와 통화, 기타 측정 단위와 같은 형식 오류가 있으면 예측에 크게 영향을 미칠 수 있습니다. 이상값은 결과를 왜곡하기 마련이므로 특히 문제가 됩니다. 흔히 발견되는 다른 데이터 오류로는 손상된 데이터 포인트, 누락된 정보, 인쇄 오류 등이 있습니다. 데이터를 정리하면 고도로 정확한 ML 모델을 만드는 데 도움이 됩니다. 

잘못된 훈련 데이터 세트를 사용하면 배포된 모델에서 잘못된 예측을 초래할 수 있으므로, 정리되고 정확한 데이터는 ML 모델을 훈련하는 데 있어 특히 중요합니다. 데이터 사이언티스트가 ML용 데이터를 준비하는 데 시간을 많이 할애하는 주된 이유가 바로 여기에 있습니다.

데이터가 정리되었는지 여부는 어떻게 검증하나요?

데이터 정리 프로세스는 문제 항목을 식별하고 수정하는 몇 가지 단계를 수반합니다. 첫 번째 단계로, 데이터를 분석하여 오류를 찾습니다. 이를 위해서는 규칙, 패턴 및 제약 조건을 사용하여 잘못된 값을 식별하는 정성 분석 도구를 사용해야 할 수 있습니다. 다음 단계로, 오류를 제거하거나 수정합니다. 

일반적인 데이터 정리 단계에서는 다음 문제를 해결합니다.

  • 중복 데이터: 중복 정보 제외
  • 관련 없는 데이터: 특정 분석에 중요한 필드를 식별하고 관련 없는 데이터를 분석에서 제외
  • 이상값: 이상값은 모델 성능에 큰 영향을 미칠 수 있으므로 이상값을 식별하고 적절한 조치를 결정
  • 누락된 데이터: 누락된 데이터를 플래깅하고 제외 또는 산입
  • 구조적 오류: 데이터가 공통 패턴 또는 규약을 준수하도록 인쇄 오류 및 기타 불일치 문제를 수정

AWS는 데이터 정리를 어떻게 지원하나요?

Amazon SageMaker Data WranglerAmazon SageMaker의 기능 중 하나로, ML용 데이터를 쉽고 빠르게 준비할 수 있도록 합니다. Amazon SageMaker Data Wrangler를 통해 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색, 바이어스 탐지 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다.

SageMaker Data Wrangler의 데이터 선택 도구를 사용하면 다양한 데이터 소스에서 원하는 데이터를 선택하고 한 번의 클릭으로 가져올 수 있습니다. 데이터를 가져온 다음에는 데이터 품질 및 인사이트 보고서를 사용하여 자동으로 데이터 품질을 확인하고 이상(예: 중복된 행 및 타겟 누수)을 감지할 수 있습니다. SageMaker Data Wrangler에는 300개가 넘는 기본 제공 데이터 변환이 포함되어 있어서, 코드를 작성하지 않고도 빠르게 특성을 정규화하고 변환하며 결합할 수 있습니다.

SageMaker Data Wrangler를 시작하려면 자습서를 참조하세요.

데이터 정리 다음 단계

무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

가입 
콘솔에서 구축 시작

AWS Management Console에서 구축을 시작하세요.

로그인