메인 콘텐츠로 건너뛰기

데이터 프로파일링이란 무엇인가요?

데이터 프로파일링은 조직의 데이터를 검토하여 기존 정보, 저장 방식, 서로 다른 데이터세트 간의 연관 관계를 이해하는 프로세스입니다. 대기업은 수백 개에서 수천 개에 달하는 다양한 출처에서 데이터를 수집하며, 이로 인해 중복, 불일치, 기타 데이터 정확성 문제 등이 발생하여 향후 분석 프로젝트에 영향을 줄 수 있습니다. 데이터 프로파일링은 자동화 도구를 활용해 데이터 품질을 평가하고, 콘텐츠 및 사용 패턴을 식별하여 보고하는 것을 목표로 합니다. 이는 데이터가 분석 및 비즈니스 인텔리전스에 활용되기 전 반드시 수행해야 하는 중요한 사전 처리 단계입니다.

데이터 프로파일이란 무엇인가요?

데이터 프로파일은 기업 데이터의 속성과 해당 데이터에 포함될 수 있는 잠재적 데이터 품질 문제에 대한 상세한 인사이트를 제공하는 보고서입니다. 이 보고서는 메타데이터와 통계 정보를 중심으로 구성되어 연구자에게 데이터 내용에 대한 포괄적인 개요를 제공합니다.

데이터 프로파일에 포함된 통계 정보는 데이터 품질을 결정하는 데 도움이 됩니다. 최소값 및 최대값, 빈도 데이터, 변동, 평균 및 모드, 백분위수 및 데이터 분포에 대한 기타 인사이트에 대한 정보를 제공합니다.

보고서의 메타데이터 섹션은 기업이 수집하는 데이터 유형에 대한 인사이트를 제공합니다. 여기에는 데이터 구조, 데이터세트 간 관계를 이해하기 위한 외래 키 분석, 서로 다른 테이블 간 일관성을 검증하기 위한 참조 무결성 분석이 포함되어 있습니다.

데이터 프로파일링이 중요한 이유는 무엇인가요?

데이터 프로파일링을 사용했을 때 이점은 다음과 같습니다.

데이터 조직 강화

대기업에서는 정보를 공유하거나 유사한 내용을 포함하는 여러 데이터세트를 보유하는 경우가 흔합니다. 기업은 데이터 프로파일링을 활용하여 각 데이터 소스를 식별하고 어떤 필드가 서로 겹치는지 확인할 수 있습니다. 중복성을 파악하면 데이터를 정리하고 조직을 개선하며, 보다 효율적인 데이터 기반 프로세스를 구축하는 데 도움이 됩니다. 높은 수준의 데이터 품질 기준은 중복 작업에 따른 운영 비용을 줄이는 동시에, 기업 내 모든 데이터 기반 프로세스를 향상시킵니다.

협업 강화

데이터 프로파일링 보고서는 소유권과 계보에 대한 정보도 생성합니다. 이를 통해 조직은 누가 어떤 데이터를 소유하고 있으며, 데이터가 어디에서 비롯되었는지 더 잘 파악할 수 있습니다. 이러한 이해는 책임성을 높이고, 보다 효율적인 협업을 촉진합니다.

워크플로 간소화

데이터 프로파일링에는 메타데이터 식별과 데이터 흐름 추적을 용이하게 하는 자동화된 프로세스가 포함되어 있습니다. 데이터 분석가는 긴 수동 식별 작업에 시간을 덜 할애하고, 보다 전문적인 기술이 필요한 업무에 집중할 수 있습니다. 또한 중복되거나 부정확한 데이터를 제거하고, 사용되는 모든 데이터가 높은 품질 기준을 충족하도록 보장할 수 있습니다.

중앙 집중식 거버넌스

데이터 프로파일링은 데이터에 대한 정보를 중앙 집중화하여, 데이터가 어디에 저장되어 있는지, 누가 소유하고 있는지, 어떤 정보가 겹치는지 한눈에 파악할 수 있게 해줍니다. 이를 통해 데이터 사일로를 극복하고, 데이터 액세스를 향상시킬 수 있습니다. 데이터를 문서화하고 전체적으로 맵핑하는 포괄적 접근 방식은 조직 내 모든 구성원이 자신의 데이터를 보다 명확히 이해할 수 있도록 지원합니다. 또한 프로파일링은 서로 다른 데이터세트 간의 관계를 보여주고, 데이터가 시스템 내에서 어떻게 이동하는지 추적할 수 있게 해 주며, 이는 규제 준수에 매우 중요합니다.

데이터 프로파일링의 사용 사례로는 어떤 것들이 있나요?

데이터 프로파일링에는 여러 사용 사례가 있습니다.

데이터 품질

데이터 작업이 실패할 경우, 데이터 프로파일링은 원인을 찾을 수 있는 가장 쉬운 방법 중 하나입니다. 데이터 프로파일 보고서는 데이터가 불완전하거나 부정확한지, 또는 오류를 발생시킬 수 있는 예상치 못한 문자가 포함되어 있는지를 나타냅니다. 데이터 엔지니어는 데이터 프로파일을 주기적으로 실행하여 데이터 작업이 예상대로 수행되는지 확인하고 데이터의 품질이 고품질로 유지되도록 할 수 있습니다.

데이터 마이그레이션

데이터 엔지니어는 데이터 프로파일 보고서를 활용해 데이터 시스템이 과부하 상태일 때를 파악하고 운영 효율성 개선을 위해 필요한 조치를 결정할 수 있습니다. 데이터 프로파일 보고서는 클라우드나 새로운 환경으로의 마이그레이션 결정에도 유용하게 활용할 수 있습니다. 데이터 아키텍트는 필요한 정보를 신속하게 수집하여 보다 효율적으로 작업하고, 데이터 파이프라인 개발을 간소화할 수 있습니다.

마스터 데이터 관리

마스터 데이터는 보통 고객, 제품, 공급업체이나 기타 주요 자산을 설명하는 조직 전체에서 사용되는 핵심 데이터입니다. 마스터 데이터 관리(MDM) 애플리케이션은 조직이 마스터 데이터의 일관성과 정확성을 관리하고 유지할 수 있도록 지원하는 소프트웨어 솔루션입니다. 팀은 마스터 MDM 애플리케이션을 개발할 때 데이터 프로필을 활용해 프로젝트에 통합된 시스템, 애플리케이션 범위, 데이터 불일치 여부 등을 파악합니다. 기업은 데이터 프로파일링을 활용하여 데이터 품질 문제, null 값 및 오류를 가능한 한 빨리 식별함으로써 데이터 표준화의 속도를 증가시키고 MDM을 지원할 수 있습니다.

데이터 프로파일링에는 어떤 유형이 있나요?

여러 종류의 데이터 프로파일링 기법이 있습니다.

구조 탐색

구조 탐색 데이터 프로파일링은 데이터베이스 전체에 걸쳐 모든 데이터가 일관되도록 보장하는 전략입니다. 특정 필드의 모든 데이터를 검사하여 데이터가 올바른 형식인지, 해당 필드의 다른 모든 항목과 일관되게 구조화되어 있는지 확인합니다. 예를 들어 구조 탐색을 통해 목록에 있는 모든 휴대폰 번호의 자릿수가 동일한지 확인하고 누락되거나 호환되지 않는 값이 있는 번호에 플래그를 지정할 수 있습니다.

콘텐츠 탐색

콘텐츠 탐색 데이터 프로파일링은 데이터에서 체계적인 문제를 찾을 수 있는 전략입니다. 이러한 오류는 잘못된 값이거나 데이터베이스 내 부적절하게 구조화된 개별 요소의 형태를 띨 수 있습니다.

관계 탐색

관계 탐색 데이터 프로파일링은 서로 다른 데이터세트가 어떻게 연결되어 있는지, 어떤 데이터세트가 함께 사용되는지, 데이터세트 간 겹침이 어떤 방식인지 추적합니다. 이러한 프로파일링 방식은 먼저 메타데이터를 검사하여 데이터세트 간에 가장 중요한 관계를 파악하고 필드 간 연결 스레드의 범위를 좁혀 총체적인 관계 구조를 보여줍니다.

메타데이터 탐색

메타데이터 탐색 데이터 프로파일링은 메타데이터를 평가함으로써 예상 구조와 데이터를 비교합니다. 메타데이터 탐색을 통해 데이터가 예상대로 동작하고 작동하는지 확인합니다. 예를 들어, 특정 필드가 숫자로 표시되어야 하는데 알파벳순 응답을 받게 된 경우, 메타데이터 탐색 시 이러한 불일치를 오류로 표시하여 추가 검토를 진행합니다.

필드 기반 프로파일링

필드 기반 프로파일링은 단일 필드에서 데이터 유형과 특성이 일치하는지 확인하여 데이터 품질 문제를 식별하는 전략입니다. 이러한 접근 방식은 데이터의 불일치 또는 데이터를 왜곡할 수 있는 이상값을 식별하는 데 도움을 줍니다.

다중 필드 프로파일링은 두 개의 서로 다른 필드 간 관계를 이해하기 위해 유사한 전략을 사용합니다. 교차 필드 프로파일링 또는 교차 테이블 프로파일링이라고도 불리며, 두 필드가 서로 의존하는 데이터라면 호환되는지 검증합니다. 예를 들어, 고객 주소 목록에서 주와 우편번호가 일치하는지 확인하는 경우가 이에 해당합니다.

데이터 프로파일링은 어떻게 작동하나요?

데이터 프로파일링의 주요 단계는 다음과 같습니다.

준비

준비는 데이터 프로파일링을 사용하여 달성하려는 목표를 요약하는 단계입니다. 먼저 어떤 형태의 데이터 프로파일링이 비즈니스 목표를 달성하는 데 가장 효과적인지 파악합니다. 이 단계에서는 조사하고자 하는 메타데이터 필드도 식별합니다.

데이터 검색

다음으로, 시스템에 어떤 데이터가 있는지 확인합니다. 이 단계의 목표는 데이터 구조, 형식, 콘텐츠 및 데이터세트 간의 잠재적 관계에 대한 정보 수집입니다. 이 단계에서 특정 데이터 기능을 확인하기 위해 통계 분석을 수행할 수 있습니다.

표준화

표준화를 활용하여 전체 데이터의 형식과 구조가 일치하도록 할 수 있습니다. 또한 이 단계에서는 중복 데이터를 제거하고 불필요한 중복성을 해소하여, 다음 단계에서 정리해야 할 데이터 양을 줄입니다. 데이터를 표준화하기 위해 비즈니스 규칙을 적용해야 하는 경우, 바로 이 단계에서 데이터 규칙 검증을 수행합니다.

정리

정리에는 오류를 감지하고 제거하며, 데이터를 다른 데이터 소스와 연결하여 데이터를 보강하고, 광범위한 데이터세트의 불일치를 해결하는 작업이 포함됩니다.

개선

마지막으로, 데이터 프로파일링 프로세스는 개선에 초점을 맞춥니다. 이 단계에서는 모든 문제가 가능한 한 빨리 해결될 수 있도록 데이터 품질을 모니터링하는 작업이 포함되어 있습니다. 특정 데이터 거버넌스나 데이터 전략 목표가 있는 경우, 이 단계에서 규정 준수를 보장하고 데이터가 조직 전체에 올바르게 수집되고 배포되는지 확인할 수 있습니다.

일반적인 데이터 프로파일링 함수란 무엇인가요?

다음은 일반적인 데이터 프로파일링 도구와 함수입니다.

수학 함수

데이터 프로파일링의 수학적 함수는 데이터 완전성을 계산하고 데이터세트 전반에 걸쳐 존재하는 패턴을 식별하는 방법입니다. 예: 절대값, 거듭제곱, 로그 등

집계 함수

집계 함수는 행이나 열에서 여러 필드를 수집한 다음, 이를 요약하여 하나의 값으로 반환하는 데 사용됩니다. 예를 들어, 평균, 개수, 최대값, 분산 등이 있습니다.

텍스트 함수

텍스트 함수는 알파벳순 데이터 항목을 검사하여 이러한 문자열 필드의 데이터 품질을 평가하고 해당 필드와 상호 작용하는 데 도움이 되는 전략입니다. 예를 들어, find, char, trim 등이 있습니다.

날짜 및 시간 함수

날짜 및 시간 함수는 연구자가 날짜나 시간 필드를 포함한 데이터를 분석할 수 있도록 해줍니다. 특정 날짜 또는 시간을 조회하거나, 날짜 간의 차이를 계산 또는 해당 필드에서 특정 정보를 추출할 수 있습니다. 예를 들어 시간대 변환, 주어진 날짜에서 연도, 월, 일 추출 등의 작업이 있습니다.

윈도우 함수

윈도우 함수를 지원하는 데이터 프로파일링 도구를 사용하면 열 단위의 정보를 조사할 수 있습니다. 롤링 데이터 윈도우에서 크로스 컬럼 프로파일링 및 컬럼 프로파일링을 수행할 수 있습니다. 예를 들어, 롤링 윈도우 개수, 최대값 등이 있습니다.                                                                                                                                                                                                                                                                                                  

웹 함수

웹 함수는 XML 내용이 있는 문자열에서 작동합니다. 웹 서비스에 연계된 모든 데이터의 경우, 이러한 함수는 매우 효과적인 조사 도구입니다. 예를 들어, 데이터 필드를 변환하거나 JSON 객체에서 값을 추출하는 경우가 있습니다.

AWS는 데이터 프로파일링 요구 사항을 어떻게 지원하나요?

Amazon SageMaker Catalog는 데이터 소스의 완전성, 적시성, 정확성 등 다양한 품질 지표를 이해하는 데 도움이 되는 데이터 품질 점수를 제공합니다. Amazon SageMaker Catalog는 AWS Glue Data Quality와 통합되며, 서드파티 데이터 품질 솔루션의 데이터 품질 메트릭을 통합할 수 있는 API를 제공합니다. 데이터 사용자는 구독한 자산의 데이터 품질 지표가 시간이 지나면서 어떻게 변하는지 확인할 수 있습니다. 데이터 품질 규칙을 작성하고 실행하려면 AWS Glue Data Quality와 같은 원하는 데이터 품질 도구를 사용할 수 있습니다. SageMaker Catalog의 데이터 품질 지표를 통해 데이터 소비자는 자산 및 열에 대한 데이터 품질 점수를 시각화하여 의사 결정에 사용하는 데이터에 대한 신뢰를 구축할 수 있습니다.

AWS Glue는 분석, AI/ML 및 애플리케이션 개발을 위해 데이터를 검색, 준비 및 결합하는 프로세스를 간소화하는 서버리스 데이터 통합 서비스입니다. 데이터 통합에 필요한 모든 기능을 제공하므로, 몇 달이 아닌 몇 분 만에 데이터를 분석하고 활용을 시작할 수 있습니다.

AWS Glue DataBrew는 데이터 프로파일링 기능을 제공하는 AWS Glue 내의 시각적 데이터 준비 기능입니다. 다음을 수행할 수 있습니다.

  • 250개 이상의 사전 구축된 변환 기능 중에서 선택하여 코드를 작성하지 않고도 데이터 준비 작업을 자동화할 수 있습니다.
  • 이상 징후를 자동으로 필터링하고, 데이터를 표준 형식으로 변환하며, 잘못된 값을 수정합니다.
  • 준비된 데이터를 분석 및 AI/ML 프로젝트에 즉시 사용할 수 있습니다.

데이터 파이프라인을 모니터링하는 코드를 작성하여 수동으로 데이터 품질 규칙을 생성하는 것은 데이터 프로파일링에서 중요한 과제입니다. AWS Glue Data Quality는 자동으로 통계를 계산하고 품질 규칙을 권장하며 품질이 저하된 것을 감지하면 사용자에게 알립니다.

지금 무료 계정을 만들어 AWS에서 데이터 프로파일링을 시작하세요.