메인 콘텐츠로 건너뛰기

데이터 거버넌스란?

데이터 거버넌스에는 비즈니스 이니셔티브 및 운영을 지원하기 위해 데이터를 적절한 상태로 유지하는 프로세스 및 정책이 포함됩니다. 현대 조직은 운영 및 서비스 제공을 개선하기 위해 다양한 소스에서 대규모로 데이터를 수집합니다. 그러나 데이터 기반 의사 결정은 데이터가 필요한 품질 및 무결성 기준을 충족하는 경우에만 효과적입니다.

데이터 거버넌스는 데이터 사용에 대한 역할, 책임 및 표준을 결정합니다. 여기에는 누가 어떤 데이터에 대해 어떤 상황에서 어떤 방법을 사용하여 어떤 조치를 취할 수 있는지 요약되어 있습니다. 인공 지능(AI) 및 기계 학습(ML) 사용 사례를 지원하는 데 더 많은 데이터가 사용됨에 따라, 모든 데이터 사용이 규정 및 윤리 관련 요구 사항을 충족하는 것이 매우 중요해졌습니다. 데이터 거버넌스는 데이터 보안과 전술적 및 전략적 목표 사이의 균형을 유지함으로써 효율성의 극대화를 보장합니다.

데이터 거버넌스는 왜 중요할까요?

지금까지 데이터 거버넌스 프로그램은 데이터 유출 또는 오용을 방지하기 위해 데이터를 사일로에 가두는 역할을 해왔습니다. 그러나 데이터 사일로의 결과로, 정당한 사용자가 필요한 데이터에 액세스하기 위해 장벽을 헤쳐나가야 하는 상황이 발생합니다. 의도치 않게 데이터 기반 혁신이 억눌리게 됩니다.

MIT CDOIQ가 최고 데이터 책임자(CDO) 및 CDO급 직책을 맡은 350명을 대상으로 2024년에 시행한 설문 조사에서, CDO 중 45%는 데이터 거버넌스를 최우선 과제로 꼽는 것으로 나타났습니다. 이 데이터 리더들은 적절한 통제 수단을 마련하여 데이터를 안전하게 보호하면서도, 필요할 때 적절한 사람과 애플리케이션에 데이터를 제공할 수 있는 데이터 거버넌스 프레임워크를 구축하고자 합니다. 

액세스와 통제 간 균형을 유지

거버넌스를 혁신의 원동력으로 만드는 2가지 지렛대는 액세스와 통제입니다. 성공의 열쇠는 이 둘 사이의 적절한 균형을 찾는 데 있으며, 각 조직의 균형점은 서로 다릅니다. 과도한 통제를 행사하면 데이터가 사일로에 갇히게 되어, 사용자가 필요할 때 데이터에 액세스할 수 없게 됩니다. 이는 창의성을 억누를 뿐 아니라, 데이터를 오래되고 안전하지 않은 상태로 방치하는 섀도 IT 시스템의 생성도 초래합니다. 반대로, 너무 많은 액세스를 제공하는 경우 애플리케이션 및 데이터 저장소 전반에서 데이터가 규제되지 않으므로, 무단 액세스 위험이 증가하고 데이터 품질이 영향을 받을 수 있습니다.

데이터 거버넌스 프로세스는 액세스와 통제의 균형을 유지하여, 데이터에 대한 신뢰와 확신을 사용자에게 제공합니다. 이러한 프로세스는 적절한 검색, 큐레이션, 보호 및 데이터 공유를 촉진함으로써 데이터를 보호하는 동시에 혁신을 장려합니다.

데이터 거버넌스를 사용하면 어떤 이점이 있나요?

데이터 거버넌스는 조직 전체의 데이터 관리를 위한 구조화된 프레임워크를 제공합니다. 다음은 몇 가지 주요 이점입니다.

데이터 품질 개선

데이터 거버넌스는 데이터의 정확성, 완전성 및 일관성에 대한 표준을 설정합니다. 모든 이해관계자가 신뢰할 수 있는 관련성 높고 해석하기 쉬운 최신 데이터를 얻을 수 있습니다. 이 고품질 데이터는 오류를 줄이며, 전략적 및 운영적 의사 결정을 위한 정확하고 시기적절한 인사이트를 생성합니다.

데이터 중심 문화 지원

효과적인 데이터 거버넌스 전략은 데이터를 소중히 여기는 문화를 조성하여, 모든 직원이 업무에서 데이터를 사용하고 이해하도록 장려합니다. 이러한 전략은 비즈니스 커뮤니티의 참여를 촉진하고, 참여하는 비즈니스 영역 전반에서 데이터 통합을 주도합니다. 데이터 엔지니어와 비즈니스 사용자 간의 조정은 조직의 전반적인 데이터 리터러시 및 분석 능력을 향상시킵니다.

운영 효율성 증대

데이터 거버넌스는 적합한 운영 모델, 특히 필요한 수준의 중앙 집중화 및 탈중앙화를 결정하는 데 도움이 됩니다. 운영을 간소화하는 일관된 데이터 관리 관행을 수립할 수 있습니다. 명확하게 정의된 데이터 소유권과 액세스 권한은 부서 간의 협업을 촉진하여, 모든 구성원이 동일하고 신뢰할 수 있는 데이터 소스를 사용할 수 있게 됩니다. 여러 팀 간의 노력을 조정하여, 중복을 줄이고 운영 비용을 절감하며 생산성을 향상시키세요.

규제 준수 지원

데이터 거버넌스 프레임워크는 데이터 관행이 법률 및 산업 규정에 부합하도록 보장하면서, 위험 관리에 대한 사전 예방적 접근 방식을 취합니다. 데이터를 액세스 또는 수정할 수 있는 사용자에 대한 정책을 중앙에서 정의하여, 무단 액세스를 방지할 수 있습니다. 데이터 거버넌스 도구는 민감한 데이터를 보호하기 위한 개인 정보 보호 규정의 준수를 지원합니다.

데이터 거버넌스는 누가 만드나요?

강력한 데이터 거버넌스 전략을 수립하려면 다양한 직무 기능이 필요합니다.

경영진 후원자

이들은 조직 전체의 데이터 거버넌스 원칙, 표준 및 정책을 식별하고 수립합니다. 또한 기업 로드맵에 있는 많은 비즈니스 이니셔티브를 이해하고 있기 때문에, 데이터 거버넌스 활동을 추진하는 우선순위를 결정하는 데 도움을 줄 수 있습니다.

데이터 관리자

이들은 해당 비즈니스 소속으로 프로젝트의 일상적인 세부 사항에 관여합니다. 그리고 목표로 하는 비즈니스 이니셔티브에 어려움을 초래할 수 있는 데이터 문제를 이해하는 데 도움을 줍니다. 또한 프로젝트에서 데이터 거버넌스 프로세스를 구현하며, 데이터가 적절히 관리되도록 보장합니다. 마지막으로, 직원과 고객의 규정 준수 여부를 모니터링하며, 어떤 문제가 발생하면 해당 문제를 에스컬레이션합니다.

데이터 소유자

이들은 데이터에 관한 정책을 수립하며, 여기에는 누가 어떤 상황에서 데이터에 액세스해야 하는지, 규정을 어떻게 해석 및 적용할지, 그리고 핵심 용어의 정의 등이 포함됩니다. 또한 데이터세트의 기술 관리 및 액세스 제어를 담당합니다.

데이터 엔지니어

이들은 IT 부서 소속으로, 데이터 보호, 다양한 소스의 데이터 통합, 데이터 품질 관리, 그리고 적절한 데이터 발견을 위한 최고의 데이터 거버넌스 도구를 선택하고 구현합니다.

데이터 거버넌스에는 어떤 유형이 있나요?

데이터 거버넌스 프로그램은 중앙 집중화와 탈중앙화(셀프 서비스 포함)의 균형을 유지해야 합니다. 다시 말해 비즈니스 요구 사항에 따라, 조직 전체에서 중앙 집중식, 페더레이션형 및 탈중앙식 거버넌스가 혼재될 것입니다. 도메인 간에 일관성(예: 데이터를 서로 연결하는 기능)을 유지하면서, 도메인 팀에 최대한 많은 권한을 부여해야 합니다.  

중앙 집중식 데이터 거버넌스

궁극적으로 중앙 조직에서 강령, 정책, 도구 선택 등을 담당합니다. 하지만 일상적인 조치는 종종 사업부(LOB)로 이관됩니다.

페더레이션형 데이터 거버넌스

페더레이션형 데이터 거버넌스는 개별 사업부 또는 비즈니스 이니셔티브가 요구 사항에 가장 적합한 방식으로 운영할 수 있는 권한을 제공합니다. 그러나 더 작은 중앙 집중식 팀은 예를 들어 전사적 데이터 품질 도구를 포함하여, 자주 반복되는 문제를 해결하는 데 중점을 둡니다.

셀프 서비스 또는 탈중앙식 데이터 거버넌스

각 부서는 중앙 집중식 정책을 준수하면서 특정 프로젝트에 필요한 작업을 수행합니다. 각 프로젝트는 용도에 적합한 경우, 다른 프로젝트의 도구 또는 프로세스를 사용합니다. 데이터 메시(그 자체로 탈중앙식) 같은 주제의 인기가 높아지면서, 셀프 서비스 데이터 거버넌스의 사용도 늘어나고 있습니다. 

데이터 거버넌스는 어떻게 작동하나요?

데이터 거버넌스에는 다양한 기능에 걸쳐 인력, 프로세스 및 기술 솔루션이 필요합니다.

무분별한 데이터 확산을 제한하기 위한 대규모 데이터 큐레이션

대규모 데이터 큐레이션은 데이터베이스, 데이터 레이크, 데이터 웨어하우스 등의 가장 귀중한 데이터 소스를 식별하고 관리하는 것을 의미합니다. 중요한 데이터 자산의 확산과 변형을 제한할 수 있습니다. 또한 데이터 큐레이션은 적절한 데이터가 정확하고 최신 상태이며 민감한 정보가 없도록 보장하는 것을 의미합니다. 이를 통해 사용자는 데이터 기반 의사 결정 및 데이터 공급 애플리케이션을 신뢰할 수 있게 됩니다.

기능: 데이터 품질 관리, 데이터 통합 및 마스터 데이터 관리

데이터를 상황에 맞게 발견하고 이해하세요.

데이터를 상황에 맞게 이해한다는 것은 모든 사용자가 데이터의 의미를 발견하고 이해하여, 비즈니스 가치를 창출하는 데 해당 데이터를 자신 있게 사용할 수 있음을 의미합니다. 중앙 집중식 데이터 카탈로그가 있으면 데이터를 쉽게 찾고, 액세스 권한을 요청하며, 데이터를 사용하여 비즈니스 결정을 내릴 수 있습니다.

기능: 데이터 프로파일링, 데이터 리니지 및 데이터 카탈로그

제어 기능을 통해 확실하게 데이터를 보호하고 안전하게 공유하세요.

데이터를 보호한다는 것은 데이터 프라이버시, 보안 및 액세스 간에 적절한 균형을 맞추는 것을 의미합니다. 비즈니스 사용자와 엔지니어링 사용자 모두를 위한 직관적인 도구를 사용하여, 조직의 경계를 넘어 데이터 액세스를 관리하는 것이 중요합니다.

기능: 데이터 수명 주기, 데이터 규정 준수 및 데이터 보안

비즈니스 위험을 줄이고 규정 준수를 개선하세요.

위험을 줄인다는 것은 데이터가 누구에 의해 어떻게 사용되는지 이해하는 것을 의미합니다. AWS 서비스는 데이터 액세스를 모니터링하고 감사하는 데 도움을 줍니다. 여기에는 데이터 보안과 규정 준수를 보장하기 위한 ML 모델을 통한 액세스도 포함됩니다. 또한 기계 학습에는 책임 있는 사용과 간소화된 보고를 보장하기 위한 감사 투명성이 필요합니다.

기능: 데이터 및 ML에 대한 사용량 감사

데이터 거버넌스 모범 사례에는 어떤 것이 있나요?

효과적인 데이터 거버넌스의 핵심은 이미 자금을 지원받은 비즈니스 이니셔티브에 연계하는 것입니다. 데이터 거버넌스 팀은 이러한 이니셔티브를 지원하는 데 필요한 데이터 도메인, 소스 및 요소가 무엇인지 이해해야 합니다.

  • 목표로 하는 비즈니스 이니셔티브에 대한 지원을 보여주는 데이터 거버넌스 로드맵을 구축합니다. 그런 다음, 선택한 비즈니스 이니셔티브 간에 중복되는 데이터가 있는지 확인을 시작합니다.
  • 최신성과 개인 정보 보호에 대한 요구 사항을 포함하여, 데이터가 지원 및 공급해야 하는 애플리케이션 및 비즈니스 인텔리전스 사용 사례를 파악합니다.
  • 선택한 각 비즈니스 이니셔티브에 대해, 적합한 데이터가 어떤 형태인지를 이해합니다.
  • 데이터 계획 및 구현이 조직 운영의 자연스러운 일부가 되도록, 거버넌스를 기업 운영 모델에 포함함으로써 유지 및 확장합니다.
  • 셀프 서비스와 일관성을 위해 분석 커뮤니티를 조직합니다.
  • 데이터 거버넌스 및 ML 거버넌스를 통해 인공 지능(AI)기계 학습(ML)을 지원합니다. 동일한 데이터 거버넌스 프로그램을 사용하되, 특성 저장소 및 ML 모델로 확장합니다.

데이터 거버넌스는 분석, 기계 학습 및 인공 지능에 어떤 영향을 미치나요?

데이터 거버넌스는 데이터 사용량이 많은 사용 사례에서 핵심 역할을 합니다.

분석 거버넌스

분석 거버넌스는 분석 애플리케이션에서 사용할 데이터를 통제하는 동시에, 분석 시스템의 사용을 통제하는 것입니다. 분석 거버넌스 팀에서는 분석 보고서 버전 관리 및 문서화와 같은 거버넌스 메커니즘을 설정할 수 있습니다. 항상 그렇듯이, 규제 요구 사항을 추적하고, 회사 정책을 수립하며, 더 넓은 범위의 조직에 가드레일을 제공하세요.

AI 거버넌스

AI 거버넌스는 동일한 데이터 거버넌스 관행의 많은 부분을 AI 및 ML 사용 사례에 적용합니다. 데이터 품질 및 통합은 모델 훈련 및 프로덕션 배포에 필요한 데이터를 제공해야 합니다(이것의 중요한 측면 중 하나가 특성 저장소임). 책임 있는 인공 지능(AI)은 민감한 데이터를 모델 구축에 사용하는 것에 특히 주의합니다. 추가적인 AI 거버넌스 기능으로는 모델의 구축, 배포 및 모니터링에 사람들이 참여할 수 있게 하고, 모델 훈련, 버전 관리 및 지원되는 사용 사례를 문서화하고, 윤리적 모델 사용에 대한 지침을 제공하며, 프로덕션 환경에서 모델의 정확성, 드리프트, 과대 적합 및 과소 적합을 모니터링하는 것이 있습니다.

생성형 AI에는 훈련과 추론을 위한 파운데이션 모델(FM)의 적응, 생성형 AI의 유해성과 편향성에 대한 거버넌스, 그리고 파운데이션 모델 운영(FMOps)을 지원하기 위한 추가적인 데이터 거버넌스 기능(예: 데이터 품질 및 무결성)이 필요합니다.

동일한 데이터 거버넌스 프로그램으로 AI 및 ML을 지원할 수 있습니다. 데이터 준비는 AI 및 ML 모델이 훈련 및 프로덕션 추론에 사용할 수 있는 형태로 데이터를 변환하는 데 필요합니다. 그러나 가장 효율적인 데이터 준비는 아예 준비할 필요가 없게 하는 것입니다. 데이터 사이언티스트는 각 사용 사례에 맞춰 데이터를 준비하는 데 너무 많은 시간을 소모합니다. 데이터 거버넌스 팀은 이러한 획일적이고 부담스러운 작업을 줄이는 데 도움을 줄 수 있습니다. 또한 데이터 거버넌스는 AI 및 ML 사용 사례를 위한 성형된 특성 저장소의 생성을 감독할 수 있습니다.

마지막으로, 팀이 민감한 데이터를 파운데이션 모델의 훈련에 사용할 위험을 완화할 수 있도록, 민감한 데이터를 적절하게 보호해야 합니다.

분석과 마찬가지로, 구축하거나 맞춤화한 AI 및 ML 모델의 사용을 통제해야 합니다. 이상적으로는 이러한 통제가 분석 거버넌스와 긴밀히 연계되어야 합니다. 해당 부서가 다양한 비즈니스 영역을 지원하는 방법을 잘 알고 있기 때문입니다.

데이터 거버넌스의 주요 과제는 무엇인가요?

데이터 거버넌스의 가장 일반적인 전략적 과제는 데이터 거버넌스의 가치를 직접 제안하는 것이 아니라, 비즈니스 이니셔티브에 맞게 프로그램을 조정하는 것입니다. 예를 들어, 최종 사용자가 원하는 데이터를 더 쉽게 찾을 수 있도록 하는 것의 가치 또는 데이터 품질 문제를 해결하는 것의 가치를 제안할 수 있습니다. 그러나 이러한 가치 제안은 문제를 찾아 헤매는 해결책일 뿐입니다. 이런 식으로 하면, 지원해야 할 비즈니스 이니셔티브와 자금 지원 및 후원을 놓고 경쟁하게 됩니다. 그보다는, 비즈니스 이니셔티브를 지원하기 위한 데이터 거버넌스를 포지셔닝하는 것이 좋습니다. 모든 주요 비즈니스 이니셔티브에는 데이터가 필요합니다. 데이터 거버넌스는 비즈니스 이니셔티브의 성공을 지원하기에 적합한 상태로 데이터를 유지하도록 보장해야 합니다. 데이터 거버넌스가 이러한 이니셔티브를 지원하는 방식에 대한 보고 및 감사 관행을 간과해서는 안 됩니다.

또 다른 일반적인 전략적 과제는 데이터 거버넌스의 적용 범위를 너무 좁히지 않는 것입니다. 이러한 적용 범위를 너무 좁게 정의하면, 비즈니스 영역 전반을 더 넓게 보지 않고 개별 비즈니스 영역이나 사용 사례에 맞춰 프로그램을 조정하게 될 수 있습니다. 한두 가지 기능만으로 데이터 거버넌스를 정의하는 것도 좁은 정의에 해당할 수 있습니다. 예를 들어, 데이터 카탈로그 하나를 갖추는 것으로 데이터 거버넌스 프로그램이 있다고 할 수는 없습니다.

데이터 거버넌스를 위한 AWS 제품 및 서비스에는 어떤 것이 있나요?

AWS의 엔드 투 엔드 데이터 거버넌스를 통해, 조직은 데이터 워크플로의 모든 단계에서 데이터의 위치, 데이터 액세스 권한 보유자, 그리고 데이터로 수행할 수 있는 작업에 대한 통제권을 확보합니다. AWS를 통한 데이터 거버넌스는 적합한 사람 및 애플리케이션이 필요할 때 적합한 데이터를 쉽고 안전하게 찾고, 액세스하고, 공유할 수 있도록 함으로써 조직이 데이터 기반 의사 결정 시간을 단축하는 데 도움을 줍니다. 데이터 통합 및 데이터 품질의 자동화를 통해 데이터를 선별함으로써 데이터 확산을 제한할 수 있습니다. 데이터 리터러시를 높이는 중앙 집중식 카탈로그를 통해 데이터를 검색 및 이해할 수 있습니다. 안심하고 데이터를 공유할 수 있게 해 주는 정밀한 권한 설정으로 데이터를 보호할 수 있습니다. 

데이터 액세스에 대한 모니터링과 감사를 통해 위험을 줄이고 규정 준수를 개선할 수 있습니다.

  • Amazon Sagemaker Catalog(Amazon DataZone에 구축됨) – 데이터와 AI에 대한 안전한 검색, 관리 및 협업
  • AWS Glue – 모든 규모의 데이터에 대한 검색, 준비 및 통합
  • AWS Lake Formation – 며칠 만에 데이터 레이크를 구축, 관리 및 보호
  • Amazon QuickSight – 몇 초 만에 의미 있는 인사이트를 구축, 발견 및 공유하여 인사이트를 더 빠르게 영향력으로 전환
  • Amazon SageMaker – 완전 관리형 인프라, 도구 및 워크플로를 통해 사용 사례에 적합한 기계 학습 모델을 구축, 훈련 및 배포
  • ML 거버넌스 웹 페이지
  • Amazon Bedrock – 파운데이션 모델(FM)을 통한 생성형 AI 애플리케이션의 구축과 확장
  • Amazon Macie – 민감한 데이터를 대규모로 검색 및 보호
  • Amazon Simple Storage Service(Amazon S3) 액세스 포인트 – 어디서나 원하는 양의 데이터를 검색할 수 있도록 구축된 객체 스토리지
  • AWS Data Exchange – 클라우드에서 서드 파티 데이터를 손쉽게 검색, 구독 및 사용
  • AWS Clean Rooms – 원시 데이터를 공유하지 않고도 파트너와 협업할 수 있는 클린 룸을 몇 분 만에 생성

지금 바로 무료 계정을 생성하여 AWS에서 데이터 거버넌스를 시작하세요.