데이터 웨어하우스, 데이터 레이크, 데이터 마트의 차이점은 무엇인가요?
데이터 웨어하우스, 데이터 마트 및 데이터 레이크의 유사성
오늘날 조직은 끝없이 증가하는 데이터 볼륨에 액세스할 수 있습니다. 하지만 실질적인 이점을 얻으려면 원시 데이터를 정렬, 처리, 필터링 및 분석해야 합니다. 아울러, 규정 준수를 위해 엄격한 데이터 보호 및 보안 방식을 따라야 합니다. 조직이 따라야 하는 방식의 예를 들자면 다음과 같습니다.
- 애플리케이션, 공급업체, 사물 인터넷(IoT) 센서, 다른 서드 파티와 같은 다양한 소스에서 데이터를 수집합니다.
- 데이터를 일관성과 신뢰성이 높고 유용한 형식으로 처리합니다. 예를 들어 조직에서는 시스템의 모든 날짜에 공통의 형식이 적용되도록 하거나 일일 보고서를 요약하기 위해 데이터를 처리할 수 있습니다.
- 기계 학습 소프트웨어에 사용할 수 있도록 XML 파일을 포맷하거나 사람을 위한 보고서를 생성하여 데이터를 준비합니다.
조직에서는 다양한 도구와 솔루션을 사용하여 데이터 분석 결과를 얻습니다. 데이터 웨어하우스, 마트 및 레이크는 모두 데이터 저장을 지원하는 솔루션입니다.
클라우드 기반 데이터 웨어하우스, 데이터 레이크 및 데이터 마트의 이점
이 세 가지 스토리지 솔루션은 모두 데이터의 가용성, 신뢰성 및 보안을 강화하는 데 도움이 됩니다. 다음은 이들 솔루션을 활용하는 방법을 보여주는 예입니다.
- 분석을 위해 비즈니스 데이터를 안전하게 저장
- 필요한 만큼 무제한으로 데이터 볼륨 저장
- 여러 비즈니스 프로세스의 데이터를 통합하여 사일로 해소
- 기록 데이터 또는 레거시 데이터베이스 분석
- 실시간 및 배치 데이터 분석 실시
또한 세 가지 솔루션 모두 비용 효율적이며, 사용하는 스토리지 공간에 대해서만 비용을 부과합니다. 모든 데이터를 저장하고, 패턴과 추세를 분석하고, 정보를 사용하여 비즈니스 운영을 최적화할 수 있습니다.
주요 차이점: 데이터 웨어하우스와 데이터 마트
데이터 웨어하우스는 트랜잭션 시스템의 데이터와 업무 부서 애플리케이션의 데이터를 저장하는 관계형 데이터베이스입니다. 웨어하우스의 모든 데이터는 정형 데이터이거나 테이블로 사전 모델링된 데이터입니다. 데이터 구조와 스키마는 빠른 SQL 쿼리에 최적화되도록 설계되었습니다. 데이터 마트는 이와 동일한 기술을 지칭하는 마케팅 용어입니다. 데이터 마트도 관계형 데이터베이스이지만, 실제 사용법은 데이터 웨어하우스와 크게 다릅니다. 주요 차이점은 다음과 같습니다.
데이터 소스
데이터 웨어하우스에는 내부와 외부의 여러 소스가 있습니다. 어디서나 데이터를 추출하여 정형화된 형식으로 변환한 후 웨어하우스에 로드할 수 있습니다. 데이터 마트의 경우 데이터 소스 수가 적고 크기가 작은 경향이 있습니다.
주안점
데이터 웨어하우스는 일반적으로 여러 사업부의 데이터를 저장하며, 종합적인 분석을 위해 전체 조직에서 수집된 데이터를 중앙에 통합합니다. 데이터 마트는 단일 주제에 초점을 맞추고 있으며, 그 특성상 더 분산되어 있습니다. 데이터 마트는 다른 기존 데이터 웨어하우스의 정보를 필터링하고 요약하는 경우가 많습니다.
사용률
데이터 웨어하우스에 저장된 데이터는 여러 사용자와 프로젝트에 사용됩니다. 따라서 웨어하우스는 수명이 더 길고 본질적으로 더 복잡합니다. 반면, 데이터 마트는 프로젝트에 초점을 맞추어 제한적으로 사용될 수 있습니다. 팀들은 엔터프라이즈 데이터 웨어하우스에서 데이터 마트를 만들고 사용 사례가 완료되면 이를 폐기하는 방식을 선호합니다.
설계 접근 방식
데이터 사이언티스트들은 데이터 웨어하우스를 설계할 때 하향식 접근 방식을 사용합니다. 먼저 전체 아키텍처를 계획하고 문제가 발생하면 해결합니다. 하지만 데이터 마트의 경우, 데이터 엔지니어가 값, 데이터 유형 및 외부 데이터 소스와 같은 세부 정보를 이미 알고 있습니다. 따라서 처음부터 구현을 계획하고 데이터 마트 설계에 대해 상향식 접근 방식을 취할 수 있습니다.
특징 | 데이터 웨어하우스 | 데이터 마트 |
---|---|---|
범위 | 함께 통합된 중앙 집중식의 여러 주제 영역 |
분산된 특정 주제 영역 |
사용자 | 전사적 |
단일 커뮤니티 또는 부서 |
데이터 소스 |
여러 소스 |
단일 또는 몇 개의 소스, 또는 데이터 웨어하우스에 이미 수집된 데이터의 일부 |
크기 |
대형이며 수백 기가바이트에서 페타바이트까지 이를 수 있음 |
소형이며 대개 최고 수십 기가바이트에 이름 |
설계 | 하향식 |
상향식 |
데이터 세부 정보 | 완전한, 상세 데이터 |
요약된 데이터를 포함할 수 있음 |
데이터 웨어하우스에 대해 자세히 알아보기 |
데이터 마트에 대해 자세히 알아보기 |
주요 차이점: 데이터 웨어하우스와 데이터 레이크
데이터 웨어하우스와 데이터 레이크는 관련이 있지만 근본적으로 서로 다른 기술입니다. 데이터 웨어하우스는 정형 데이터를 저장하지만 레이크는 모든 규모의 데이터를 저장할 수 있는 중앙 집중식 리포지토리입니다. 데이터 레이크는 데이터 웨어하우스보다 더 많은 스토리지 옵션을 제공하고, 더 복잡하며, 다양한 사용 사례를 지원합니다. 주요 차이점은 다음과 같습니다.
데이터 소스
데이터 레이크와 웨어하우스 모두 무제한의 데이터 소스를 가질 수 있습니다. 단, 데이터 웨어하우징에서는 데이터를 저장하기 전에 먼저 스키마를 설계해야 데이터를 저장할 수 있습니다. 정형 데이터만 시스템에 로드할 수 있습니다. 반면, 데이터 레이크에는 이러한 요구 사항이 없습니다. 데이터 레이크에는 웹 서버 로그, 클릭 스트림, 소셜 미디어, 센서 데이터 등 비정형 및 반정형 데이터를 저장할 수 있습니다.
전처리
일반적으로 데이터 웨어하우스에 저장하려면 먼저 데이터를 전처리해야 합니다. 데이터 세트를 사전에 정리하고 필터링하고 정형화하는 데 추출, 전환, 적재(ETL) 도구가 사용됩니다. 이와 달리, 데이터 레이크에는 모든 데이터가 저장됩니다. 전처리를 수행할지 여부는 사용자가 선택할 수 있습니다. 조직에서는 일반적으로 추출, 적재, 전환(ELT) 도구를 사용합니다. 조직에서는 데이터를 먼저 레이크에 로드한 후, 필요한 경우에만 변환합니다.
데이터 품질
데이터 웨어하우스의 경우 사용자가 전처리를 수행할 수 있기 때문에 대체로 신뢰성이 더 높습니다. 중복 제거, 정렬, 요약 및 검증과 같은 몇 가지 기능을 미리 실행하여 데이터 정확성을 보장할 수 있습니다. 사전에 검사를 수행하지 않으면 중복되거나 잘못되었거나 검증되지 않은 데이터가 데이터 레이크에 저장될 수 있습니다.
성능
데이터 웨어하우스는 가장 빠른 쿼리 성능을 제공하도록 설계되었습니다. 비즈니스 사용자들은 보다 효율적으로 보고서를 생성할 수 있는 데이터 웨어하우스를 선호합니다. 반면, 데이터 레이크 아키텍처는 성능보다 스토리지 볼륨과 비용을 우선시합니다. 더 낮은 비용으로 훨씬 더 많은 스토리지 볼륨을 얻을 수 있으며, 합리적인 속도로 데이터에 액세스할 수 있습니다.
특징 | 데이터 웨어하우스 | 데이터 레이크 |
---|---|---|
데이터 | 트랜잭션 시스템, 운영 데이터베이스 및 LOB(Line of Business) 애플리케이션의 관계형 데이터 |
정형, 반정형 및 비정형 등 모든 데이터 |
스키마 | 일부 경우 데이터 웨어하우스를 구현하기 전 설계되며 분석과 동시에 작성 가능 (스키마-온-라이트 또는 스키마-온-리드) |
분석 시에 쓰여짐(스키마-온-리드) |
가격/성능 |
로컬 스토리지를 사용하여 가장 빠른 쿼리 결과를 얻음 |
저렴한 스토리지를 사용하여 쿼리 결과가 빠르게 제공되며 컴퓨팅 및 스토리지 분리 |
데이터 품질 |
진실의 중앙 버전 역할을 하는 고도로 큐레이팅된 데이터 |
큐레이팅되거나 될 수 없는 모든 데이터(예 : 원시 데이터) |
사용자 | 비즈니스 애널리스트, 데이터 과학자 및 데이터 개발자 |
비즈니스 애널리스트(큐레이팅된 데이터 사용), 데이터 사이언티스트, 데이터 개발자, 데이터 엔지니어 및 데이터 아키텍트 |
분석 | 배치 보고, BI 및 시각화 |
기계 학습, 탐색 분석, 데이터 검색, 스트리밍, 운영 분석, 빅 데이터 및 프로파일링 |
데이터 웨어하우스에 대해 자세히 알아보기 | 데이터 레이크에 대해 자세히 알아보기 |
데이터 레이크, 데이터 웨어하우스, 데이터 마트를 언제 사용해야 할까요?
대부분의 대규모 조직은 스토리지 인프라에서 데이터 레이크, 웨어하우스, 마트를 조합해 사용합니다. 일반적으로 모든 데이터는 데이터 레이크에 수집된 후, 다양한 사용 사례에 따라 서로 다른 웨어하우스와 마트에 로드됩니다. 어떤 기술을 사용할지에 대한 결정은 아래에서 설명하는 다양한 요인에 따라 달라집니다.
유연성
일반적으로 데이터 레이크는 더 낮은 비용으로 더 높은 유연성을 제공합니다. 다양한 팀이 각자 원하는 분석 도구와 프레임워크를 사용하여 동일한 데이터에 액세스할 수 있습니다. 데이터 구조, 스키마 및 변환을 정의할 필요가 없으므로 시간을 절약할 수 있습니다.
데이터 유형
고객 데이터, 비즈니스 프로세스 데이터 등의 관계형 데이터를 저장하려는 경우 데이터 웨어하우스를 선택하는 것이 좋습니다. 많은 양의 관계형 데이터를 보유하고 있는 경우, 팀에서 특정 비즈니스 요구 사항에 맞는 데이터 마트를 만들 수도 있습니다. 예를 들어 회계 부서에서는 대차대조표를 유지 관리하고 고객 계정 보고서를 준비하기 위한 데이터 마트를 만들고, 마케팅 부서에서는 광고 캠페인을 최적화하기 위한 또 다른 데이터 마트를 만들 수 있습니다.
비용과 볼륨
데이터 웨어하우스는 수백 페타바이트(PB)의 데이터를 효율적으로 처리할 수 있습니다. 데이터 레이크는 특히 많은 수의 이미지와 동영상 같은 큰 볼륨의 데이터를 저장할 때 비용이 비교적 낮습니다. 하지만 모든 조직마다 요구되는 규모가 다릅니다.
AWS는 데이터 스토리지 요구 사항을 어떻게 지원할 수 있나요?
AWS는 모든 데이터 분석 요구 사항에 적합한 가장 광범위한 분석 서비스를 제공합니다. AWS는 모든 규모의 산업체와 조직이 데이터를 사용하여 비즈니스를 혁신하도록 지원합니다. 다음은 AWS를 활용하는 방법을 보여주는 예입니다.
- Amazon Redshift를 사용하여 데이터 웨어하우징 및 데이터 마트 요구 사항을 충족합니다. 운영 데이터베이스, 데이터 레이크, 데이터 웨어하우스 및 수천 개의 서드 파티 데이터 세트 전반에서 복잡하고 크기 조정된 데이터에 대해 실시간 예측 분석을 실행하여 통합적 인사이트를 얻습니다. 기계 학습 모델을 쉽게 자동으로 생성, 훈련 및 배포할 수 있습니다.
- AWS Lake Formation을 사용하여 며칠 만에 데이터 레이크를 구축하고 관리하고 보호합니다. 모든 데이터 소스에서 데이터를 빠르게 가져온 다음 중앙 집중식 데이터 카탈로그에서 설명하고 관리합니다.
- Amazon S3를 사용하여 빅 데이터 분석, 인공 지능, 기계 학습 및 고성능 컴퓨팅 애플리케이션에 맞춤화된 데이터 레이크를 구축합니다.
지금 무료 계정을 만들어 AWS에서 데이터 스토리지를 시작하세요.