메인 콘텐츠로 건너뛰기

데이터 레이크하우스란 무엇인가요?

데이터 레이크하우스는 비용 효율적이고 유연한 대규모 스토리지를 제공하는 동시에 구조화, 거버넌스 및 보고와 같은 분석 기능을 제공하는 데이터 관리 시스템입니다. 이를 통해 수천 또는 수십만 개의 소스에서 나오는 다양한 형식의 원시 데이터를 중앙 위치에 보다 비용 효율적으로 저장할 수 있습니다. 데이터는 AI 모델을 훈련하고 보고서 및 대시보드를 생성하기 위한 분석 도구에서 추가로 사용할 수 있습니다. 데이터 레이크하우스는 추가 분석을 위해 레이크하우스 내에서 원시 데이터를 처리할 수 있는 많은 기능을 제공합니다.

데이터 레이크, 데이터 웨어하우스, 데이터 레이크하우스의 차이점은 무엇인가요?

데이터 레이크하우스 아키텍처는 기존의 두 가지 중앙 집중식 데이터 저장소인 데이터 웨어하우스와 데이터 레이크의 강점을 결합하여 생성되었습니다.

데이터 웨어하우스

데이터 웨어하우스는 표준 데이터 스키마를 기반으로 정형 데이터를 저장하는 데이터 스토리지 시스템입니다. 스키마는 관계형 데이터베이스의 데이터 형식, 관계 및 정보 구조를 결정하는 사전 정의된 블루프린트입니다.

조직은 데이터 처리, 비즈니스 인텔리전스 분석 및 엔터프라이즈 보고에 빠르게 액세스하기 위해 데이터 웨어하우스 시스템을 사용합니다. 데이터 웨어하우징은 고급 분석 도구를 제공하고 강력한 데이터 거버넌스를 지원하며 기술 전문가가 아닌 사용자도 쉽게 사용할 수 있습니다. 예를 들어 데이터 웨어하우스의 대시보드를 사용하여 마케팅 성과 보고서를 검색할 수 있습니다.

하지만 데이터 웨어하우징은 데이터 수명 주기에 추가 단계를 도입합니다. 이 경우 분석에 바로 사용할 수 있는 인사이트를 얻기 위해 데이터는 데이터 웨어하우스에 저장되기 전에 여러 추출, 변환, 로드(ETL) 파이프라인을 거칩니다. 게다가 데이터 웨어하우스는 인공 지능기계 학습 워크로드에 필요한 비정형 및 반정형 데이터를 처리할 수 없습니다. 데이터 웨어하우스 설정에서는 스토리지와 컴퓨팅 성능이 긴밀하게 결합되어 인프라 확장 비용이 증가합니다.

데이터 레이크

데이터 레이크는 데이터를 원래 형식으로 유지하는 스토리지 시스템입니다. 데이터 과학자는 데이터 레이크를 사용하여 정형, 비정형 및 반정형 데이터를 저장합니다. 정보가 ETL 파이프라인을 거치지 않기 때문에 데이터 레이크에 데이터를 저장하는 속도가 빠릅니다. 대신 원시 데이터가 그대로 저장됩니다. 따라서 데이터 레이크는 실시간 데이터 스트림을 포함하여 대량의 정보를 빠른 속도로 저장할 수 있습니다.

클라우드 데이터 레이크는 방대한 데이터 양을 지원하므로 데이터 탐색, 기계 학습 및 기타 데이터 과학 애플리케이션에 적합합니다. 또한 데이터 레이크는 저렴한 스토리지 호스팅 덕분에 확장 비용도 더 저렴합니다.

데이터 웨어하우스와 달리 데이터 레이크에 저장된 데이터에 액세스하려면 기술 전문 지식이 필요하며, 이러한 이유로 소수의 사용자만 데이터에 액세스할 수 있습니다. 즉, 비즈니스 인사이트를 얻기 위해 데이터 과학에 능숙한 사용자만 원시 데이터를 추출, 조작 및 분석할 수 있습니다. 또한 관리되지 않는 데이터 레이크는 데이터 늪으로 이어질 수 있습니다. 데이터 늪은 의미 있는 인사이트를 추출하기 어려운 무질서한 데이터 상태를 말합니다.

데이터 레이크하우스

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 장점을 결합한 통합 데이터 아키텍처입니다. 다양한 데이터 유형에 대한 경제적이고 거버넌스 친화적인 고성능 스토리지 공간을 제공합니다.

데이터 웨어하우스와 달리 데이터 레이크하우스는 기계 학습 목적으로 반정형 및 비정형 데이터를 저장할 수 있습니다. 또한 데이터 레이크하우스 아키텍처는 비즈니스 관리자가 실행 가능한 인사이트를 보고하고 추출하는 데 사용하는 SQL 분석 도구로 구성됩니다.

데이터 레이크하우스의 주요 기능은 무엇인가요?

데이터 레이크하우스는 조직이 확장 가능하고 복잡하며 지연 시간이 짧은 데이터 처리 허브를 빌드할 수 있도록 지원하는 데이터 관리 기능을 제공합니다. 아래에서는 데이터 레이크하우스의 몇 가지 주요 기능을 소개합니다.

다양한 데이터 유형 및 워크로드 지원

데이터 레이크하우스는 추가 변환 단계나 엄격한 스키마 없이도 텍스트, 이미지, 비디오 및 오디오 파일을 비롯한 다양한 데이터 유형을 저장할 수 있습니다. 이를 통해 데이터를 빠르게 수집할 수 있어서 연결된 애플리케이션에서 최신 데이터를 사용할 수 있습니다.

데이터 다양성을 지원하기 위해 데이터 레이크하우스는 원시 데이터를 객체 기반 스토리지에 저장합니다. 객체 기반 스토리지는 대량의 비정형 데이터를 처리하도록 최적화된 데이터 스토리지 아키텍처의 한 유형입니다.

트랜잭션 지원

데이터 레이크하우스는 기존 데이터베이스에서와 유사한 ACID 준수 트랜잭션을 저장하기 위한 데이터 관리 기능을 제공합니다. ACID는 원자성, 일관성, 격리 및 내구성을 나타냅니다.

  • 원자성은 모든 데이터 트랜잭션을 단일 단위로 처리하며 성공적으로 구현되었는지 여부를 나타냅니다.
  • 일관성은 특정 데이터 테이블을 업데이트할 때 나타나는 데이터베이스의 예측 가능한 동작을 말합니다. 모든 업데이트는 데이터 일관성을 보장하는 사전 정의된 규칙을 따릅니다.
  • 격리를 통해 여러 트랜잭션이 서로 간섭하지 않고 수행될 수 있습니다. 여러 사용자가 동시에 데이터베이스를 업데이트하더라도 각 작업은 독립적으로 실행됩니다. 즉, 한 트랜잭션이 종료된 후에 다음 트랜잭션이 시작됩니다.
  • 내구성은 시스템에 장애가 발생하더라도 변경 내용을 유지하고 저장할 수 있는 데이터베이스의 기능입니다.

ACID는 함께 작동하여 데이터 무결성을 보장하여, 소프트웨어 팀이 신뢰할 수 있는 트랜잭션 데이터 스토리지에 의존하는 애플리케이션을 빌드할 수 있도록 합니다.

스트리밍 수집

데이터 스트림은 사물 인터넷(IoT) 디바이스, 금융 거래 및 애플리케이션 서비스와 같은 데이터 소스에서 생성되는 지속적인 정보 흐름입니다.

일부 애플리케이션에서는 데이터 변경을 거의 실시간으로 반영하고 시각화하기 위해 데이터 스트리밍이 필요합니다. 데이터 레이크하우스 아키텍처는 데이터 스트림을 수집하여 사용자 대면 애플리케이션에서 사용할 수 있도록 지원합니다. 또한 데이터 과학자는 데이터 스트림을 기반으로 분석 도구를 빌드하고 차트, 표, 그래프로 시각화할 수 있습니다.

제로 ETL 통합

제로 ETL은 데이터를 이동할 때 복잡한 데이터 변환 파이프라인을 우회하는 데이터 프로세스입니다. 데이터 레이크하우스 인프라는 제로 ETL 통합을 지원합니다.

일반적으로 조직은 데이터 웨어하우스와 데이터 레이크에 워크로드를 빌드합니다. 이러한 데이터 설정에서는 데이터를 쿼리하고 변환하기 위한 추가 ETL 파이프라인이 필요합니다. 제로 ETL 통합을 통해 데이터 과학자는 추가 데이터 파이프라인을 빌드하지 않고도 다양한 데이터 사일로를 쿼리할 수 있습니다.

데이터 레이크하우스는 데이터를 수집할 때 비즈니스 분석 요구 사항에 맞는 형식으로 데이터를 자동 변환합니다. 예를 들어 Amazon RedshiftAmazon Aurora와의 제로 ETL 통합을 지원합니다. Redshift는 데이터 웨어하우스이고 Aurora는 관계형 데이터베이스 관리 시스템입니다. 이 두 서비스가 통합되면 Aurora가 수집하는 데이터가 몇 초 안에 Redshift에 자동으로 복제됩니다. 이를 통해 조직은 단순하고 비용 효율적인 데이터 인프라를 유지하면서 인사이트 확보 시간을 개선할 수 있습니다.

통합 분석

데이터 레이크하우스는 저장된 모든 데이터에 액세스할 수 있는 통합 데이터 플랫폼을 제공합니다. 이를 통해 데이터 아키텍트는 여러 시스템에서 나타나는 데이터 중복, 불일치 및 단편화를 극복할 수 있습니다.

중앙 집중식 분석의 또 다른 주요 이점은 클라우드 스토리지 간의 불필요한 데이터 이동을 방지한다는 점입니다. 데이터 팀은 사일로화된 데이터를 쿼리하는 대신 데이터 레이크하우스에 연결된 단일 인터페이스에서 데이터를 저장, 분석 및 공유합니다. 예를 들어 기계 학습 워크로드에 대한 비정형 데이터를 검색하고 단일 데이터 사본에서 마케팅 성과 보고서를 생성할 수 있습니다.

쿼리 편집기

데이터 분석가, 기계 학습 엔지니어 및 데이터 사용자는 SQL 쿼리 편집기를 사용하여 데이터 레이크하우스의 데이터에 쉽게 액세스할 수 있습니다. 그리고 데이터 분석, 시각화, 과거 데이터 탐색, 데이터베이스 스키마 생성 등을 위한 SQL 명령을 작성할 수 있습니다. 또한 쿼리 편집기는 데이터 엔지니어가 자신이 만든 쿼리를 쉽게 공유할 수 있도록 하여 협업을 개선합니다.

ML/AI 지원

데이터 레이크하우스는 인공 지능 및 기계 학습(AI/ML) 워크로드를 빌드, 테스트 및 확장하도록 설계되었습니다. 많은 데이터 레이크하우스 제공업체가 비정형 데이터에 대한 직접 액세스를 제공할 뿐만 아니라 AI 개발을 간소화하는 기계 학습 라이브러리, 도구 및 분석 기능도 제공합니다.

예를 들어 Amazon SageMaker Lakehouse는 Amazon SageMaker Unified Studio에 원활하게 통합되어 AI/ML 워크플로를 가속화하는 도구 및 분석에 대한 액세스를 제공합니다.

데이터 레이크하우스는 어떻게 작동하나요?

데이터 레이크하우스는 데이터 웨어하우스의 고급 분석 기능과 데이터 레이크의 유연성을 결합하여 확장 가능하고 저렴하며 강력한 데이터 플랫폼을 제공합니다. 조직은 별도의 데이터 레이크와 데이터 웨어하우스 인프라를 유지하는 대신 비즈니스 인사이트를 더 빠르게 확보하기 위해 데이터 레이크하우스를 선택합니다.

데이터 레이크하우스는 다양한 리소스에서 데이터를 수집하여 내부적으로 구성하고 데이터를 다양한 데이터 사용자에게 여러 형식으로 제공합니다. 또한 데이터 레이크하우스의 컴퓨팅은 스토리지와 분리되어 있습니다. 스토리지와 컴퓨팅을 분리하면 이러한 함수를 독립적으로 확장하여 비용 절감을 극대화할 수 있습니다.

아래에서는 데이터 레이크하우스를 구성하는 데이터 계층을 소개합니다.

수집 계층

수집 계층은 데이터 레이크하우스를 애플리케이션 로그, 데이터베이스 및 소셜 미디어 피드를 비롯한 다양한 유형의 데이터 소스에 연결합니다. 이 계층에서는 데이터가 원래 형식으로 유지됩니다.

스토리지 계층

스토리지 계층은 수신 원시 데이터를 받아 확장 가능한 저렴한 스토리지에 저장합니다. 데이터 레이크하우스 설정에서 이 계층은 종종 클라우드 객체 스토리지에 연결됩니다. 객체 스토리지는 정형, 반정형, 비정형 데이터를 비롯한 다양한 유형의 데이터를 지원합니다.

사용 사례에 따라 일부 데이터는 객체 스토리지에 저장된 후 변환됩니다. 예를 들어 수집된 데이터를 사용하여 기계 학습 모델을 훈련하려는 경우 데이터 레이크하우스는 데이터를 변환하고 Parquet 형식으로 저장합니다. Parquet은 정형 데이터를 열로 분리하여 효율적으로 저장하고 처리하도록 설계된 개방형 파일 형식입니다.

스테이징 계층

스테이징 계층 또는 메타데이터 계층은 데이터 레이크하우스에 저장된 데이터를 관리, 구성 및 최적화하기 위한 스키마 지원을 제공합니다. 이 계층을 사용하면 데이터 품질을 보장하도록 정책을 정의하고 규정 준수를 위해 감사 가능한 추적을 생성할 수 있습니다. 또한 데이터 팀은 기존 데이터 웨어하우스와 마찬가지로 ACID 트랜잭션, 파일 인덱싱, 데이터 버전 관리 및 캐싱을 사용하여 신뢰할 수 있는 데이터 워크플로를 생성할 수 있습니다.

API 계층

애플리케이션 프로그래밍 인터페이스(API) 계층을 통해 소프트웨어 개발자와 애플리케이션은 데이터 레이크하우스에 저장된 데이터를 쿼리할 수 있습니다. 데이터에 대한 세분화된 액세스를 제공하므로 프로그래밍 방식으로 데이터에서 고급 분석을 빌드할 수 있습니다. 예를 들어 소프트웨어 팀은 API를 직접 호출하여 데이터 스트림을 실시간으로 검색함으로써 투자 애플리케이션의 대시보드를 강화할 수 있습니다.

시맨틱 계층

시맨틱 계층은 데이터 레이크하우스의 최상위 계층입니다. 데이터 소비 계층이라고도 하는 이 계층은 저장된 데이터 및 스키마에 대한 액세스를 제공하는 데이터 분석 도구와 앱으로 구성됩니다. 비즈니스 사용자는 이 계층에서 제공하는 도구를 사용하여 보고서를 생성하고 차트를 생성하며 인사이트를 쿼리하고 기타 데이터 분석을 수행할 수 있습니다.

AWS는 데이터 레이크하우스 요구 사항을 어떻게 지원하나요?

Amazon SageMaker Lakehouse는 조직이 비즈니스 인사이트를 위해 엑사바이트 규모의 데이터를 처리하고 AI 워크로드를 강화하는 데 사용하는 데이터 레이크하우스입니다. Amazon SageMaker Lakehouse는 AWS 데이터 스토리지, 분석 및 기계 학습 서비스와 긴밀하게 통합되어 다음과 같은 이점을 제공합니다.

  • 거의 실시간 분석을 위해 제자리에서 데이터에 액세스
  • 단일 데이터 허브에서 인공 지능 및 기계 학습 모델 빌드
  • 이동 또는 복사를 최소화하면서 데이터에 안전하게 액세스, 데이터 결합 및 공유

효율적인 규모 조정을 위해 컴퓨팅과 스토리지를 분리하는 아키텍처를 갖춘 Amazon SageMaker Lakehouse는 다른 클라우드 데이터 레이크하우스보다 가격 대비 성능이 뛰어납니다.

Amazon SageMaker Lakehouse는 다음과 같은 AWS 데이터 웨어하우스 및 데이터 레이크와 통합됩니다.

  • Amazon Redshift는 데이터 레이크하우스용 SQL을 사용하여 대규모 기반에서 뛰어난 가격 대비 성능을 제공하는 데이터 웨어하우스 솔루션입니다.
  • Amazon S3는 어디서나 원하는 양의 데이터를 검색할 수 있도록 빌드된 데이터 레이크 객체 스토리지입니다.

지금 무료 계정을 만들어 AWS에서 데이터 레이크하우스를 시작하세요.