AWS 클라우드
Amazon Redshift 시작

데이터 웨어하우스는 보다 정보에 입각한 의사 결정을 내릴 수 있도록 분석 가능한 정보의 중앙 리포지토리입니다. 데이터는 트랜잭션 시스템, 관계형 데이터베이스 및 기타 소스로부터 보통 정기적으로 데이터웨어 하우스로 들어갑니다. 비즈니스 애널리스트, 데이터 과학자 및 의사 결정권자는 비즈니스 인텔리전스(BI) 도구, SQL 클라이언트 및 기타 분석 응용 프로그램을 통해 데이터에 액세스합니다.

데이터 및 분석은 비즈니스가 경쟁력을 유지하는 데 없어서는 안 되는 부분이 되었습니다. 비즈니스에서는 보고서, 대시보드 및 분석 도구를 사용하여 데이터에서 통찰력을 찾아내고, 비즈니스 성과를 모니터링하며, 의사 결정을 지원합니다. 이러한 보고서, 대시보드 및 분석 도구를 지원하는 것이 데이터 웨어하우스로서, 데이터를 효율적으로 저장하여 I/O를 최소화하고 수십만 명의 사용자에게 놀라울 정도로 빠른 속도로 동시에 쿼리 결과를 전달합니다.

Enterprise Data Warehousing on AWS 백서를 다운로드하십시오.

데이터 웨어하우스 아키텍처는 3개의 티어로 구성됩니다. 아키텍처의 하단 티어는 데이터가 로드되고 저장되는 데이터베이스 서버입니다. 중간 티어는 데이터를 액세스하고 분석하는 데 사용되는 분석 엔진으로 구성됩니다. 상단 티어는 보고, 분석 및 데이터 마이닝 도구를 통해 결과를 제시하는 프런트 엔드 클라이언트입니다.

데이터 웨어하우스는 데이터를 정수, 데이터 필드 또는 문자열과 같은 레이아웃 및 유형을 설명하는 스키마로 구성함으로써 작동합니다. 데이터가 수집되면 스키마에 의해 설명되는 다양한 테이블에 저장됩니다. 쿼리 도구는 스키마를 사용하여 어떤 데이터 테이블을 액세스하고 분석할지 결정합니다.

데이터 웨어하우스의 이점:

  • 더 나은 의사 결정
  • 여러 소스로부터의 데이터 통합
  • 데이터 품질, 일관성 및 정확성
  • 인텔리전스 기록
  • 분석 처리프로세스를 트랜잭션 데이터베이스로부터 분리하여 두 시스템의 성능을 모두 향상시킴

 

데이터 웨어하우스는 대량의 데이터를 읽어 데어터 전반에 걸친 관계와 동향을 이해하는 작업이 포함되는 데이터 분석을 위해 특별히 설계되었습니다. 데이터베이스는 트랜잭션의 세부 사항을 기록하는 것과 같이 데이터를 캡처하고 저장하는 데 사용됩니다.

특징 데이터 웨어하우스 트랜잭션 데이터베이스
적합한 워크로드 분석, 보고, 빅 데이터 트랜잭션 처리
데이터 원본 여러 소스로부터 수집되고 정규화된 데이터 트랜잭션 시스템과 같이 단일 소스에서 있는 그대로 캡처한 데이터
데이터 캡처 대개 미리 결정된 대량 배치 일정에서의 대량 쓰기 작업

트랜잭션 처리량을 최대화할 수 있도록 새로운 데이터가 사용 가능해지면서 연속적인 쓰기 작업에 최적화됨

데이터 정규화 Star 스키마 또는 Snowflake 스키마와 같이 비정규화된 스키마 고도로 정규화된 정적 스키마
데이터 스토리지 컬럼 방식 스토리지를 사용하여 간단한 액세스 및 고속 쿼리 성능에 대해 최적화됨 단일 행 지향 물리적 블록에 대한 고도의 처리량 쓰기 작업에 최적화됨
데이터 액세스 I/O를 최소화하고 데이터 처리량을 최대화하도록 최적화됨 대량의 소규모 읽기 작업

데이터 웨어하우스와 달리, 데이터 레이크는 정형 및 비정형 데이터를 비롯한 모든 데이터에 대한 중앙 리포지토리입니다. 데이터 웨어하우스는 분석에 최적화된 사전 정의된 스키마를 사용합니다. 데이터 레이크에서는 스키마가 정의되지 않아 대형 데이터 분석, 전체 텍스트 검색, 실시간 분석 및 기계 학습과 같은 추가 유형의 분석이 가능합니다.

특징 데이터 웨어하우스 데이터 레이크
데이터 트랜잭션 시스템, 운영 데이터베이스 및 LOB(Line of Business) 애플리케이션의 관계형 데이터 IoT 장치, 웹 사이트, 모바일 앱, 소셜 미디어 및 기업 애플리케이션의 비관계형 및 관계형 데이터
스키마 데이터 웨어하우스 구현 전에 설계됨(스키마-온-라이트) 분석 시에 쓰여짐(스키마-온-리드)
가격/성능 고비용의 스토리지를 사용하여 가장 빠른 쿼리 결과 얻음 저비용의 스토리지를 사용하여 쿼리 결과의 속도가 빨라짐
데이터 품질 진실의 중앙 버전 역할을 하는 고도로 큐레이팅된 데이터 큐레이팅되거나 될 수 없는 모든 데이터(예 : 원시 데이터)
사용자 비즈니스 애널리스트, 데이터 과학자 및 데이터 개발자 데이터 과학자, 데이터 개발자 및 비즈니스 애널리스트(큐레이팅된 데이터 사용)
분석 배치 보고, BI 및 시각화 기계 학습, 예측 분석, 데이터 디스커버리 및 프로파일링

데이터 마트는 금융, 마케팅 또는 영업과 같은 특정 팀 또는 사업 단위의 요구를 충족시키는 데이터 웨어하우스입니다. 규모가 더 작고, 집중적이며 사용자 커뮤니티에 가장 잘 맞는 데이터 요약을 포함할 수 있습니다.

특징 데이터 웨어하우스 데이터 마트
범위 함께 통합된 중앙 집중식의 여러 주제 영역 분산된 특정 주제 영역
사용자 전사적 단일 커뮤니티 또는 부서
데이터 원본 여러 소스 단일 또는 몇 개의 소스, 또는 데이터 웨어하우스에 이미 수집된 데이터의 일부
크기 대형이며 수백 기가바이트에서 페타바이트까지 이를 수 있음 소형이며 대개 최고 수십 기가바이트에 이름
설계 하향식 상향식
데이터 세부 정보 완전한, 상세 데이터 요약된 데이터를 포함할 수 있음

AWS를 사용하면 사실상 무제한의 스토리지 및 컴퓨팅 파워에 액세스하고, 수집되고, 저장되고, 쿼리되는 데이터 양이 증가함에 따라 시스템을 병렬로 확장하며, 프로비저닝한 리소스에 대해서만 비용을 지불하는 등 온디맨드 컴퓨팅과 관련된 모든 주요 혜택을 누릴 수 있습니다. 그뿐만 아니라 AWS에서는 서로 원활하게 통합되는 다양한 관리형 서비스를 제공하므로 엔드 투 엔드 분석 및 데이터 웨어하우징 솔루션을 신속하게 배포할 수 있습니다.

아래 그림은 AWS에서 제공하는 관리형 서비스와 엔드 투 엔드 분석 프로세스 체인의 주요 단계를 보여줍니다.

AWS 기반 분석 파이프라인

Amazon Redshift는 페타바이트 규모의 데이터 웨어하우징과 엑사바이트 규모의 데이터 레이크 분석을 하나의 서비스로 함께 제공하는, 완전 관리형의 빠르고 비용 효과적인 데이터 웨어하우스입니다.

Amazon Redshift는 기존의 온프레미스 데이터 웨어하우스보다 최대 10배 빠릅니다. 데이터를 이동하거나 변환할 필요없이 Redshift에서 페타바이트 규모의 데이터에 걸쳐 쿼리하고 Amazon S3에서 정형 또는 열린 파일 형식을 쿼리하여 고유한 통찰력을 얻을 수 있습니다.

Redshift는 기존 온프레미스 데이터 웨어하우스 솔루션에 드는 비용의 단 1/10입니다. 약정 없이 시간당 단 0.25 USD의 비용의 적은 규모로 시작하여 비압축 테라바이트 당 연간 250 ~ 333 USD로 페타바이트 데이터로 확장하고, 스캔한 데이터 10기가바이트 당 단 0.05 USD로 Amazon S3 데이터 레이크로 분석을 확장할 수 있습니다. 자세히 알아보기