프로젝트 시작하기

7단계  |  60분

Q: 데이터 웨어하우징이란 무엇입니까?

분석은 어디에서나 이루어집니다. 우리는 모두 보고서와 대시보드를 사용하여 업무를 관리하고, 주주에게 진행 상황을 보고하고, 의사 결정을 지원하기 위해 임시 분석을 수행합니다. 내부를 살펴보면 이러한 보고서, 대시보드 및 BI 도구는 데이터 웨어하우스에서 제공됩니다. 데이터 웨어하우스는 데이터를 효율적으로 저장하여 I/O를 최소화하고 수십만 명의 사용자에게 놀라울 정도로 빠른 속도로 동시에 쿼리 결과를 전달합니다. 기존 데이터베이스와는 달리 데이터 웨어하우스는 빠른 쿼리 및 데이터 로드 성능에 맞게 특화된 아키텍처와 스토리지를 사용합니다. 또한, 데이터 웨어하우스는 분석 및 통찰력 강화를 위해 언제든 데이터 소스를 계속 추가할 수 있도록 뛰어난 확장성을 갖추어야 합니다. 마지막으로 고객이 이미 보유하고 있는 기술을 사용할 수 있도록 데이터 웨어하우스는 타사 비즈니스 인텔리전스 도구 및 SQL 클라이언트와 원활하게 통합되고 표준 SQL을 지원해야 합니다.

Q: AWS에서 데이터 웨어하우스를 실행해야 하는 이유는 무엇입니까?

AWS의 데이터 웨어하우징 솔루션인 Amazon Redshift는 빠르고 사용이 간편한 완전관리형 솔루션으로, 인프라 프로비저닝과 관리작업(백업, 복제, 패치 등)을 자동화합니다. 타사 BI 및 ETL 도구와 원활하게 통합되므로 단 몇 분 만에 첫 번째 보고서를 받을 수 있습니다. 또한, 로드하여 분석할 수 있는 데이터 양에 제한이 없습니다. 데이터가 증가하더라도 고가의 시스템을 업그레이드하거나 성능 저하를 걱정할 필요가 없습니다. Amazon Redshift는 열 형식 스토리지와 여러 최적화 기술을 사용하므로 어떤 규모에서도 속도가 빠릅니다. 또한, 비용 효율적이고 사용한 만큼만 비용을 지불하면 됩니다. 연간 테라바이트당 1,000 USD의 비용으로 사용자 수에 제한 없이 모든 데이터에 대한 분석을 무제한으로 수행할 수 있습니다. 

Q: Amazon Redshift는 무엇입니까?

Amazon Redshift는 속도가 빠른 페타바이트 규모의 완전관리형 데이터 웨어하우스로, 간편하고 비용 효율적으로 모든 데이터를 기존 비즈니스 인텔리전스 도구를 사용하여 분석할 수 있게 해줍니다. 약정 없이 시간당 0.25 USD의 작은 규모로 시작하여 기존 솔루션 대비 10%도 안 되는 연간 테라바이트당 1,000 USD에 페타바이트 규모로 확장할 수 있습니다. 일반적으로 3배 압축을 확인할 수 있으며 이를 통해 연간 압축되지 않은 테라바이트당 333 USD의 비용을 절감할 수 있습니다.

Q:데이터 웨어하우징 및 분석에 대해 대부분의 기존 데이터베이스와 비교해 볼 때 Amazon Redshift의 성능은 어떻습니까?

Amazon Redshift는 데이터 웨어하우징 및 분석 워크로드에서 일반적인 데이터베이스보다 최대 10배까지 성능을 높이기 위해 여러 가지 혁신적인 기능을 사용합니다.

  • 열 형식 데이터 스토리지: Amazon Redshift는 일련의 행으로 데이터를 저장하는 대신에 열 단위로 데이터를 구성합니다. 트랜잭션 처리에 적합한 행 기반 시스템과 달리 쿼리가 대용량 데이터 세트에서 집계를 수행하는 쿼리를 자주 포함하는 열 기반 시스템은 데이터 웨어하우징에 적합합니다. 쿼리에 포함된 열만 처리되고 열 형식 데이터는 스토리지 미디어에 순차적으로 저장되므로 열 기반 시스템에서는 훨씬 적은 개수의 I/O를 필요로 하며 쿼리 성능은 크게 향상합니다.
  • 고급 압축: 유사한 데이터가 순차적으로 디스크에 저장되므로 열 형식 데이터 스토어는 행 기반 데이터 스토어보다 훨씬 더 많이 압축될 수 있습니다. Amazon Redshift는 여러 가지 압축 기술을 사용하여 기존의 관계형 데이터 스토리지에 비해 상당히 높은 압축률을 달성할 수 있습니다. 또한 Amazon Redshift는 인덱스나 구체화된 보기를 요구하지 않으므로 기존의 관계형 데이터베이스 시스템보다 적은 공간을 사용합니다. 빈 테이블로 데이터를 로드할 때 Amazon Redshift는 자동으로 데이터의 샘플을 뽑아 가장 적절한 압축 스키마를 선택합니다.
  • 대규모 병렬 처리(MPP): Amazon Redshift는 데이터 및 쿼리 로드를 모든 노드 전체에 자동으로 분산합니다. Amazon Redshift를 사용하면 노드를 데이터 웨어하우스에 쉽게 추가하고 데이터 웨어하우스가 확장됨에 따라 빠른 쿼리 성능을 유지할 수 있습니다.

Q: 실행 중인 데이터 웨어하우스 클러스터에 액세스하려면 어떻게 해야 합니까?

데이터 웨어하우스 클러스터를 사용할 수 있게 되면 AWS Management Console 및 Redshift API를 사용하여 해당 끝점 및 JDBC 및 ODBC 연결 스트링을 검색할 수 있습니다. 그런 다음 선호하는 데이터베이스 도구, 프로그래밍 언어 또는 비즈니스 인텔리전스(BI) 도구에 이 연결 스트링을 사용할 수 있습니다. 실행 중인 데이터 웨어하우스 클러스터에 대한 네트워크 요청을 승인해야 합니다. 자세한 설명은 시작 안내서를 참조하십시오.

Q: Amazon Redshift는 기본 비즈니스 인텔리전스 소프트웨어 패키지 및 ETL 도구와 호환됩니까?

Amazon Redshift는 업계 표준 SQL을 사용하며 표준 JDBC 및 ODBC 드라이버를 사용하여 액세스됩니다. Amazon Redshift 커스텀 JDBC 및 ODBC 드라이버는 콘솔의 Connect Client 탭에서 다운로드할 수 있습니다. 주요 BI 및 ETL 벤더와의 통합을 검증했으며 이 중 상당수가 데이터 로드 및 분석을 시작하는 데 도움이 되도록 무료 평가판을 제공합니다. 또한, AWS Marketplace로 이동하여 Amazon Redshift와 연동되도록 설계된 솔루션을 몇 분 만에 배포 및 구성할 수 있습니다.

Q: Amazon Redshift를 시작하려면 어떻게 해야 합니까?

Amazon Redshift를 무료로 사용해 볼 수 있습니다. Amazon Redshift 클러스터를 생성한 적이 없는 경우 DC1.Large 노드 평가판을 2개월간 무료로 사용할 수 있습니다. 매월 750시간을 무료로 사용할 수 있으며 이는 160GB의 압축된 SSD 스토리지로 DC1.Large 노드를 계속 실행하기에 충분한 시간입니다. 더 큰 규모의 데이터 세트를 테스트하기 위해 여러 개의 노드로 클러스터를 구축할 수도 있지만, 이 경우 무료로 제공되는 시간이 더 빨리 소진됩니다. 2개월의 무료 평가판이 만료되거나 매달 750시간을 초과하여 사용한 경우 요금이 더 청구되지 않도록 클러스터를 차단하거나 표준 온디맨드 요금을 사용하여 계속 실행할 수 있습니다.

프로젝트 시작하기