프로젝트 시작하기

7단계  |  60분

Q: 데이터 웨어하우징이란 무엇입니까?

분석은 어디에서나 이루어집니다. 우리는 모두 보고서와 대시보드를 사용하여 업무를 관리하고, 주주에게 진행 상황을 보고하고, 의사 결정을 지원하기 위해 임시 분석을 수행합니다. 내부를 살펴보면 이러한 보고서, 대시보드 및 BI 도구는 데이터 웨어하우스에서 제공됩니다. 데이터 웨어하우스는 데이터를 효율적으로 저장하여 I/O를 최소화하고 수십만 명의 사용자에게 놀라울 정도로 빠른 속도로 동시에 쿼리 결과를 전달합니다. 기존 데이터베이스와는 달리 데이터 웨어하우스는 빠른 쿼리 및 데이터 로드 성능에 맞게 특화된 아키텍처와 스토리지를 사용합니다. 또한, 데이터 웨어하우스는 분석 및 통찰력 강화를 위해 언제든 데이터 소스를 계속 추가할 수 있도록 뛰어난 확장성을 갖추어야 합니다. 마지막으로 고객이 이미 보유하고 있는 기술을 사용할 수 있도록 데이터 웨어하우스는 타사 비즈니스 인텔리전스 도구 및 SQL 클라이언트와 원활하게 통합되고 표준 SQL을 지원해야 합니다.

Q: AWS에서 데이터 웨어하우징을 실행해야 하는 이유는 무엇입니까?

AWS의 데이터 웨어하우징 솔루션인 Amazon Redshift는 빠르고 사용이 간편한 완전관리형 솔루션으로, 인프라 프로비저닝과 관리작업(백업, 복제, 패치 등)을 자동화합니다. 타사 BI 및 ETL 도구와 원활하게 통합되므로 단 몇 분 만에 첫 번째 보고서를 받을 수 있습니다. 또한, 로드하여 분석할 수 있는 데이터양에 제한이 없습니다. 데이터가 증가하더라도 고가의 시스템을 업그레이드하거나 성능 저하를 걱정할 필요가 없습니다. Amazon Redshift는 열 형식 스토리지와 여러 최적화 기술을 사용하므로 어떤 규모에서도 속도가 빠릅니다. 또한, Amazon Redshift는 비용 효율적이고 사용한 만큼만 비용을 지불하면 됩니다. 연간 테라바이트당 1,000 USD의 비용으로 사용자 수에 제한 없이 모든 데이터에 대한 분석을 무제한으로 수행할 수 있습니다. 

Q: Amazon Redshift란 무엇입니까?

Amazon Redshift는 속도가 빠른 페타바이트 규모의 완전관리형 데이터 웨어하우스로, 기존 비즈니스 인텔리전스 도구를 사용하여 모든 데이터를 간편하고 비용 효율적으로 분석할 수 있게 해줍니다. 약정 없이 시간당 0.25 USD의 작은 규모로 시작하여 기존 솔루션 대비 10%도 안 되는 연간 테라바이트당 1,000 USD에 페타바이트 규모로 확장할 수 있습니다. 일반적으로 3배 압축을 확인할 수 있으며 이를 통해 연간 압축되지 않은 테라바이트당 333 USD의 비용을 절감할 수 있습니다.

Q: 데이터 웨어하우징 및 분석과 관련하여 대부분의 기존 데이터베이스와 비교해 볼 때 Amazon Redshift의 성능은 어떻습니까?

Amazon Redshift는 데이터 웨어하우징 및 분석 워크로드에 사용하는 일반적인 데이터베이스보다 최대 10배까지 성능을 높이기 위해 여러 가지 혁신적인 기능을 사용합니다.

  • 대량 병렬: Amazon Redshift는 기가바이트에서 엑사바이트까지 다양한 크기의 데이터 세트에 대해 빠른 쿼리 성능을 제공합니다. Redshift는 열 기반 스토리지, 데이터 압축 및 영역 매핑을 사용하여 쿼리 수행에 필요한 I/O 수를 줄입니다. 대량 병렬 처리(MPP) 데이터 웨어하우스 아키텍처를 사용하여 SQL 작업을 병렬화 및 분산함으로써 모든 가용 리소스를 활용합니다. 기본 하드웨어는 고성능 데이터 처리를 위해 설계되어, 로컬 연결 스토리지를 사용하여 CPU와 드라이브 간 처리량을 극대화하고 고대역폭 메시 네트워크를 사용하여 노드 간 처리량을 극대화합니다.
  • 기계 학습: Amazon Redshift는 기계 학습을 사용하여 워크로드 또는 동시 사용량과 관계없이 높은 처리량을 제공합니다. Redshift는 정교한 알고리즘을 사용하여 수신되는 쿼리 런타임을 예측하고, 빠른 처리를 위해 이를 최적의 대기열에 할당합니다. 예를 들어 동시 요구 사항이 많은 대시보드 및 보고서와 같은 쿼리는 즉시 처리를 위해 빠른 대기열로 라우팅됩니다. 동시성이 추가로 증가하게 되면 Amazon Redshift는 대기열이 시작될 수 있는 시기를 예측하고, 동시성 확장 기능을 통해 임시 리소스를 자동으로 배포하여 클러스터의 수요 변동과 관계없이 빠른 성능을 일관되게 구현합니다.
  • 결과 캐싱: Amazon Redshift는 결과 캐싱을 사용하여 반복 쿼리에 대해 1초 미만의 응답 시간을 제공합니다. 반복 쿼리를 실행하는 대시보드, 시각화 및 비즈니스 인텔리전스 도구에서 상당한 성능 향상을 경험합니다. 쿼리가 실행될 때, Redshift는 캐시를 검색하여 이전 실행으로부터 캐시된 결과가 있는지 확인합니다. 캐시된 결과가 발견되고 데이터가 변경되지 않은 경우 쿼리를 재실행하는 대신 캐시된 결과가 즉시 반환됩니다. 

Q: 실행 중인 데이터 웨어하우스 클러스터에 액세스하려면 어떻게 해야 합니까?

데이터 웨어하우스 클러스터를 사용할 수 있게 되면 AWS Management Console 및 Redshift API를 사용하여 해당 엔드포인트 및 JDBC 및 ODBC 연결 스트링을 검색할 수 있습니다. 그런 다음 선호하는 데이터베이스 도구, 프로그래밍 언어 또는 비즈니스 인텔리전스(BI) 도구에 이 연결 스트링을 사용할 수 있습니다. 실행 중인 데이터 웨어하우스 클러스터에 대한 네트워크 요청을 승인해야 합니다. 자세한 설명은 시작 안내서를 참조하십시오.

Q: Amazon Redshift는 기본 비즈니스 인텔리전스 소프트웨어 패키지 및 ETL 도구와 호환됩니까?

Amazon Redshift는 업계 표준 SQL을 사용하며 표준 JDBC 및 ODBC 드라이버를 사용하여 액세스하게 됩니다. Amazon Redshift 커스텀 JDBC 및 ODBC 드라이버는 콘솔의 Connect Client 탭에서 다운로드할 수 있습니다. AWS에서는 주요 BI 및 ETL 공급업체와의 통합을 검증했으며 이 중 상당수가 데이터 로드 및 분석을 시작하는 데 도움이 되도록 무료 평가판을 제공합니다. 또한, AWS Marketplace로 이동하여 Amazon Redshift와 연동되도록 설계된 솔루션을 몇 분 만에 배포 및 구성할 수 있습니다.

Q: Amazon Redshift를 시작하려면 어떻게 해야 합니까?

Amazon Redshift를 무료로 사용해 볼 수 있습니다. Amazon Redshift 클러스터를 생성한 적이 없는 경우 DC1.Large 노드 평가판을 2개월간 무료로 사용할 수 있습니다. 매월 750시간을 무료로 사용할 수 있으며 이는 160GB의 압축된 SSD 스토리지로 DC1.Large 노드를 계속 실행하기에 충분한 시간입니다. 더 큰 규모의 데이터 세트를 테스트하기 위해 여러 개의 노드로 클러스터를 구축할 수도 있지만, 이 경우 무료로 제공되는 시간이 더 빨리 소진됩니다. 2개월의 무료 평가판이 만료되거나 매달 750시간을 초과하여 사용한 경우 요금이 더 청구되지 않도록 클러스터를 차단하거나 표준 온디맨드 요금을 사용하여 계속 실행할 수 있습니다.

프로젝트 시작하기