무료로 Amazon Redshift 사용해 보기

무료 평가판 시작하기
자세히 알아보기

2개월 동안 DC2.Large를 매월 750시간 동안 무료로 사용할 수 있습니다. 평가판 시작하기:

1. AWS 계정을 생성한 다음 Amazon Redshift 콘솔에 로그인

2. Amazon Redshift 클러스터를 시작하고 노드 유형으로 DC2.Large를 선택

또한 파트너 무료 평가판 페이지에서 무료로 데이터를 수집하고 보고하는 방법을 알아봅니다.

개념 증명이 필요하십니까?

개념 증명 또는 평가를 위한 지원 요청하기

Q: Amazon Redshift는 무엇입니까?

Amazon Redshift는 속도가 빠른 완전관리형 데이터 웨어하우스로, 모든 데이터를 표준 SQL 및 기존 BI(비즈니스 인텔리전스) 도구를 사용하여 간편하고 비용 효율적으로 분석할 수 있게 해줍니다. Amazon Redshift를 사용하면 정교한 쿼리 최적화, 고성능 로컬 디스크의 컬럼 방식 스토리지, 대량 병렬 쿼리 실행 기능을 사용하여 페타바이트 규모의 정형 데이터에 복잡한 분석 쿼리를 실행할 수 있습니다. 대부분 결과가 몇 초 내에 반환됩니다. Redshift에서는 약정 없이 시간당 0.25 USD의 작은 규모로 시작하여 기존 솔루션 대비 10%도 안 되는 연간 테라바이트당 1,000 USD의 비용에 페타바이트 규모로 확장할 수 있습니다. 또한, Amazon Redshift에는 Amazon Redshift Spectrum이 포함되어 있어 Amazon S3에 있는 엑사바이트 규모의 비정형 데이터에 대해 SQL 쿼리를 직접 실행할 수 있습니다. 로드하거나 변환할 필요 없으며, Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile 및 TSV를 비롯한 오픈 데이터 형식을 사용할 수 있습니다. Redshift Spectrum은 검색하는 데이터에 따라 쿼리 컴퓨팅 파워를 자동으로 확장하므로, 데이터 세트의 규모와 관계없이 Amazon S3에 대한 쿼리가 빠르게 실행됩니다.

일반적인 데이터 웨어하우스에서 특히 대용량 데이터 세트를 관리하는 데 상당한 시간과 리소스가 필요합니다. 또한 자체 관리되는 온 프레미스 데이터 웨어하우스의 구축, 관리 및 확장에 관련된 경제적인 비용이 매우 높습니다. 데이터가 증가함에 따라 비용을 관리하고, ETL 복잡성을 낮게 유지하며, 우수한 성능을 제공하려면, 데이터 웨어하우스로 로드할 데이터와 스토리지에 아카이브할 데이터 간에 균형을 유지해야 합니다. Amazon Redshift는 데이터 웨어하우스를 비용 및 운영 오버헤드를 현저히 낮출 수 있을 뿐만 아니라 Redshift Spectrum을 사용하면 데이터를 로드할 필요 없이 원래 형식 그대로 대량의 데이터를 손쉽게 분석할 수 있습니다.

Amazon Redshift는 익숙한 SQL 기반 클라이언트를 사용하는 구조화된 데이터와 표준 ODBC 및 JDBC 연결을 사용하는 비즈니스 인텔리전스(BI) 도구에 빠른 쿼리 기능을 제공합니다. 쿼리는 여러 개의 물리적 리소스로 분산되어 병렬 처리됩니다. AWS Management Console에서 몇 번 클릭하거나 단일 API 호출을 사용하여 쉽게 Amazon Redshift 데이터 웨어하우스를 확장하거나 축소할 수 있습니다. Amazon Redshift는 데이터 웨어하우스에 자동으로 패치를 적용하고 백업하며 사용자가 정의한 보존 기간 동안 백업을 저장합니다. Amazon Redshift는 가용성을 향상하고 데이터 내구성을 개선하기 위해 복제 및 지속적인 백업을 사용하며 구성 요소 및 노드 실패에서 자동으로 복구할 수 있습니다. 또한 Amazon Redshift는 전송 중인 데이터와 상주 데이터를 보호하기 위해 Amazon Virtual Private Cloud(VPC), SSL, AES-256 암호화 및 하드웨어 보안 모듈(HSM)을 지원합니다.

모든 Amazon Web Services와 마찬가지로 사전 투자가 필요 없으며 사용한 리소스에 대해서만 요금을 지불하면 됩니다. Amazon Redshift의 요금은 종량 요금제로 부과됩니다. Amazon Redshift를 무료로 사용해 볼 수도 있습니다.

Q: Amazon Redshift Spectrum이란 무엇입니까?

Amazon Redshift Spectrum은 로딩이나 ETL 필요 없이 Amazon S3에 있는 엑사바이트 규모의 비정형 데이터에 대해 쿼리를 실행할 수 있는 Amazon Redshift의 기능입니다. 쿼리를 발행하면, Amazon Redshift SQL 엔드포인트로 전달되고 여기에서 쿼리 플랜을 생성하고 최적화합니다. Amazon Redshift는 로컬에 있는 데이터와 Amazon S3에 있는 데이터가 무엇인지 파악하고, 읽어와야 하는 Amazon S3 데이터 양을 최소화하기 위한 플랜을 생성하고, 공유 리소스 풀의 Amazon Redshift Spectrum 작업자에 Amazon S3에서 데이터를 읽고 처리하도록 요청합니다.

Redshift Spectrum은 필요한 경우 수천 개의 인스턴스로 확장되므로 데이터 크기와 관계없이 쿼리가 빠르게 실행됩니다. 또한, Amazon S3 데이터에 대해 Amazon Redshift 쿼리에서 사용하는 것과 정확히 동일한 SQL을 사용하고, 동일한 BI 도구를 사용하여 동일한 Amazon Redshift 엔드포인트에 연결할 수 있습니다. Redshift Spectrum을 사용하면 스토리지와 컴퓨팅을 분리할 수 있으므로 개별적으로 확장이 가능합니다. Amazon S3 데이터 레이크를 쿼리하는 데 필요한 수만큼 Amazon Redshift 클러스터를 설정할 수 있으므로, 고가용성과 제한 없는 동시성이 제공됩니다. Redshift Spectrum은 원하는 장소에 원하는 형식으로 데이터를 저장하고 필요할 때 이를 처리할 수 있는 자유를 제공합니다.

Q: Amazon Redshift에서 무엇을 자동으로 관리합니까?

Amazon Redshift는 인프라 용량을 프로비저닝하는 것부터 백업, 패치 적용 등의 계속되는 관리 작업을 자동화하는 것에 이르기까지 데이터 웨어하우스를 설정 및 운영하고 규모를 조정하는 데 필요한 작업을 관리합니다. Amazon Redshift는 노드를 자동으로 모니터링하여 실패한 노드를 복구할 수 있도록 돕습니다. Redshift Spectrum의 경우, Amazon Redshift는 Amazon S3에 저장된 데이터에 대한 쿼리와 관련된 모든 컴퓨팅 인프라, 로드 밸런싱, 계획, 일정 예약 및 실행을 관리합니다.

Q:데이터 웨어하우징 및 분석에 대해 대부분의 기존 데이터베이스와 비교해 볼 때 Amazon Redshift의 성능은 어떻습니까?

Amazon Redshift는 데이터 웨어하우징 및 분석 워크로드에서 일반적인 데이터베이스보다 최대 10배까지 성능을 높이기 위해 여러 가지 혁신적인 기능을 사용합니다.

  • 열 형식 데이터 스토리지: Amazon Redshift는 일련의 행으로 데이터를 저장하는 대신에 열 단위로 데이터를 구성합니다. 트랜잭션 처리에 적합한 행 기반 시스템과 달리 쿼리가 대용량 데이터 세트에서 집계를 수행하는 쿼리를 자주 포함하는 열 기반 시스템은 데이터 웨어하우징에 적합합니다. 쿼리에 포함된 열만 처리되고 열 형식 데이터는 스토리지 미디어에 순차적으로 저장되므로 열 기반 시스템에서는 훨씬 적은 개수의 I/O를 필요로 하며 쿼리 성능은 크게 향상합니다.
  • 고급 압축: 유사한 데이터는 순차적으로 디스크에 저장되므로 열 기반 데이터 스토리지는 행 기반 데이터 스토리지보다 훨씬 더 많이 압축될 수 있습니다. Amazon Redshift는 여러 가지 압축 기술을 사용하여 기존의 관계형 데이터 스토리지에 비해 상당히 높은 압축률을 달성할 수 있습니다. 또한 Amazon Redshift는 인덱스나 구체화된 보기를 요구하지 않으므로 기존의 관계형 데이터베이스 시스템보다 적은 공간을 사용합니다. 빈 테이블로 데이터를 로드할 때 Amazon Redshift는 자동으로 데이터의 샘플을 뽑아 가장 적절한 압축 스키마를 선택합니다.
  • 대규모 병렬 처리(MPP): Amazon Redshift는 데이터 및 쿼리 로드를 모든 노드에 자동 분산합니다. Amazon Redshift는 노드를 데이터 웨어하우스에 쉽게 추가하고 데이터 웨어하우스의 성장에 맞추어 빠른 쿼리 성능을 관리할 수 있게 해 줍니다.
  • Redshift Spectrum: Redshift Spectrum을 사용하면 Amazon S3에 있는 엑사바이트 규모의 데이터에 대해 쿼리를 수행할 수 있습니다. 로딩이나 ETL은 필요가 없습니다. Amazon Redshift에 전혀 데이터를 저장하지 않더라도 여전히 Redshift Spectrum을 사용하여 Amazon S3에 있는 엑사바이트 규모의 데이터 세트를 쿼리할 수 있습니다. 쿼리를 발행하면, Amazon Redshift SQL 엔드포인트로 전달되고 여기에서 쿼리 플랜이 생성됩니다. Amazon Redshift는 로컬에 있는 데이터와 Amazon S3에 있는 데이터가 무엇인지 파악하고, 읽어와야 하는 Amazon S3 데이터 양을 최소화하기 위한 플랜을 생성하고, 공유 리소스 풀의 Amazon Redshift Spectrum 작업자에 Amazon S3에서 데이터를 읽고 처리하도록 요청한 후, 결과를 Amazon Redshift 클러스터로 가져와서 나머지 작업을 처리합니다.

Q: Amazon Redshift를 시작하려면 어떻게 해야 합니까?

Amazon Redshift 세부 정보 페이지 또는 AWS Management Console에서 몇 분 안에 가입하고 시작할 수 있습니다. AWS 계정이 없는 경우 계정을 만들라는 메시지가 표시됩니다.

Redshift Spectrum을 사용하려면 먼저 Amazon S3에 데이터를 저장해야 합니다. 그런 다음 Amazon Redshift 클러스터에서 해당 데이터에 대한 메타데이터를 정의하거나 이미 Hive Metastore에 있는 메타데이터를 클러스터에 등록합니다. Amazon Redshift 클러스터에서 CREATE EXTERNAL SCHEMA SQL 명령을 발행하여 카탈로그의 데이터베이스를 Amazon Redshift 내 외부 스키마로 정의하거나 등록합니다. 그런 다음 로컬 테이블에 사용하는 것과 같은 SQL과 Amazon Redshift를 지원하는 BI 도구를 사용하여 Amazon S3에 대한 쿼리를 발행할 수 있습니다. Amazon Redshift SQL을 사용하여 생성하는 외부 데이터베이스 정의는 Amazon Athena에서 사용하는 것과 같은 데이터 카탈로그에 등록됩니다. 원하는 경우 Amazon Athena Catalog에서 외부 데이터베이스 정의를 관리할 수도 있습니다. 

Amazon Redshift를 무료로 사용하는 방법에 대해 알아보려면 시작하기 페이지로 이동하십시오.

Q: Amazon Redshift는 어느 AWS 리전에서 사용할 수 있습니까?

Amazon Redshift 리전별 가용성에 대한 정보는 AWS 글로벌 인프라 페이지에서 리전 표를 참조하십시오.

Q: Redshift Spectrum은 어느 AWS 리전에서 사용할 수 있습니까?

Amazon Redshift Spectrum은 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤), EU(프랑크푸르트), EU(아일랜드), 아시아 태평양(서울), 아시아 태평양(싱가포르), 아시아 태평양(시드니) 및 아시아 태평양(도쿄)의 AWS 리전에서 사용할 수 있습니다.

Q: Amazon Redshift 데이터 웨어하우스 클러스터를 만들려면 어떻게 해야 합니까?

AWS Management Console이나 Amazon Redshift API를 사용하여 쉽게 Amazon Redshift 데이터 웨어하우스 클러스터를 만들 수 있습니다. 단일 노드의 160GB 데이터 웨어하우스를 사용하여 시작하고 AWS Console에서 몇 번 클릭하거나 단일 API 호출을 사용하여 페타바이트 이상까지 확장할 수 있습니다.

단일 노드 구성을 사용하면 Amazon Redshift를 신속하고 비용 효율적으로 시작할 수 있고 필요에 따라 다중 노드 구성으로 확장할 수 있습니다. 다중 노드 구성에는 클라이언트 연결을 관리하고 쿼리를 받는 리더 노드와 데이터를 저장하고 쿼리 및 계산을 수행하는 2개의 컴퓨팅 노드가 필요합니다. 리더 노드는 자동적으로 프로비저닝되며 요금은 청구되지 않습니다.

기본 가용 영역(선택), 노드 수, 노드 유형, 마스터 이름 및 암호, 보안 그룹, 백업 보존 기간의 기본 설정 및 기타 시스템 설정을 지정하기만 하면 됩니다. 원하는 구성을 선택하면 Amazon Redshift는 필요한 리소스를 프로비저닝하고 데이터 웨어하우스 클러스터를 설정합니다.

Q: 리더 노드는 무엇을 합니까? 컴퓨팅 노드는 무엇을 합니까?

리더 노드는 클라이언트 애플리케이션의 쿼리를 받아 분석하고 이러한 쿼리를 처리하기 위한 여러 단계의 순차적인 집합인 실행 계획을 개발합니다. 그런 다음 리더 노드는 컴퓨팅 노드를 사용하여 이러한 계획의 병렬 실행을 조정하고 이들 노드에서 중간 결과를 집계하여 마지막으로 클라이언트 애플리케이션에 결과를 반환합니다.

컴퓨팅 노드는 실행 플랜에 지정되어 있는 단계를 실행하고 쿼리를 처리하기 위해 노드 간에 데이터를 전송합니다. 중간 결과는 클라이언트 애플리케이션으로 보내지기 전에 집계를 위해 리더 노드로 보내집니다.

Q: 컴퓨팅 노드당 최대 스토리지 용량은 어떻게 됩니까? 최적의 성능을 위해 권장되는 컴퓨팅 노드당 데이터 양은 어느 정도입니까?

고밀도 스토리지(DS) 노드 유형 또는 고밀도 컴퓨팅(DC) 노드 유형을 사용하여 클러스터를 생성할 수 있습니다. 고밀도 스토리지 노드 유형을 사용하면 매우 저렴한 가격에 하드 디스크 드라이브(HDD)를 사용하는 매우 큰 규모의 데이터 웨어하우스를 생성할 수 있습니다. 고밀도 컴퓨팅 노드 유형을 사용하면 빠른 CPU, 대량의 RAM 및 SSD(Solid State Disk)를 사용하는 매우 뛰어난 성능의 데이터 웨어하우스를 생성할 수 있습니다.

고밀도 스토리지(DS) 노드 유형은 엑스트라 라지와 에이트 엑스트라 라지 두 가지 크기로 제공됩니다. 엑스트라 라지(XL)에는 HDD 3개와 총 2TB의 마그네틱 스토리지가 포함되며, 에이트 엑스트라 라지(8XL)에는 HDD 24개와 총 16TB의 마그네틱 스토리지가 포함됩니다. DS2.8XLarge에는 36개의 인텔 제온 E5-2676 v3(Haswell) 가상 코어와 244GiB RAM이 탑재되어 있으며, DS2.XL에는 4개의 인텔 제온 E5-2676 v3(Haswell) 가상 코어와 31GiB RAM이 탑재되어 있습니다. 자세한 내용은 AWS 요금 페이지를 참조하십시오. 시간당 0.85 USD에 단일 엑스트라 라지 노드, 2TB 데이터 웨어하우스로 시작하여 최대 페타바이트 이상까지 확장할 수 있습니다. 요금을 연간 TB당 1,000 USD 미만으로 낮추려면 시간 단위로 지불하거나 예약 인스턴스 요금을 사용합니다.

고밀도 컴퓨팅(DC) 노드 유형 또한 두 가지 크기로 제공됩니다. 라지에는 160GB SSD 스토리지, 인텔 E5-2670v2(Ivy Bridge) 가상 코어 2개 및 15GiB RAM이 포함됩니다. 에이트 엑스트라 라지에는 라지보다 16배 더 큰 2.56TB SSD 스토리지, 인텔 E5-2670v2 가상 코어 32개 및 244GiB RAM이 포함됩니다. 시간당 0.25 USD의 단일 DC2.Large 노드로 시작하여 326TB의 SSD 스토리지, 가상 코어 3,200개 및 24TiB RAM이 탑재된 128개의 8XL 노드로 확장할 수 있습니다.

Amazon Redshift MPP 아키텍처는 데이터 웨어하우스 클러스터의 노드 수를 늘려 성능을 향상할 수 있음을 의미합니다. 컴퓨팅 노드당 최적의 데이터 양은 애플리케이션의 특징 및 필요한 쿼리 성능에 따라 다릅니다.

Q: Amazon Redshift 데이터 웨어하우스 클러스터당 지정할 수 있는 노드 수는 몇 개입니까?

Amazon Redshift 데이터 웨어하우스 클러스터는 노드 유형에 따라 1-128개의 컴퓨팅 노드를 포함할 수 있습니다. 자세한 내용은 설명서를 참조하십시오.

Q: 실행 중인 데이터 웨어하우스 클러스터에 액세스하려면 어떻게 해야 합니까?

데이터 웨어하우스 클러스터를 사용할 수 있게 되면 AWS Management Console 및 Redshift API를 사용하여 해당 끝점 및 JDBC 및 ODBC 연결 스트링을 검색할 수 있습니다. 그런 다음 선호하는 데이터베이스 도구, 프로그래밍 언어 또는 비즈니스 인텔리전스(BI) 도구에 이 연결 스트링을 사용할 수 있습니다. 실행 중인 데이터 웨어하우스 클러스터에 대한 네트워크 요청을 승인해야 합니다. 자세한 설명은 시작 안내서를 참조하십시오.

Q: Amazon Redshift 및 Amazon RDS는 각각 언제 사용합니까?

Amazon Redshift 및 Amazon RDS를 통해 클라우드에 기존의 관계형 데이터베이스를 실행하는 동시에 데이터베이스 관리를 오프로딩할 수 있습니다. 고객은 온라인 트랜잭션 처리(OLTP) 및 보고와 분석 모두에 대해 Amazon RDS를 사용합니다. Amazon Redshift는 다중 노드의 규모 및 리소스를 활용하며 다양한 최적화 기능을 사용하여 대용량 데이터 세트에 대한 분석 및 보고 워크로드에 대해 기존 데이터베이스와 비교하여 10배의 향상된 성능을 제공합니다. Amazon Redshift는 데이터 및 쿼리 복잡성 증가에 대비하거나 보고 및 분석 프로세싱이 OLTP 워크로드 성능을 저하시키는 것을 방지할 수 있도록 우수한 확장 옵션을 제공합니다.

Q: Amazon Redshift와 Amazon EMR은 각각 언제 사용합니까?

Apache Spark, 하둡, Presto 또는 Hbase 같은 빅 데이터 처리 프레임워크에서 사용자 지정 코드를 사용하여 매우 방대한 양의 데이터 세트를 처리 및 분석하는 경우, Amazon EMR을 사용해야 합니다. Amazon EMR에서는 클러스터의 구성과 클러스터에 설치하는 소프트웨어를 사용자가 모두 제어할 수 있습니다.

Amazon Redshift와 같은 데이터 웨어하우스는 다양한 유형의 분석을 사용하도록 설계되었습니다. 데이터 웨어하우스는 인벤토리, 금융 및 소매 판매 시스템 등 서로 다른 여러 소스에서 데이터를 가져오도록 설계되었습니다. 회사 전체에서 일관되고 정확한 보고를 지원하기 위해 데이터 웨어하우스는 고도로 정형화된 방식으로 데이터를 저장합니다. 이러한 구조는 데이터 일관성 규칙을 직접 데이터베이스 테이블에 구축합니다.

Amazon Redshift는 대규모 정형 데이터에 대해 복잡한 쿼리를 수행하고 매우 빠른 성능을 얻어야 하는 경우에 최적의 서비스입니다.

Q: Redshift Spectrum으로 Amazon EMR을 대체할 수 있습니까?

아니요. Redshift Spectrum은 Amazon Redshift 및 S3에 저장된 데이터에 대해 쿼리를 수행하기에는 매우 적합하지만, 엔터프라이즈에서 Amazon EMR과 같은 처리 프레임워크를 사용하는 일반적인 유형의 사용 사례에는 적합하지 않습니다.
Amazon EMR은 SQL 쿼리를 실행하는 것 이외에도 상당히 많은 작업을 수행합니다. Amazon EMR은 Spark, 하둡, Presto 등과 같은 인기 있는 빅 데이터 처리 프레임워크의 최신 버전을 사용하여 완벽하게 사용자 지정 가능한 클러스터에서 방대한 규모의 데이터 세트를 처리하고 분석할 수 있는 관리형 서비스입니다. Amazon EMR을 사용하면 기계 학습, 그래프 분석, 데이터 변환, 스트리밍 데이터 및 코딩할 수 있는 거의 모든 작업 등 애플리케이션의 다양한 확장 데이터 처리 작업을 실행할 수 있습니다. 또한, Redshift Spectrum을 EMR과 함께 사용할 수 있습니다. Amazon Redshift Spectrum은 테이블 정의를 저장할 때 Amazon EMR과 같은 접근 방식을 사용합니다. 따라서 이미 EMR을 사용하여 대규모 데이터 스토어를 처리하고 있다면, Redshift Spectrum을 동시에 사용하여 Amazon EMR 작업을 방해하지 않고 해당 데이터를 쿼리할 수 있습니다.

쿼리 서비스, 데이터 웨어하우스 및 복잡한 데이터 처리 프레임워크 모두 각자의 자리가 있으며 서로 다른 용도로 사용됩니다. 작업에 적합한 도구를 선택하기만 하면 됩니다.

Q: Amazon Athena와 Redshift Spectrum을 각각 언제 사용해야 합니까?

Amazon Athena는 모든 직원에게 Amazon S3에 있는 데이터에 대해 임시 쿼리를 실행하는 기능을 제공할 수는 가장 간단한 방법입니다. Athena는 서버리스 서비스이므로 설정하거나 관리할 인프라가 없으며 데이터 분석을 즉시 시작할 수 있습니다.

자주 액세스하는 데이터가 있고 해당 데이터를 일관되고 고도로 정형화된 형식으로 저장해야 하는 경우, Amazon Redshift와 같은 데이터 웨어하우스를 사용해야 합니다. 그러면 Amazon Redshift에 자주 액세스하는 정형 데이터를 저장하고 Redshift Spectrum을 사용하여 Amazon Redshift 쿼리를 Amazon S3 데이터 레이크에 있는 모든 데이터에 적용할 수 있습니다. 따라서 자유롭게 원하는 장소에 원하는 형식으로 데이터를 저장하고 필요할 때 이를 처리할 수 있습니다.

Q: Amazon EMR을 사용하여 처리하는 데이터를 Redshift Spectrum을 사용하여 쿼리할 수 있습니까?

예. Redshift Spectrum은 Amazon EMR에서 데이터 및 테이블 정의를 저장할 때 사용하는 것과 같은 Apach Hive Metastore를 지원합니다. 이미 Amazon EMR을 사용 중이고 Hive Metastore를 보유하고 있다면, 이를 사용하도록 Amazon Redshift 클러스터를 구성하기만 하면 됩니다. 그러면 Amazon EMR 작업과 더불어 해당 데이터를 즉시 쿼리할 수 있습니다.

Q: 왜 Amazon EC2에서 고유 MPP 데이터 웨어하우스 클러스터를 실행하는 대신에 Amazon Redshift를 사용해야 합니까?

Amazon Redshift는 데이터 웨어하우스 관리와 관련하여 시간 소모가 많은 다음과 같은 작업을 자동으로 처리합니다.

  • 설정: Amazon Redshift를 사용하면 간단하게 데이터 웨어하우스 클러스터를 만들고 스키마를 정의하며 데이터의 로드 및 쿼리를 시작할 수 있습니다. 프로비저닝, 구성, 패치 적용 모두가 관리됩니다.
  • 데이터 내구성: Amazon Redshift는 데이터 웨어하우스 클러스터 내에서 데이터를 복제하며, 최고의 내구성을 보장하기 위해 설계된 Amazon S3에 데이터를 지속적으로 백업합니다. Amazon Redshift는 각 드라이브의 데이터를 클러스터 내의 다른 노드로 미러링합니다. 드라이브가 실패하면, 쿼리는 Redshift가 복제본에서 드라이브를 다시 구축하는 동안 지연 시간이 약간 증가된 채로 쿼리가 계속 실행됩니다. 노드가 실패하는 경우 Amazon Redshift는 자동으로 새로운 노드를 프로비저닝하고 클러스터 내의 다른 드라이브 또는 Amazon S3에서 데이터 복구를 시작합니다. 또한 가장 빈번하게 쿼리되는 데이터 복구를 우선 처리하므로 가장 빈번하게 실행되는 쿼리는 신속하게 성능 기준에 맞춰집니다.
  • 규모 조정: 용량 및 성능 변경이 필요한 경우 단일 API를 호출하거나 AWS Management Console에서 몇 번 클릭하여 Amazon Redshift 데이터 웨어하우스 클러스터 노드를 추가하거나 삭제할 수 있습니다.
  • 자동 업데이트 및 패치 적용: Amazon Redshift에서는 데이터 웨어하우스에 자동으로 업그레이드 및 패치를 적용하므로 애플리케이션 관리가 아니라 애플리케이션 자체에 더 집중할 수 있습니다.
  • 엑사바이트 규모의 쿼리 기능: Redshift Spectrum을 사용하면 Amazon S3에 있는 엑사바이트 규모의 데이터에 대해 쿼리를 수행할 수 있습니다. 로딩이나 ETL은 필요가 없습니다. Amazon Redshift에 전혀 데이터를 저장하지 않더라도 여전히 Redshift Spectrum을 사용하여 Amazon S3에 있는 엑사바이트 규모의 데이터 세트를 쿼리할 수 있습니다.

맨 위로 이동 »

Q: Amazon Redshift의 사용료는 어떻게 과금되어 청구됩니까?

최소 비용이나 설정 비용이 없으며, 사용한 만큼만 지불하면 됩니다. 다음을 기준으로 요금이 청구됩니다.

  • 컴퓨팅 노드 시간 – 컴퓨팅 노드 시간은 청구 기간 동안 모든 컴퓨팅 노드를 실행하는 전체 시간입니다. 1시간에 노드당 1단위로 청구되므로 전체 월 동안 지속적으로 실행 중인 3개 노드 데이터 웨어하우스 클러스터는 2,160 인스턴스 시간을 발생시키게 됩니다. 리더 노드 시간에 대해서는 청구되지 않고 컴퓨팅 노드에 대해서만 요금이 부과됩니다.
  • 백업 스토리지 – 백업 스토리지는 데이터 웨어하우스에 대한 자동 스냅샷 및 수동 스냅샷과 연결된 스토리지입니다. 백업 보존 기간을 연장하거나 추가 스냅샷을 만들면 데이터 웨어하우스가 사용하는 백업 스토리지가 증가합니다. 활성 데이터 웨어하우스 클러스터에 대해 프로비저닝된 스토리지의 최대 100%까지는 백업 스토리지에 대한 추가 비용이 없습니다. 예를 들어, 2TB의 로컬 인스턴스 스토리지가 포함된 활성 단일 노드 XL 데이터 웨어하우스 클러스터를 사용하는 경우, 추가 요금 없이 월별 최대 2TB의 백업 스토리지를 사용할 수 있습니다. 백업 스토리지 및 클러스터 종료 후 저장된 백업이 프로비저닝된 스토리지 크기를 초과하는 경우 표준 Amazon S3 요금으로 청구됩니다.
  • 데이터 전송 – 같은 AWS 리전 안에서 Amazon Redshift와 Amazon S3 간에 전송되는 데이터의 경우 데이터 전송 요금이 없습니다. Amazon Redshift에서 송수신되는 다른 모든 데이터에 대해서는 표준 AWS 데이터 전송 요금에 따라 비용이 청구됩니다.
  • 스캔된 데이터 – Redshift Spectrum에서는 쿼리를 실행하기 위해 스캔된 Amazon S3 데이터의 양을 기준으로 비용이 부과됩니다. 쿼리를 실행하지 않을 때는 Redshift Spectrum에 대한 비용이 부과되지 않습니다. Parquet 또는 RC와 같은 컬럼 방식으로 데이터를 저장하면, Redshift Spectrum에서 전체 열을 처리하지 않고 쿼리에 필요한 열만 스캔하게 되므로 비용이 줄어듭니다. 이와 마찬가지로 Redshift Spectrum에서 지원하는 형식 중 하나를 사용하여 데이터를 압축해도 비용이 줄어듭니다. 데이터 스토리지에는 표준 Amazon S3 요금을 지불하고 사용된 클러스터에는 Amazon Redshift 인스턴스 요금을 지불합니다.

Amazon Redshift 요금 정보는 Amazon Redshift 요금 페이지를 참조하십시오.

Q: Amazon Redshift 데이터 웨어하우스 클러스터는 언제부터 언제까지 사용한 요금이 청구됩니까?

데이터 웨어하우스 클러스터가 사용 가능하게 되는 대로 데이터 웨어하우스 클러스터에 대한 청구가 시작됩니다. 인스턴스가 삭제되거나 인스턴스 장애가 발생하여 데이터 웨어하우스 클러스터가 종료될 때까지 청구가 계속됩니다.

Q: Amazon Redshift 인스턴스 시간 비용이 청구되는 기준은 무엇입니까?

노드 사용 시간은 데이터 웨어하우스 클러스터가 사용 가능한 상태로 실행 중인 각 시간에 대해 청구됩니다. 더 이상 데이터 웨어하우스 클러스터에 비용이 부과되지 않도록 하려면 추가 노드 시간이 계산되지 않도록 데이터 웨어하우스 클러스터를 종료해야 합니다. 노드를 1시간 미만으로 사용한 경우에도 1시간을 사용한 것으로 청구됩니다.

Q: 요금에 세금이 포함되어 있습니까?

별도의 언급이 없는 한, 요금에는 VAT 및 해당 판매세를 비롯한 관련 조세 공과가 포함되지 않습니다. 청구지 주소가 일본으로 되어 있는 고객의 경우 AWS 서비스 사용 시 일본 소비세의 적용을 받게 됩니다. 자세히 알아보기.

맨 위로 이동 »


Q: Amazon Redshift 데이터 웨어하우스에 데이터를 로드하려면 어떻게 해야 합니까?

Amazon S3, Amazon DynamoDB, Amazon EMRAWS Data Pipeline 및 Amazon EC2 또는 온프레미스에 있는 모든 SSH 사용 호스트를 비롯한 다양한 데이터 소스에서 Amazon Redshift로 데이터를 로드할 수 있습니다. Amazon Redshift는 데이터 웨어하우스 클러스터에 데이터를 수집할 수 있는 속도를 최대화하기 위해 각 컴퓨팅 노드에 데이터를 병렬로 로드합니다. Amazon Redshift에 데이터를 로드하는 방법에 대한 자세한 내용은 시작 안내서를 참조하십시오.

Q: SQL 'INSERT' 명령문을 사용하여 데이터를 로드할 수 있습니까?

예, 클라이언트는 ODBC 또는 JDBC를 사용하여 Amazon Redshift에 연결한 다음 'INSERT' SQL 명령어를 사용하여 데이터를 삽입할 수 있습니다. 그러한 방법은 SQL INSERT 명령문이 단일 리더 노드를 통해 로드하는 반면 각 컴퓨팅 노드에 데이터를 병렬로 로드하기 때문에 S3 또는 DynamoDB를 사용하는 것보다 더 느리게 처리될 수 있습니다.

Q: 기존 Amazon RDS, Amazon EMR, Amazon DynamoDB, Amazon EC2 데이터 소스에서 Amazon Redshift로 데이터를 어떻게 로드합니까?

COPY 명령을 사용하여 Amazon EMR, Amazon DynamoDB 또는 모든 SSH 사용 호스트에서 Amazon Redshift로 직접 데이터를 병렬 로드할 수 있습니다. 또한, Redshift Spectrum에서는 간단한 INSERT INTO 명령을 통해 Amazon S3에서 클러스터로 데이터를 로드할 수 있습니다. 따라서 Parquet, RC 등 다양한 형식의 데이터를 클러스터로 로드할 수 있습니다. 이러한 접근 방식을 사용하는 경우 Amazon S3에서 스캔된 데이터에 대한 Redshift Spectrum 요금이 발생합니다.

이뿐만 아니라 많은 ETL 기업에서 자사 도구와 함께 사용하도록 Amazon Redshift를 인증했으며, 데이터 로딩을 시작하는 데 도움이 되도록 많은 기업에서 무료 평가판을 제공합니다. AWS Data Pipeline은 다양한 AWS 데이터 소스에서 데이터를 로드할 수 있도록 고성능의 안정적이고 내결함성 있는 솔루션을 제공합니다. 데이터 소스와 원하는 데이터 변환을 지정한 다음 미리 작성된 가져오기 스크립트를 실행하여 데이터를 Amazon Redshift에 로드하는 데 AWS Data Pipeline을 사용할 수 있습니다. 또한, AWS Glue는 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL(Extract, Transform and Load) 서비스입니다. AWS Management Console에서 클릭 몇 번으로 AWS Glue ETL 작업을 생성하고 실행할 수 있습니다.

Q: Amazon Redshift에 처음 로드하는 데이터가 많습니다. 인터넷을 통해 전송하면 시간이 오래 걸릴 것입니다. 이 데이터를 로드하려면 어떻게 해야 합니까?

AWS Import/Export를 사용하면 이동식 스토리지 장치를 사용하여 데이터를 Amazon S3로 전송할 수 있습니다. 또한 네트워크 또는 데이터 센터와 AWS 간에 사설 네트워크 연결을 설정하기 위해 AWS Direct Connect를 사용할 수 있습니다. 데이터를 전송하기 위해 1Gbit/초 또는 10Gbit/초 연결 포트를 선택할 수 있습니다.

맨 위로 이동 »


Q: Amazon Redshift에서 데이터를 안전하게 유지하려면 어떻게 합니까?

Amazon Redshift는 업계 표준 암호화 기술을 사용하여 전송 중인 데이터 및 저장된 데이터를 암호화하여 보호합니다. 전송 중인 데이터를 보호하기 위해 Amazon Redshift는 클라이언트 애플리케이션 및 Redshift 데이터 웨어하우스 클러스터 간에 SSL 사용 연결을 지원합니다. 저장된 데이터를 보호하기 위해서 Amazon Redshift는 디스크에 데이터를 쓸 때 하드웨어 가속 AES-256을 사용하여 각 블록을 암호화합니다. 이 작업은 I/O 하위 시스템의 낮은 수준에서 수행되며 중간 쿼리 결과를 포함하여 디스크에 쓰는 모든 것을 암호화합니다. 블록은 있는 그대로 백업되며 이는 백업될 뿐만 아니라 백업이 암호화됨을 의미합니다. 기본적으로 Amazon Redshift가 키를 관리하지만 사용자는 자신의 하드웨어 보안 모듈(HSM)을 사용하거나 AWS Key Management Service를 통해 키를 관리하도록 선택할 수 있습니다.

Redshift Spectrum은 AWS Key Management Service(KMS)에서 사용하는 계정의 기본 키 관리를 통한 Amazon S3의 서버 측 암호화(SSE)를 지원합니다.

Q: Amazon Virtual Private Cloud(VPC)에서 Amazon Redshift를 사용할 수 있습니까?

예, VPC 구성의 일부로 Amazon Redshift를 사용할 수 있습니다. Amazon VPC를 이용하면 사용자의 데이터 센터에서 운영하는 기존 네트워크와 매우 유사한 가상 네트워크 토폴로지를 정의할 수 있습니다. 따라서 Amazon Redshift 데이터 웨어하우스 클러스터에 액세스할 수 있는 사용자를 완벽하게 제어할 수 있습니다.

Redshift Spectrum을 VPC의 일부인 Amazon Redshift 클러스터와 함께 사용할 수 있습니다. 현재 Redshift Spectrum은 향상된 VPC 라우팅 기능을 지원하지 않습니다.

Q: Amazon Redshift 컴퓨팅 노드에 직접 액세스할 수 있습니까?

아니요. Amazon Redshift 컴퓨팅 노드는 사설 네트워크 공간에 있으며 데이터 웨어하우스 클러스터의 리더 노드에서만 액세스할 수 있습니다. 이를 통해 데이터에 대한 추가적인 보안 계층이 제공됩니다.

맨 위로 이동 »


Q: 노드 중 하나에 있는 드라이브가 실패하면 데이터 웨어하우스 클러스터 가용성 및 데이터 내구성에 어떤 일이 발생합니까?

Amazon Redshift 데이터 웨어하우스 클러스터는 드라이브 실패 이벤트에서 사용 가능하게 유지되지만 특정 쿼리의 성능이 약간 떨어질 수 있습니다. 드라이브 실패 시 Amazon Redshift는 해당 드라이브의 데이터 복제본을 사용하는데 이 복제본은 해당 노드 내의 다른 드라이브에 저장되어 있습니다. 또한 Amazon Redshift는 상태가 양호한 드라이브로 데이터를 옮기려고 시도하거나 그렇게 할 수 없는 경우 노드를 교체합니다. 단일 노드 클러스터는 데이터 복제를 지원하지 않습니다. 드라이브 오류가 발생하는 경우 S3의 스냅샷에서 클러스터를 복원해야 합니다. 프로덕션에 최소 두 개의 노드를 사용하는 것이 좋습니다.

Q: 개별 노드 실패 이벤트 시 데이터 웨어하우스 클러스터 가용성 및 데이터 내구성에 어떤 일이 발생합니까?

Amazon Redshift는 자동으로 데이터 웨어하우스 클러스터에서 실패한 노드를 검색하고 실패한 노드를 교제합니다. 데이터 웨어하우스 클러스터는 교체 노드가 프로비저닝되고 DB에 추가될 때까지 쿼리 및 업데이트에 사용할 수 없습니다. Amazon Redshift는 교체 노드를 즉각적으로 사용할 수 있게 만들고, 먼저 S3에서 가장 빈번하게 액세스되는 데이터를 로드하여 가능한 한 빨리 데이터 쿼리 작업을 재개할 수 있게 해 줍니다. 단일 노드 클러스터는 데이터 복제를 지원하지 않습니다. 드라이브 오류가 발생하는 경우 S3의 스냅샷에서 클러스터를 복원해야 합니다. 프로덕션에 최소 두 개의 노드를 사용하는 것이 좋습니다.

Q: 데이터 웨어하우스 클러스터의 가용 영역(AZ)이 중단되면 데이터 웨어하우스 클러스터 가용성 및 데이터 내구성에 어떤 일이 발생합니까?

Amazon Redshift 데이터 웨어하우스 클러스터의 가용 영역이 사용할 수 없게 되면 AZ에 대한 전원 및 네트워크 액세스가 복구될 때까지 클러스터를 사용할 수 없습니다. 데이터 웨어하우스 클러스터의 데이터는 보존되므로 AZ가 다시 사용 가능해지는 대로 Amazon Redshift 데이터 웨어하우스를 사용하여 시작할 수 있습니다. 또한 기존 스냅샷을 같은 지역의 새로운 AZ로 복구하도록 선택할 수도 있습니다. Amazon Redshift는 가장 빈번하게 액세스되는 데이터를 먼저 복구하므로 최대한 신속하게 쿼리를 재개할 수 있습니다.

Q: Amazon Redshift는 다중 AZ 배포를 지원합니까?

현재 Amazon Redshift는 단일 AZ 배포만 지원합니다. 동일한 Amazon S3 입력 파일 세트에서 별도의 AZ에 있는 두 개의 Amazon Redshift 데이터 웨어하우스 클러스터로 데이터를 로드하면 다중 AZ에서 데이터 웨어하우스 클러스터를 실행할 수 있습니다. Redshift Spectrum에서는 여러 AZ에 걸쳐 여러 클러스터를 가동하고, 데이터를 클러스터로 로딩하지 않고도 Amazon S3에 있는 데이터에 액세스할 수 있습니다. 또한 데이터 웨어하우스 클러스터를 데이터 웨어하우스 클러스터 스냅샷에서 다른 AZ로 복구할 수도 있습니다.

맨 위로 이동 »


Q: Amazon Redshift에서 데이터를 백업하려면 어떻게 해야 합니까?

Amazon Redshift는 로드 시에 데이터 웨어하우스 클러스터 내의 모든 데이터를 복제하며 또한 데이터를 S3로 계속 백업합니다. Amazon Redshift는 3개 이상의 데이터 복사본을 유지하려고 시도합니다(컴퓨팅 노드의 원본 및 복제본과 Amazon S3에 있는 백업). 또한 Redshift는 재해 복구를 위해 스냅샷을 다른 지역의 S3에 비동기적으로 복제할 수 있습니다.

Q: Amazon Redshift는 얼마 동안 백업을 보존합니까? 기간을 구성할 수 있습니까?

기본적으로 Amazon Redshift는 1일간 백업을 보존합니다. 이 보존 기간을 최장 35일까지 구성할 수 있습니다.

Q: 백업에서 Amazon Redshift 데이터 웨어하우스 클러스터를 복구하려면 어떻게 해야 합니까?

백업 보존 기간 내의 모든 자동화된 백업에 액세스할 수 잇습니다. 복구할 백업을 선택하면 새 데이터 웨어하우스 클러스터가 프로비저닝되고 데이터가 해당 데이터 웨어하우스 클러스터로 복구됩니다.

Q: 내 데이터 웨어하우스 클러스터 백업을 활성화해야 합니까, 아니면 자동으로 수행됩니까?

기본적으로 Amazon Redshift는 보존 기간이 하루인 데이터 웨어하우스 클러스터의 자동화된 백업을 사용하도록 설정합니다. 무료 백업 스토리지는 데이터 웨어하우스 클러스터의 노드 전체 스토리지 크기로 제한되며 활성 데이터 웨어하우스 클러스터에만 적용됩니다. 예를 들어, 총 8TB의 데이터 웨어하우스 스토리지가 있는 경우 추가 요금 없이 최대 8TB의 백업 스토리지가 제공됩니다. 백업 보존 기간을 하루보다 길게 확장하려 경우 AWS Management Console 또는 Amazon Redshift APIS를 사용하여 해당 작업을 수행할 수 있습니다. 자동화된 스냅샷 대한 자세한 내용은 Amazon Redshift Management Guide를 참조하십시오. Amazon Redshift는 변경된 데이터만 백업하므로 대부분의 스냅샷은 적은 양의 무료 백업 스토리지만 사용합니다.

Q: 자동화된 백업 및 스냅샷의 보존 기간을 관리하려면 어떻게 해야 합니까?

AWS Management Console 또는 ModifyClutster API를 사용하여 RetentionPeriod 파라미터를 수정하여 자동 백업이 보관되는 기간을 관리할 수 있습니다. 자동 백업을 완전히 비활성화하려는 경우 보존 기간을 0으로 설정합니다(권장하지 않음).

Q: 데이터 웨어하우스 클러스터를 삭제하면 백업이 어떻게 됩니까?

데이터 웨어하우스 클러스터를 삭제하면 동시에 최종 DB 스냅샷을 생성할지를 지정할 수 있으므로 나중에 삭제된 데이터 웨어하우스 클러스터를 복구할 수 있습니다. 이전에 만든 모든 데이터 웨어하우스 클러스터의 수동 스냅샷은 삭제하도록 선택하지 않는 한 보존되며 표준 Amazon S3 요금이 청구됩니다.

맨 위로 이동 »


Q: Amazon Redshift 데이터 웨어하우스 클러스터의 크기 및 성능을 조정하려면 어떻게 해야 합니까?

쿼리 성능을 향상하거나 CPU, 메모리 또는 I/O 초과 사용률에 대응하려는 경우 AWS Management Console이나 ModifyCluster API를 사용하여 데이터 웨어하우스 클러스터 내의 노드 수를 늘릴 수 있습니다. 데이터 웨어하우스 클러스터를 수정하는 경우 요청한 변경 사항이 즉시 적용됩니다. Amazon Redshift 데이터 웨어하우스 클러스터의 컴퓨팅 사용률, 스토리지 사용률 및 읽기/쓰기 트래픽 지표는 AWS Management Console 또는 Amazon CloudWatch API를 통해 무료로 사용할 수 있습니다. 또한, Amazon Cloudwatch의 사용자 지정 지표 기능을 사용하여 사용자 정의 지표를 추가할 수 있습니다.

Redshift Spectrum에서는 여러 Amazon Redshift 클러스터를 실행하여 Amazon S3에 있는 같은 데이터를 액세스할 수 있습니다. 서로 다른 클러스터를 다양한 사용 사례에 사용할 수 있습니다. 예를 들어 한 클러스터를 표준 보고에 사용하고 다른 클러스터를 데이터 과학 쿼리에 사용할 수 있습니다. 마케팅 팀에서는 운영 팀과 별개로 자체 클러스터를 사용할 수 있습니다. 로컬 클러스터에 있는 노드의 유형 및 수, 그리고 쿼리를 위해 처리해야 하는 파일 수에 따라 Redshift Spectrum이 쿼리 실행을 공유 리소스 풀의 여러 Redshift Spectrum 작업자에 자동으로 분산하여 Amazon S3의 데이터를 읽고 처리하며, 결과를 Amazon Redshift 클러스터로 가져와서 나머지 작업을 처리합니다.

Q: 조정하는 동안 데이터 웨어하우스 클러스터를 사용할 수 있습니까?

기존 데이터 웨어하우스 클러스터는 읽기 작업에 대해 사용 가능하게 유지되며 새 데이터 웨어하우스 클러스터는 조정 작업 중에 만들어집니다. 새 데이터 웨어하우스 클러스터가 준비되면 기존 데이터 웨어하우스 클러스터는 일시적으로 사용할 수 없게 됩니다. 기존 웨어하우스 클러스터의 정식 이름 레코드는 새 데이터 웨어하우스를 가리키도록 전환됩니다. 사용 불가 시간은 일반적으로 몇 분에 지나지 않으며, 수정 사항을 즉시 적용하도록 지정하지 않는 한 데이터 웨어하우스 클러스터의 유지 관리 기간에 수정 사항이 적용됩니다. Amazon Redshift는 기존 데이터 웨어하우스 클러스터의 컴퓨팅 노드로부터 새 클러스터의 컴퓨팅 노드에 데이터를 병렬로 옮깁니다. 이렇게 하면 가능한 빨리 작업을 완료할 수 있습니다.

맨 위로 이동 »


Q: Amazon Redshift는 기본 비즈니스 인텔리전스 소프트웨어 패키지 및 ETL 도구와 호환됩니까?

Amazon Redshift는 업계 표준 SQL을 사용하며 표준 JDBC 및 ODBC 드라이버를 사용하여 액세스됩니다. Amazon Redshift 커스텀 JDBC 및 ODBC 드라이버는 콘솔의 Connect Client 탭에서 다운로드할 수 있습니다. 주요 BI 및 ETL 벤더와의 통합을 확인했으며 이 중 다수는 무료 평가판으로 제공되어 데이터 로드 및 분석을 시작하도록 지원합니다. 또한 AWS Marketplace로 이동하여 Amazon Redshift와 함께 작동하도록 설계된 솔루션을 몇 분 만에 배포 및 구성할 수 있습니다.

Q: Redshift Spectrum에서는 어떤 종류의 쿼리를 지원합니까?

클러스터의 로컬 스토리지에 있는 테이블에 사용하는 것과 정확히 동일한 쿼리 구문 및 동일한 쿼리 기능을 사용하여 Redshift Spectrum에 있는 테이블에 액세스합니다. 외부 테이블은 이를 등록할 때 사용한 CREATE EXTERNAL SCHEMA 명령에 정의된 스키마 이름을 사용하여 참조됩니다.

Q: 내 로컬 스토리지에 있는 테이블 이름과 외부 테이블 이름이 같으면 어떻게 됩니까?

로컬 테이블에서와 마찬가지로 스키마 이름을 사용하여 원하는 테이블을 정확히 선택할 수 있습니다. 쿼리에 schema_name.table_name을 사용하면 됩니다.

Q: Redshift Spectrum에서 지원하는 BI 도구 및 SQL Client는 무엇입니까?

Redshift Spectrum은 모든 Amazon Redshift 클라이언트 도구를 지원합니다. 이러한 클라이언트 도구는 ODBC 또는 JDBC 연결을 사용하여 계속해서 Amazon Redshift 클러스터 엔드포인트에 연결할 수 있습니다. 변경할 필요가 없습니다.

Q: Redshift Spectrum에서는 어떤 데이터 형식을 지원합니까?

Redshift Spectrum은 현재 Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile 및 TSV를 비롯한 수많은 오픈 소스 데이터 형식을 지원합니다.

Q: Redshift Spectrum에서는 어떤 압축 형식을 지원합니까?

Redshift Spectrum에서는 현재 Gzip 및 Snappy 압축을 지원합니다.

Q: Hive Metastore를 사용하여 내 S3 데이터 레이크에 대한 메타데이터를 저장하고 있습니다. Redshift Spectrum을 사용할 수 있습니까?

예. CREATE EXTERNAL SCHEMA 명령은 Hive Metastore를 지원합니다. 현재 Hive Metastore에 대한 DDL은 지원하지 않습니다.

Q: 내 클러스터에 생성된 모든 외부 데이터베이스 테이블 목록을 받으려면 어떻게 해야 합니까?

시스템 테이블 SVV_EXTERNAL_TABLES를 쿼리하여 해당 정보를 받을 수 있습니다.


Q: Amazon Redshift 데이터 웨어하우스 클러스터의 성능을 모니터링하려면 어떻게 합니까?

Amazon Redshift 데이터 웨어하우스 클러스터의 컴퓨팅 사용률, 스토리지 사용률 및 읽기/쓰기 트래픽 지표는 AWS Management Console 또는 Amazon CloudWatch API를 통해 무료로 사용할 수 있습니다. 또한 Amazon Cloudwatch의 사용자 지정 지표 기능을 사용하여 추가적인 사용자 정의 지표를 추가할 수 있습니다. 또한 Amazon Redshift는 CloudWatch 지표 외에 AWS Management Console을 통해 쿼리 및 클러스터 성능 정보도 제공합니다. 이 정보를 사용하면 가장 많은 시스템 리소스를 소비하고 있는 사용자 및 쿼리를 확인할 수 있고 성능 문제를 진단할 수 있습니다. 또한 각 컴퓨팅 노드의 리소스 사용량을 확인하여 모든 노드에서 데이터 및 쿼리의 로드가 균등하게 분배되고 있는 지 확인할 수 있습니다.

Q: 내 클러스터에 있는 데이터에 액세스하는 일부 쿼리가 내 Redshift Spectrum 쿼리보다 실행 속도가 느립니다. 이유가 무엇입니까?

Amazon Redshift는 클러스터 리소스를 사용하여 로컬 디스크에 대해 쿼리를 실행합니다. Redshift Spectrum은 쿼리별 확장 리소스를 사용하여 S3에 있는 데이터에 대해 쿼리를 실행합니다. 대부분 쿼리는 로컬 디스크가 더 빠르지만, 대량의 데이터를 스캔하고 최소한의 컴퓨팅 처리를 수행하는 쿼리는 다수의 Redshift Spectrum 작업자를 사용하여 신속하게 작업을 완료할 수 있습니다.


Q: 유지 관리 기간이란 무엇입니까? 소프트웨어를 유지 관리하는 동안 데이터 웨어하우스 클러스터를 사용할 수 있습니까?

Amazon Redshift에서는 수정 사항, 개선 사항 및 새로운 기능을 클러스터에 적용하기 위해 정기적으로 유지 관리를 수행합니다. 프로그래밍 방식 또는 Amazon Redshift 콘솔을 사용하여 클러스터를 수정하면 예약된 유지 관리 기간을 변경할 수 있습니다. 이러한 유지 관리 기간에는 Amazon Redshift 클러스터가 정상적인 작업을 수행하지 않습니다. 리전별 유지 관리 기간과 일정에 대한 자세한 정보는 Amazon Redshift 관리 콘솔에서 Maintenance Windows를 참조하십시오.

맨 위로 이동 »