일반

Amazon Redshift에 관한 새로운 소식은 What's New in Amazon Redshift 페이지에서 확인하십시오.
자세한 정보와 사용 지침은 설명서에서 확인하세요.

Q: Amazon Redshift는 무엇인가요?

Amazon Redshift는 완전관리형 확장 가능 클라우드 데이터 웨어하우스로서 쉽고 빠르고 안전한 대규모 분석을 통해 인사이트를 얻는 시간을 단축해줍니다. 수천에 이르는 고객이 Amazon Redshift를 이용해 테라바이트부터 페타바이트까지의 데이터를 분석하고 복잡한 분석 쿼리를 실행하고 있습니다. 고객은 운영 데이터베이스, 데이터 레이크, 데이터 웨어하우스 및 서드 파티 데이터 집합에 존재하는 모든 데이터에서 실시간 인사이트와 예측 분석 결과를 얻을 수 있습니다. Amazon Redshift는 다른 우수한 클라우드 데이터 웨어하우스보다 3배 더 높은 가성비로 이 모든 것을 제공하며, 고객이 비용을 예측 가능하게 관리할 수 있도록 도와줍니다.

Amazon Redshift Serverless는 데이터 웨어하우스 클러스터를 구성하거나 관리할 필요 없이 페타바이트 규모의 분석을 수초 안에 쉽게 실행하고 빠르게 인사이트를 얻을 수 있습니다. Amazon Redshift Serverless는 데이터 웨어하우스 용량을 자동으로 프로비저닝하고 크기 조정하여 수요가 많고 예측할 수 없는 워크로드에 맞춰 높은 성능을 제공하며, 사용한 리소스에 대해서만 비용을 지불하면 됩니다.

Q: 여러 고객이 Amazon Redshift를 선택하는 가장 중요한 이유는 무엇인가요?

수천에 이르는 고객이 Amazon Redshift를 선택하는 이유는 사용하기 쉽고 어떤 규모에서든 높은 성능을 제공하고 모든 데이터를 분석할 수 있어서 인사이트를 얻는 시간이 단축되기 때문입니다. Amazon Redshift는 완전관리형 서비스로서 사전 프로비저닝 옵션과 서버리스 옵션을 모두 제공하므로 데이터 웨어하우스를 관리하지 않고도 분석을 실행 및 크기 조정하기가 쉽습니다. 예측 가능한 워크로드의 경우 사전 프로비저닝 옵션을 선택하거나, 반대로 수요가 많고 예측할 수 없는 워크로드에 대해서는 데이터 웨어하우스 용량을 자동으로 프로비저닝하고 크기 조정해 높은 성능을 제공하는 Amazon Redshift Serverless 옵션을 선택할 수 있습니다. 또한, 다른 우수한 클라우드 데이터 웨어하우스보다 최대 3배 더 높은 가성비로 어떤 규모에서든 높은 성능을 제공하며, 고객이 비용을 예측 가능하게 관리할 수 있도록 도와줍니다. Amazon Redshift를 사용하면 운영 데이터베이스, 데이터 레이크, 데이터 웨어하우스 및 수천 개의 서드 파티 데이터 집합에 존재하는 모든 데이터에 대해 실시간 예측 분석을 실행하여 인사이트를 얻을 수 있습니다. Amazon Redshift는 유휴 및 전송 중인 데이터를 안전하게 지키며, 내부와 외부의 규정 준수 요구 사항을 충족합니다. 업계를 선도하는 보안을 지원함으로써 전송 중이거나 유휴 상태인 데이터를 보호하고, SOC1, SOC2, SOC3 및 PCI DSS Level 1 요구 사항을 준수합니다. 모든 Redshift 보안 및 규정 준수 기능은 추가 비용 없이 제공됩니다.

Q: Amazon Redshift는 어떤 방식으로 데이터 웨어하우스 관리를 단순화합니까?

Amazon Redshift의 관리는 AWS에서 모두 이루어지기 때문에 사용자는 하드웨어 프로비저닝, 소프트웨어 패치 적용, 설정, 구성, 그리고 오류 복구를 노드 및 드라이브 모니터링, 백업과 같은 데이터 웨어하우스 관리 작업에 대해 더 이상 걱정할 필요가 없습니다. AWS에서 고객을 대신해 데이터 웨어하우스를 설정하고 운영하고 크기 조정하는 데 필요한 작업을 관리하므로 고객은 애플리케이션을 구축하는 작업에 집중할 수 있습니다. Amazon Redshift는 자동 튜닝 기능도 제공하며, Redshift Advisor에서 웨어하우스를 관리하기 위한 권장 사항도 표시합니다. Redshift Spectrum에 대해 Amazon Redshift는 Amazon S3에 저장된 데이터에 대한 쿼리와 관련된 모든 컴퓨팅 인프라, 로드 밸런싱, 계획, 일정 예약 및 실행을 관리합니다. 서버리스 옵션은 데이터 웨어하우스 용량을 자동으로 프로비저닝하고 크기 조정하여 수요가 많고 예측할 수 없는 워크로드에 맞춰 높은 성능을 제공하며, 사용한 리소스에 대해서만 비용을 지불하면 됩니다.

Q: 다른 데이터 웨어하우스의 성능과 비교해 Amazon Redshift의 성능은 어떤가요?

TPC-DS 벤치마크 결과에 따르면 Amazon Redshift는 가장 우수한 가격 대비 성능을 제공합니다. 이는 비교적 작은 3TB의 데이터 집합에서도 마찬가지입니다. Amazon Redshift는 다른 클라우드 데이터 웨어하우스보다 최대 3배 더 높은 가격 대비 성능을 제공합니다. 즉, 수동 튜닝 없이 Amazon Redshift가 제공하는 최고의 가격 대비 성능을 누릴 수 있습니다. 다른 클라우드 데이터 웨어하우스보다 최대 3배 더 높은 Amazon Redshift의 가격 대비 성능 | AWS 빅 데이터 블로그.

Amazon Redshift는 읽기에 최적화된 효율적인 열 형식 압축 데이터 스토리지와, 수백 개의 노드로 선형 확장하는 대량 병렬 처리(MPP) 컴퓨팅 클러스터를 비롯한 다양한 혁신 기능을 이용하여 데이터 웨어하우징 및 분석 워크로드에 대해 기존 데이터베이스보다 최대 10대 더 높은 성능을 달성합니다. Amazon Redshift는 일련의 행으로 데이터를 저장하는 대신에 열 단위로 데이터를 구성합니다. Amazon Redshift는 데이터를 빈 테이블로 로드할 때 자동으로 데이터를 샘플링하여 가장 적절한 압축 스키마를 선택합니다.

Redshift Spectrum을 사용하면 Amazon S3에 있는 엑사바이트 규모의 데이터에 대해 쿼리를 수행할 수 있습니다. 로딩 또는 추출, 변환, 로드가 필요하지 않습니다. Amazon Redshift에 전혀 데이터를 저장하지 않더라도 여전히 Redshift Spectrum을 사용하여 Amazon S3에 있는 엑사바이트 규모의 데이터 집합을 쿼리할 수 있습니다. 구체화된 보기는 대시보드, 비즈니스 인텔리전스(BI) 도구로부터의 쿼리, ELT 데이터 처리 등의 반복적이고 예측 가능한 워크로드에 대해 상당히 빠른 쿼리 성능을 제공합니다. 구체화된 보기를 사용하면 쿼리의 사전 연산 결과를 저장하고, 가장 최근에 원본 테이블에서 변경된 사항을 점진적으로 처리하여 효율적으로 관리할 수 있습니다. 구체화된 보기를 참조하는 후속 쿼리는 사전 연산 결과를 사용하여 실행 속도를 높이며, 자동 새로 고침과 쿼리 재작성 기능은 구체화된 보기 사용을 간소화하고 자동화합니다. Amazon Redshift는 구체화된 보기를 자동으로 생성하여 사용자가 만든 구체화된 보기와 동일한 이점을 제공합니다.

온프레미스 데이터 웨어하우스의 컴퓨팅 및 스토리지 용량은 온프레미스 하드웨어의 제약에 따라 제한됩니다. Amazon Redshift를 사용하면 변화하는 워크로드에 맞춰 필요한 만큼 컴퓨팅 및 스토리지를 독립적으로 크기 조정할 수 있습니다. Redshift Managed Storage(RMS)는 이제 Amazon S3 스토리지를 사용해 스토리지를 페타바이트 규모로 확장할 수 있는 기능을 지원합니다.

자동 테이블 최적화(ATO)는 수동 작업 없이 최적의 정렬 및 분산 키 생성이 제공하는 성능 이점을 얻을 수 있도록 해주는 셀프 튜닝 기능입니다. ATO는 쿼리가 테이블과 상호 작용하는 방식을 관찰하고 기계 학습(ML)을 사용해 최상의 정렬 및 분산 키를 선택하여 클러스터 워크로드에 대한 성능을 최적화합니다. ATO 최적화는 ATO를 적용하지 않은 클러스터와 비교했을 때 3TB 및 30TB의 TPC-DS 벤치마크 적용 시 클러스터 성능이 각각 24% 및 34% 향상되는 것으로 나타났습니다. 자동 진공 삭제, 자동 테이블 정렬, 자동 분석과 같은 추가 기능을 사용하면 Redshift 클러스터를 수동으로 유지 관리하고 튜닝하지 않아도 되므로 새로운 클러스터 및 프로덕션 워크로드에 대해 최고의 성능을 얻을 수 있습니다.

워크로드 관리 기능은 쿼리에 일련의 정의된 대기열 경로를 지정해 클러스터의 동시성 및 리소스 사용률을 관리할 수 있도록 해줍니다. 현재, Amazon Redshift는 자동 및 수동 구성 방식을 모두 지원하고 있습니다. 수동 WLM 구성을 사용하면 사용자가 각 대기열에 할당되는 메모리의 양과 최대 대기열 수를 정의해야 하며, 이때 각각의 대기열은 이 메모리로부터 실행할 수 있는 일정한 메모리를 얻습니다. 수동 WLM 구성은 워크로드의 변화에 따라 수정되지 않으며, 적절한 운영을 위해 쿼리의 리소스 사용률에 대한 면밀한 정보가 필요합니다. Amazon Redshift의 자동 WLM은 대기열에 대한 메모리 사용률 또는 동시성을 정의하도록 요구하지 않습니다. 그 대신 처리량에 맞는 최적화를 위해 동시성을 동적으로 조정합니다. 선택 사항인 쿼리 우선 순위를 정의하면 비즈니스 우선 순위에 따라 쿼리에 우선 리소스 할당을 제공할 수 있습니다. 또한, 자동 WLM은 워크로드 관리를 위한 강력한 도구를 제공합니다. 쿼리 우선 순위 기능은 사용자가 워크로드에 우선 순위를 정의해 Amazon Redshift에서 해당 워크로드가 우선 처리되도록 하고 일정한 쿼리 성능을 위해 사용량이 많은 시간에 해당 워크로드에 더 많은 리소스를 할당할 수도 있습니다. 쿼리 모니터링 규칙은 소모가 많은 시스템 리소스에서 런어웨이 또는 높은 비용의 쿼리를 감지하고 방지하는 등 원치 않는 상황을 관리할 수 있는 수단을 제공합니다. 적응형 동시성 성능 개선을 지원하는 자동 WLM에서 핵심적인 부분은 적절한 메모리 할당, 대기열 사이에서 메모리의 정적 파티셔닝 제거, 처리량 개선입니다.

Amazon Redshift Advisor는 클러스터에 대한 워크로드 및 사용량 지표를 분석하여 성능을 개선하고 비용을 최적화하도록 사용자 지정된 권장 사항을 개발합니다. Amazon Redshift 콘솔에 로그인하여 Advisor 권장 사항을 확인하세요. 자세한 내용은 Amazon Redshift Advisor 권장 사항을 활용하여 작업을 참조하세요.

Q: Amazon Redshift를 시작하려면 어떻게 해야 하나요?

AWS 관리 콘솔에서 클릭 몇 번으로 데이터 쿼리를 시작할 수 있습니다. 사전 로드된 샘플 데이터 집합(벤치마크 데이터 집합 TPC-H, TPC-DS 등) 및 기타 샘플 쿼리를 활용해 분석을 즉시 시작할 수 있습니다. 데이터베이스, 스키마, 테이블을 생성하고 Amazon S3로부터 데이터를 로드하거나, Amazon Redshift 데이터 공유를 통해 데이터에 액세스하거나, Amazon Redshift가 프로비저닝한 기존 클러스터 스냅샷으로부터 복원할 수 있습니다. 또한 Amazon S3 데이터 레이크에서 Parquet나 ORC와 같은 개방형 형식의 데이터를 직접 쿼리하거나 Amazon Aurora, Amazon RDS PostgreSQL, MySQL와 같은 운영 데이터베이스에서 데이터를 쿼리할 수도 있습니다.

Amazon Redshift Serverless를 시작하려면 “Amazon Redshift Serverless 사용해 보기(Try Amazon Redshift Serverless)”를 선택하고 데이터 쿼리를 시작합니다. Amazon Redshift Serverless는 워크로드 증가에 맞춰 자동으로 조정됩니다.

Q: Amazon Redshift에 대해 자세히 알아보고 온보딩하는 데 도움을 받을 수 있나요?

A: 예. Amazon Redshift 전문가로부터 질문에 대한 답변을 듣고 지원을 받을 수 있습니다. AWS에 문의하면 영업일 기준 1일 이내에 회신하여 AWS가 귀사에 어떤 도움이 될 수 있는지 설명해 드립니다.

Q: Amazon Redshift 관리형 스토리지란 무엇인가요?

Amazon Redshift 관리형 스토리지는 서버리스 및 RA3 노드 유형과 함께 사용할 수 있으며, 이를 사용하면 컴퓨팅과 스토리지를 개별적으로 크기 조정하고 비용을 지불할 수 있으므로 컴퓨팅 요구 사항만을 기준으로 클러스터의 크기를 조정할 수 있습니다. 이 스토리지는 고성능 SSD 기반 로컬 스토리지를 자동으로 Tier-1 캐시로 사용하고, 데이터 블록 온도, 데이터 블록 에이지 및 워크로드 패턴과 같은 최적화 기술을 활용하여 고성능을 제공하면서, 특별한 조치를 요하지 않고 필요할 때 자동으로 스토리지를 Amazon S3로 확장합니다.

Q: Amazon Redshift의 관리형 스토리지를 사용하려면 어떻게 해야 합니까?

Amazon Redshift Dense Storage 또는 Dense Compute 노드를 이미 사용하고 있다면 탄력적 크기 조정을 사용해 기존 클러스터를 새로운 컴퓨팅 인스턴스인 RA3로 업그레이드할 수 있습니다. Amazon Redshift Serverless와 RA3 인스턴스 사용 클러스터는 자동으로 Redshift 관리형 스토리지를 사용해 데이터를 저장합니다. 이 기능을 사용하는 데 있어서, Amazon Redshift Serverless 또는 RA3 인스턴스를 사용하는 것 외에 다른 작업은 필요하지 않습니다.

Q: Amazon Redshift Spectrum이란 무엇입니까?

Amazon Redshift Spectrum은 데이터 로딩이나 ETL 없이도 Amazon S3의 데이터 레이크에 대해 쿼리를 실행할 수 있게 해주는 Amazon Redshift의 기능입니다. SQL 쿼리를 발행하면, 쿼리가 Amazon Redshift 엔드포인트로 전달되고 여기에서 쿼리 플랜을 생성하고 최적화합니다. Amazon Redshift는 로컬에 있는 데이터와 Amazon S3에 있는 데이터가 무엇인지 파악하고, 읽어와야 하는 S3 데이터 양을 최소화하기 위한 플랜을 생성하고, 공유 리소스 풀의 Amazon Redshift Spectrum 작업자에게 S3에서 데이터를 읽고 처리하도록 요청합니다.

Q: RA3 인스턴스 사용을 고려해야 할 경우는 언제입니까?

다음과 같은 경우에 RA3 노드 유형의 선택을 고려할 수 있습니다.

  • 스토리지와 별도로 컴퓨팅 크기를 조정하여 컴퓨팅 비용을 결제할 수 있는 유연성이 필요한 경우
  • 전체 데이터 중 일부를 쿼리하는 경우
  • 데이터 볼륨이 급격히 증가하거나 급격히 증가할 것으로 예상되는 경우
  • 성능 요구 사항만을 기준으로 클러스터의 크기를 결정할 수 있는 유연성을 원하는 경우

데이터의 규모가 계속 증가해 페타바이트 수준에 이르는 과정에서 Amazon Redshift 데이터 웨어하우스에 수집하는 데이터의 양도 증가합니다. 이 경우 모든 데이터를 경제적으로 분석할 수 있는 방법이 필요할 수 있습니다.

관리형 스토리지를 사용하는 새로운 Amazon Redshift RA3 인스턴스를 사용하면 성능 요구 사항에 따라 노드의 수를 선택할 수 있으며 사용한 관리형 스토리지의 비용만 지불하면 됩니다. 이는 스토리지 비용 증가 없이 날마다 처리하는 데이터 양에 따라 RA3 클러스터의 크기를 조정할 수 있는 유연성을 제공합니다. AWS Nitro System을 기반으로 관리형 스토리지를 사용하는 RA3 인스턴스는 핫 데이터에 고성능 SSD를 사용하고 콜드 데이터에는 Amazon S3를 사용하여 편리하고 경제적인 스토리지와 빠른 쿼리 성능을 제공합니다.

Q: Amazon Redshift와 Amazon RDS는 언제 사용하나요?

Amazon Redshift와 Amazon Relational Database Service(RDS)는 모두 클라우드에서 기존의 관계형 데이터베이스를 실행할 수 있는 것은 물론 데이터베이스 관리 업무를 덜어줄 수 있습니다. 고객은 주로 Amazon Redshift를 보고 및 분석에 사용하고, Amazon RDS 데이터베이스는 온라인 트랜잭션 처리(OLTP) 워크로드에 사용합니다. OLTP 워크로드는 특정 정보에 대한 빠른 쿼리를 필요로 하며 삽입, 업데이트, 삭제 같은 트랜잭션에 대한 지원은 Amazon RDS가 가장 잘 처리합니다. Amazon Redshift는 다중 노드의 규모 및 리소스를 활용하며 다양한 최적화 기능을 사용하여 대용량 데이터 집합에 대한 분석 및 보고 워크로드에 대해 기존 데이터베이스와 비교하여 훨씬 향상된 성능을 제공합니다. Amazon Redshift는 데이터 및 쿼리 복잡성이 증가하는 것에 대비하거나 보고 및 분석 처리로 인해 OLTP 워크로드 성능이 저하되는 것을 방지하는 우수한 확장 옵션을 제공합니다. 이제 새로운 Federated Query 기능을 사용하면 Amazon Redshift가 포함된 Aurora 데이터베이스 서비스 또는 Amazon RDS에서 데이터를 쉽게 쿼리할 수 있습니다.

Q: Amazon Redshift 또는 Redshift Spectrum과 Amazon EMR은 각각 언제 사용합니까?

Apache Spark, Hadoop, Presto 또는 Hbase 같은 빅 데이터 처리 프레임워크에서 사용자 지정 코드를 사용하여 매우 방대한 양의 데이터 세트를 처리 및 분석하는 경우, Amazon EMR을 사용해야 합니다. Amazon EMR에서는 클러스터의 구성과 클러스터에 설치하는 소프트웨어를 사용자가 모두 제어할 수 있습니다.

Amazon Redshift와 같은 데이터 웨어하우스는 다양한 유형의 분석을 사용하도록 설계되었습니다. 데이터 웨어하우스는 인벤토리, 금융 및 소매 판매 시스템 등 서로 다른 여러 소스에서 데이터를 가져오도록 설계되었습니다. 회사 전체에서 일관되고 정확한 보고를 지원하기 위해 데이터 웨어하우스는 고도로 정형화된 방식으로 데이터를 저장합니다. 이러한 구조는 데이터 일관성 규칙을 직접 데이터베이스 테이블에 구축합니다. Amazon Redshift는 대규모 정형 및 반정형 데이터에 대해 복잡한 쿼리를 수행하고 빠른 성능을 얻어야 하는 경우에 최적의 서비스입니다.

Redshift Spectrum 기능은 Amazon Redshift 및 S3에 저장된 데이터에 대해 쿼리를 수행하기에는 매우 적합하지만, 엔터프라이즈에서 Amazon EMR과 같은 처리 프레임워크를 사용하는 일반적인 유형의 사용 사례에는 적합하지 않습니다. Amazon EMR은 SQL 쿼리를 실행하는 것 이외에도 상당히 많은 작업을 수행합니다. Amazon EMR은 Spark, Hadoop, Presto 등과 같은 인기 있는 빅 데이터 처리 프레임워크의 최신 버전을 사용하여 완벽하게 사용자 지정 가능한 클러스터에서 방대한 규모의 데이터 세트를 처리하고 분석할 수 있는 관리형 서비스입니다. Amazon EMR을 사용하면 기계 학습, 그래프 분석, 데이터 변환, 스트리밍 데이터 및 코딩할 수 있는 거의 모든 작업 등 애플리케이션의 다양한 확장 데이터 처리 작업을 실행할 수 있습니다.

Redshift Spectrum을 EMR과 함께 사용할 수 있습니다. Redshift Spectrum은 테이블 정의를 저장할 때 Amazon EMR과 같은 접근 방식을 사용합니다. Redshift Spectrum은 Amazon EMR에서 데이터 및 테이블 정의를 저장할 때 사용하는 것과 같은 Apach Hive Metastore를 지원합니다. 이미 Amazon EMR을 사용 중이고 Hive Metastore를 보유하고 있다면, 이를 사용하도록 Amazon Redshift 클러스터를 구성하기만 하면 됩니다. 그러면 Amazon EMR 작업과 더불어 해당 데이터를 즉시 쿼리할 수 있습니다. 따라서 이미 EMR을 사용하여 대규모 데이터 스토어를 처리하고 있다면, Redshift Spectrum을 동시에 사용하여 Amazon EMR 작업을 방해하지 않고 해당 데이터를 쿼리할 수 있습니다.

쿼리 서비스, 데이터 웨어하우스 및 복잡한 데이터 처리 프레임워크 모두 각자의 자리가 있으며 서로 다른 용도로 사용됩니다. 작업에 적합한 도구를 선택하기만 하면 됩니다.

Q: Amazon Athena와 Amazon Redshift Spectrum은 각각 언제 사용하나요?

Amazon Athena는 표준 SQL을 사용해 Amazon S3에 저장된 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스입니다. Athena는 사용이 쉽습니다. S3에 저장된 데이터를 가리키고 스키마를 정의한 후 표준 SQL을 사용하여 쿼리를 시작하기만 하면 됩니다.

Redshift Spectrum은 Amazon Redshift의 한 기능입니다. 최고 성능의 엄격한 서비스 수준 계약(SLA)으로 자주 액세스되는 데이터를 분석해야 한다면 Amazon Redshift를 사용해야 합니다. Redshift Spectrum을 사용하면 Amazon Redshift 쿼리를 Amazon S3 데이터 레이크에서 덜 빈번하게 액세스되는 데이터로 확장할 수 있습니다. 이렇게 하면 자유롭게 원하는 장소에 원하는 형식으로 데이터를 저장하고 필요할 때 이를 처리할 수 있습니다.

Q: Amazon EC2에서 자체 MPP 데이터 웨어하우스 클러스터를 실행하는 대신에 Amazon Redshift를 사용해야 하는 이유는 무엇입니까?

Amazon Redshift는 데이터 웨어하우스 관리와 관련하여 시간 소모가 많은 다음과 같은 작업을 자동으로 처리합니다.
  • 설정: Amazon Redshift를 사용하면 간단하게 데이터 웨어하우스 클러스터를 만들고 스키마를 정의하며 데이터의 로드 및 쿼리를 시작할 수 있습니다. 프로비저닝, 구성 또는 패치를 관리할 필요가 없습니다.
  • 데이터 내구성: Amazon Redshift는 데이터 웨어하우스 클러스터 내에서 데이터를 복제하며, 99.999999999%의 내구성을 보장하도록 설계된 Amazon S3에 데이터를 지속적으로 백업합니다. Amazon Redshift는 각 드라이브의 데이터를 클러스터 내의 다른 노드로 미러링합니다. 드라이브가 실패하면, 쿼리는 Redshift가 복제본에서 드라이브를 다시 구축하는 동안 지연 시간이 약간 증가된 채로 쿼리가 계속 실행됩니다. 노드가 실패하는 경우 Amazon Redshift는 자동으로 새로운 노드를 프로비저닝하고 클러스터 내의 다른 드라이브 또는 Amazon S3에서 데이터 복구를 시작합니다. 또한 가장 빈번하게 쿼리되는 데이터 복구를 우선 처리하므로 가장 빈번하게 실행되는 쿼리를 신속하게 사용할 수 있게 됩니다.
  • 규모 조정: 용량 및 성능 변경이 필요한 경우 단일 API를 호출하거나 AWS Management Console에서 몇 번 클릭하여 Amazon Redshift 데이터 웨어하우스 클러스터에 노드를 추가하거나 삭제할 수 있습니다. Amazon Redshift에서 스케줄러 기능을 사용하여 규모 및 크기 조정 작업을 예약할 수도 있습니다.
  • 자동 업데이트 및 패치 적용: Amazon Redshift에서는 데이터 웨어하우스에 자동으로 업그레이드 및 패치를 적용하므로 애플리케이션 관리가 아니라 애플리케이션 자체에 더 집중할 수 있습니다.
  • 엑사바이트 규모의 쿼리 기능: Amazon Redshift Spectrum을 사용하면 Amazon S3에 있는 엑사바이트 규모의 데이터에 대해 쿼리를 수행할 수 있습니다. 로딩이나 ETL은 필요가 없습니다. Amazon Redshift에 전혀 데이터를 저장하지 않더라도 여전히 Redshift Spectrum을 사용하여 Amazon S3에 있는 엑사바이트 규모의 데이터 집합을 쿼리할 수 있습니다.

Q: Amazon Redshift 데이터 웨어하우스 클러스터를 만들고 액세스하려면 어떻게 해야 합니까?

AWS 관리 콘솔 또는 Amazon Redshift API를 사용하여 Amazon Redshift 데이터 웨어하우스 클러스터를 손쉽게 만들 수 있습니다. 단일 노드의 160GB 데이터 웨어하우스로 시작하고 AWS 콘솔에서 클릭 몇 번이나 단일 API 호출을 사용하여 페타바이트 이상까지 확장할 수 있습니다.

평가 또는 개발/테스트 워크로드에 가장 적합한 단일 노드 구성을 사용하면 Amazon Redshift를 신속하고 비용 효율적으로 시작할 수 있고 필요에 따라 다중 노드 구성으로 확장할 수 있습니다. Redshift 데이터 웨어하우스 클러스터는 노드 유형에 따라 1~128개의 컴퓨팅 노드를 포함할 수 있습니다. 최신 세대 노드 유형인 RA3의 경우 최소 노드 수는 2개입니다. 자세한 내용은 설명서를 참조하세요.

다중 노드 구성에는 클라이언트 연결을 관리하고 쿼리를 수신하는 리더 노드와 데이터를 저장하고 쿼리 및 계산을 수행하는 2개의 컴퓨팅 노드가 필요합니다. 컴퓨팅 노드와 크기가 동일한 리더 노드는 자동적으로 프로비저닝되며 요금은 부과되지 않습니다.

기본 가용 영역(선택), 노드 수, 노드 유형, 프라이머리 이름 및 암호, 보안 그룹, 백업 보존 기간의 기본 설정 및 기타 시스템 설정을 지정하기만 하면 됩니다. 사용자가 원하는 구성을 선택하면 Amazon Redshift가 필요한 리소스를 프로비저닝하고 데이터 웨어하우스 클러스터를 설정합니다.

데이터 웨어하우스 클러스터를 사용할 수 있게 되면 AWS 관리 콘솔 또는 Redshift API를 사용하여 해당 엔드포인트 및 JDBC 및 ODBC 연결 스트링을 검색할 수 있습니다. 그런 다음 선호하는 데이터베이스 도구, 프로그래밍 언어 또는 비즈니스 인텔리전스(BI) 도구에 이 연결 스트링을 사용할 수 있습니다. 실행 중인 데이터 웨어하우스 클러스터에 대한 네트워크 요청을 승인해야 합니다. 자세한 설명은 시작 안내서를 참조하세요

Q: Amazon Redshift Spatial을 사용해야 하는 이유는 무엇인가요?

Amazon Redshift Spatial은 데이터에 대한 풍부한 인사이트를 위해 위치 기반 분석을 제공합니다. 이 기능은 의사 결정을 위한 분석을 제공하기 위해 공간 및 비즈니스 데이터를 매끄럽게 통합합니다. Amazon Redshift는 2019년 11월에 다형 데이터 형식인 GEOMETRY와 여러 가지 핵심적인 SQL 공간 함수를 포함하여 네이티브 공간 데이터 처리 지원 기능을 출시했습니다. AWS는 이제 GEOGRAPHY 데이터 형식을 지원하며, SQL 공간 함수 라이브러리는 80개로 증가했습니다. AWS는 형상 파일, GeoJSON, WKT, WKB, eWKT, eWKB를 비롯한 일반적인 공간 데이터 형식 및 표준을 지원합니다. 자세히 알아보려면 설명서 페이지나 Amazon Redshift Spatial 자습서 페이지를 방문하세요.

Q: 콜드 쿼리 성능 향상이란 무엇이고, Amazon Redshift는 콜드 쿼리 성능의 향상을 위해 무엇을 하나요?

Amazon Redshift는 컴파일이 필요한 경우 쿼리를 최대 2배 빠르게 처리할 수 있습니다. 이와 같은 개선 조치를 통해 새 Redshift 클러스터를 생성할 때, 기존 클러스터에 새 워크로드를 온보딩할 때 또는 기존 클러스터의 소프트웨어 업데이트 이후에 더 나아진 쿼리 성능을 누릴 수 있습니다. 이처럼 개선된 쿼리 성능은 추가 비용 없이 제공되며, 클러스터에서 이를 활성화하기 위해 사용자 측에서 다른 작업을 하지 않아도 됩니다.

콜드 쿼리 성능 향상을 통해 쿼리 컴파일은 클러스터 리더 노드의 컴퓨팅 리소스를 넘어 서버리스 컴파일 서비스로 확장됩니다. Amazon Redshift는 미션 크리티컬 쿼리가 Amazon Redshift에 제출될 때 컴파일된 객체를 저장할 무제한 캐시를 지원하여 캐시 적중률을 99.60%에서 99.95%로 높입니다.

쿼리를 Amazon Redshift로 보내면 쿼리 실행 엔진이 쿼리를 기계어로 컴파일하여 클러스터 노드에 배포합니다. 컴파일된 코드는 인터프리터를 사용할 때 뒤따르는 오버헤드가 없기 때문에 실행 속도가 더 빠릅니다. 코드 캐시가 없는 새 클러스터 또는 기존 클러스터를 최신 릴리스로 업그레이드한 뒤에는 코드 캐시를 플러시하며 쿼리를 반드시 컴파일해야 합니다. 이에 따라 쿼리의 지연 시간이 달라질 수 있으므로 일부 워크로드의 요구 사항에 부합하지 않을 가능성이 있습니다. 이번 업데이트에서는 무제한 캐시를 제공하여 코드를 컴파일할 필요성을 최소한으로 줄이고, 컴파일해야 하는 경우에는 확장형 컴파일 팜이 코드를 동시에 컴파일하여 워크로드 처리 속도를 빠르게 합니다. 워크로드 속도 향상 정도는 워크로드의 복잡성과 동시성에 좌우됩니다. 코드 컴파일에 관해 자세히 알아보려면 데이터베이스 개발자 안내서의 쿼리 처리 섹션을 참조하세요.

서버리스

Q: Amazon Redshift Serverless(평가판)란 무엇인가요?

Amazon Redshift Serverless(평가판)는 Amazon Redshift의 서버리스 옵션으로, 데이터 웨어하우스 인프라를 설정하고 관리할 필요 없이 몇 초 안에 분석을 쉽게 실행하고 크기 조정할 수 있습니다. Redshift Serverless를 사용하면 데이터 분석가, 개발자, 비즈니스 전문가, 데이터 사이언티스트를 비롯한 모든 사용자가 데이터 웨어하우스에서 데이터를 단순히 로드하고 쿼리하는 방법으로 데이터에서 인사이트를 얻을 수 있습니다.

Q: Amazon Redshift Serverless(평가판)를 시작하려면 어떻게 해야 하나요?

AWS 관리 콘솔에서 클릭 몇 번으로 “Amazon Redshift Serverless 구성”을 선택해 데이터 쿼리를 시작할 수 있습니다. 샘플 쿼리와 함께 데이터, 센서스(census) 데이터, 벤치마크 데이터 집합과 같은 사전 로드된 샘플 데이터 집합을 활용하면 분석을 바로 시작할 수 있습니다. 데이터베이스, 스키마, 테이블을 생성하고 Amazon S3로부터 데이터를 로드하거나, Amazon Redshift 데이터 공유를 통해 데이터에 액세스하거나, Redshift가 프로비저닝한 기존 클러스터 스냅샷으로부터 복원할 수 있습니다. 또한 Amazon S3 데이터 레이크에서 Parquet나 ORC와 같은 개방형 형식의 데이터를 직접 쿼리하거나 Amazon Aurora, Amazon RDS PostgreSQL, MySQL과 같은 운영 데이터베이스에서 데이터를 쿼리할 수도 있습니다.

Q: Amazon Redshift Serverless(평가판)는 어떤 기능을 제공하나요?

Amazon Redshift Serverless는 다음과 같은 다양한 이점을 제공합니다.

  • 프로비저닝 및 클러스터 관리 없이 신속히 인사이트 제공.
  • 리소스 과다 프로비저닝 없이 워크로드 수요에 따른 지능형 자동 크기 조정.
  • 크기 조정 및 버전 업데이트를 위한 지속적인 서비스 가용성.
  • 데이터베이스 튜닝 필요 없이, 데이터 웨어하우스에 로드된 데이터, Amazon S3 데이터 레이크의 개방형 형식 데이터, 운영 데이터베이스의 데이터에 대한 빠르고 즉각적인 쿼리 성능.
  • Amazon Redshift의 다양한 SQL 분석, 내구성, 트랜잭션 보장.
  • 사용한 용량에 대해서만 비용을 지불하는 경제성과 데이터 웨어하우스의 복잡성 감소.

Q: Amazon Redshift Serverless(평가판) 사용 시 어떤 이점이 있나요? 

데이터 웨어하우스 관리 경험이 없어도 클러스터를 설정, 구성, 관리하거나 웨어하우스를 튜닝하는 데 대해 걱정할 필요가 없습니다. 데이터에서 의미 있는 인사이트를 도출하거나 데이터를 통해 핵심적인 비즈니스 결과를 제공하는 데 집중할 수 있습니다. 비용을 관리 가능하게 유지하면서 사용한 부분에 대해서만 지불하면 됩니다. 사용자는 Amazon Redshift의 최고의 성능, 다양한 SQL 기능, 데이터 레이크 및 운영 데이터 웨어하우스와의 긴밀한 통합, 내장된 예측 분석 및 데이터 공유 기능에서 이점을 얻을 수 있습니다. 데이터 웨어하우스의 미세 제어가 필요하다면 Redshift 클러스터를 프로비저닝할 수 있습니다.

Q: Amazon Redshift Serverless(평가판)은 다른 AWS 서비스에서 어떻게 작동하나요?

복잡한 조인, Amazon S3 데이터 레이크 및 운영 데이터베이스의 데이터에 대한 직접 쿼리, 구체화된 보기, 저장 프로시저, 반정형 데이터 지원, 기계 학습과 같은 Amazon Redshift의 다양한 분석 기능과 전체적인 고성능을 계속해서 이용할 수 있습니다. Amazon Redshift와 통합된 모든 관련 서비스(Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake formation, AWS Glue 등)는 Amazon Redshift Serverless에서도 계속 작동됩니다.

Q: Amazon Redshift Serverless(평가판)로 처리할 수 있는 사용 사례에는 어떤 것이 있나요?

모든 분석 사용 사례를 변함없이 실행할 수 있습니다. 간단한 시작 워크플로, 자동 크기 조정, 사용량에 따른 비용 지불을 제공하는 Amazon Redshift Serverless는 계속 변화하고 예측할 수 없는 컴퓨팅 수요를 가진 임시적 비즈니스 분석 워크로드와 간헐적이거나 산발적인 워크로드를 빠르게 시작할 필요가 있는 개발 및 테스트 환경을 실행하는 데 있어 이전보다 더욱 편리하고 저렴해졌습니다.

Q: Amazon Athena와 Amazon Redshift Serverless는 어떻게 다른가요?

Amazon Athena와 Amazon Redshift는 모두 서버리스 서비스이지만 그 필요와 사용 사례가 서로 다릅니다. 어떤 규모에서든 높은 성능을 요하는 복잡한 BI 및 분석 워크로드를 위해 최고의 가격 대비 성능이 필요하다면 Amazon Redshift와 같은 데이터 웨어하우스가 최선의 선택입니다. Amazon Redshift는 또한 Amazon S3에 저장된 데이터를 쿼리할 수 있는 기능과 데이터 웨어하우스에 저장된 데이터를 결합할 수 있는 기능을 제공합니다. 비교하자면 Athena는 데이터 수집 및 형식 지정에 대한 걱정이 없는 데이터 스토어의 대화형 분석에 더 적합합니다. Athena 분석은 스토리지와 분리되어 있기 때문에 Athena에서 분석한 데이터에 대한 분석 및 데이터 처리를 더욱 향상시키기 위해 Spark, Flink, Kafka 등의 다른 도구와 서비스를 사용할 수 있는 유연성을 제공합니다.

데이터 공유

Q: Amazon Redshift 데이터 공유란 무엇인가요?

Amazon Redshift 데이터 공유를 사용하면 Amazon Redshift에서 라이브 데이터를 읽기용으로 안전하고 쉽게 AWS 계정 내부 및 사이의 다른 Redshift 클러스터와 공유하고 데이터 레이크를 사용하는 AWS 분석 서비스와 공유할 수 있습니다. 액세스 권한이 있으면 데이터 공유를 통해 데이터 복사 및 데이터 이동과 관련된 복잡한 과정이나 지연 없이 모든 Redshift 클러스터의 라이브 데이터를 즉시 쿼리할 수 있습니다. Amazon Redshift를 통해 조직, 계정, 심지어 리전 전체에서 라이브 데이터를 공유하고 쿼리할 수 있습니다.

Q: 데이터 공유에 대한 사용 사례에는 어떤 것이 있나요?

주요한 사용 사례는 다음과 같습니다.

  • 읽기 워크로드 격리를 제공하고 요금을 최적화하기 위해 중앙 ETL 클러스터가 데이터를 다수의 BI/분석 클러스터와 공유합니다.
  • 데이터 공급자가 데이터를 외부 소비자와 공유합니다.
  • 고객, 제품과 같은 일반적인 데이터 집합을 다른 비즈니스 그룹 간에 공유하고 광범위한 분석 및 데이터 과학을 위해 협업합니다.
  • 관리를 간소화하기 위해 데이터 웨어하우스를 분산합니다.
  • 개발, 테스트, 프로덕션 환경 간에 데이터를 공유합니다.
  • 다른 AWS 분석 서비스의 Redshift 데이터에 액세스합니다.

Q: Amazon Redshift에서 교차 데이터베이스 쿼리란 무엇인가요?

교차 데이터베이스 쿼리를 사용하면 연결된 데이터베이스에 관계 없이 액세스 권한이 있는 모든 Redshift 데이터베이스에서 데이터를 원활하게 쿼리하고 조인할 수 있습니다. 여기에는 클러스터의 로컬 데이터베이스와 함께 원격 클러스터에서 사용 가능한 공유 데이터 세트가 포함될 수 있습니다. 교차 데이터베이스 쿼리는 멀티 테넌트 구성을 지원하기 위해 별도의 데이터베이스로 데이터를 구성하는 유연성을 제공합니다.

Q: AWS Data Exchange for Amazon Redshift는 무엇인가요?

AWS Data Exchange for Amazon Redshift를 사용하여 AWS Data Exchange에서 서드 파티 데이터를 찾아서 구독하면 Redshift 데이터 웨어하우스에서 수분 내에 해당 데이터를 쿼리할 수 있습니다. AWS Data Exchange를 통해 Amazon Redshift에서 자신의 데이터에 대한 액세스 권한을 쉽게 부여할 수도 있습니다. 고객이 자신의 데이터를 구독하면 자동으로 액세스 권한이 부여되고, 구독이 종료되면 자동으로 구독이 해지됩니다. 인보이스는 자동으로 생성되고, 대금이 자동으로 징수되어 AWS를 통해 지급됩니다. 이 기능은 고객이 서드 파티 데이터를 사용하여 애플리케이션을 빠르게 쿼리, 분석, 구축할 수 있도록 합니다.

Q: AWS Data Exchange의 주된 사용자는 누구인가요?

AWS Data Exchange를 이용하면 AWS 고객이 AWS에서 서드 파티 데이터를 안전하고 쉽게 교환하고 사용할 수 있습니다. 거의 모든 산업에서 데이터 분석가, 제품 관리자, 포트폴리오 관리자, 데이터 사이언티스트, 금융시장 분석가, 임상시험 기술자, 개발자는 분석을 실시하고, ML을 훈련하고, 데이터에 기반한 의사결정을 내리기 위해 더 많은 데이터에 접근하길 원합니다. 그러나 다수의 공급자로부터 데이터를 검색할 수 있는 하나의 장소가 없고 공급자가 데이터를 제공하는 방식에 일관성이 없기 때문에 이들은 배송된물리적인 미디어, FTP 자격 증명, 맞춤형 API 호출 등을 이용하는 현실입니다. 반대로 많은 조직은 자신의 데이터를 연구나 상업적 목적으로 제공하려 하지만 데이터 전달, 자격 부여, 결제 기술을 구축하고 유지하기가 어렵고 비용이 많이 듭니다. 이러한 점은 가치 있는 데이터의 공급을 더욱 저해하고 있습니다.

Q: AWS Data Exchange는 어떤 AWS 리전에서 사용할 수 있나요?

AWS Data Exchange에는 공급자가 제공한 단일한 제품 카탈로그가 있습니다. 이 카탈로그는 전 세계에서 이용할 수 있으며, 사용하는 리전에 관계없이 이 카탈로그를 볼 수 있습니다. 제품의 기반이 되는 리소스(데이터 집합, 개정, 자산)는 특정 AWS 리전에서 고객이 프로그래밍 방식이나 AWS Data Exchange 콘솔을 통해 관리하는 리전별 리소스입니다. 현재 AWS Data Exchange를 사용할 수 있는 AWS 리전 목록은 AWS 리전별 가용성 표를 참조하세요.

Q: AWS Data Exchange와 Registry of Open Data on AWS의 차이점은 무엇인가요?

AWS Data Exchange와 Registry of Open Data on AWS 사이에는 5가지의 주요한 차이점이 있습니다.

  • 첫째, AWS Data Exchange는 무료 및 유료 데이터 제품을 모두 지원하며, 해당되는 요금이 AWS 인보이스에 적용됩니다. Registry of Open Data on AWS는 큐레이팅을 거친 무료 및 공개 데이터 집합 목록을 이용할 수 있습니다. 
  • 둘째, AWS Data Exchange는 데이터 공급자가 자신의 제품을 게시할 때 설정한 약관을 설명한 데이터 구독 계약에 명시적으로 동의하도록 요구합니다. Registry of Open Data on AWS의 데이터에는 이용약관이 없습니다. 
  • 셋째, AWS Data Exchange의 데이터를 원하는 Amazon S3 위치에 복사하려면 반드시 AWS Data Exchange API를 사용해야 합니다. Registry of Open Data on AWS 데이터 집합은 S3 API를 통해 액세스합니다. 
  • 넷째, AWS Data Exchange에서는 데이터 공급자가 구독 활동을 상세히 설명한 일간, 주간, 월간 보고서를 액세스할 수 있습니다. Registry of Open Data on AWS에서는 데이터 사용 내역을 추적하기 위해 데이터 공급자가 자신의 로그를 분석해야 합니다. 
  • 마지막으로, AWS Data Exchange에서 데이터 공급자가 되려면 인증된 고객이 AWS Marketplace에서 데이터 공급자로 등록해야 무료 및 유료 제품을 등록할 자격이 주어집니다. 그러나 모든 고객은 GitHub를 통해 Registry of Open Data on AWS에 무료 데이터를 추가할 수 있으며, AWS의 AWS 공개 데이터 집합 프로그램에 지원하여 특정 공개 데이터 집합에 대한 스토리지 및 대역폭 비용을 후원받을 수 있습니다.

Q: Amazon Redshift 쿼리 편집기 V2는 무엇인가요?

Amazon Redshift 쿼리 편집기 v2는 Redshift 데이터 웨어하우스에서 쿼리를 작성하고 실행하는 데 사용할 수 있는 웹 기반 SQL 클라이언트 애플리케이션입니다. 차트를 사용해 쿼리 결과를 시각화할 수 있고 쿼리를 팀 구성원과 공유하여 협업할 수 있습니다. 쿼리 편집기 v2는 여러 데이터 집합, 외부 테이블, 보기, 저장 프로시저, 사용자 정의 함수를 검색하고 탐색하는 기능을 비롯해 여러 가지 기능을 제공합니다. 스키마, 테이블, 사용자 정의 함수를 생성할 수 있는 마법사도 제공합니다. 비주얼 마법사를 사용해 Amazon S3로부터 Amazon Redshift의 데이터를 로드할 수도 있습니다. 이는 저장된 쿼리의 관리와 협업을 간소화합니다. 클릭 한 번으로 결과를 시각화해 더욱 빠르게 인사이트를 얻을 수도 있습니다. 최근 평가판 릴리스에서는 데이터 분석가가 자신의 쿼리를 공유하여 코드/SQL 쿼리, 주석, 결과, 시각화를 임베딩할 수 있는 Query Doc라는 공용 인터페이스를 통해 협업할 수 있습니다.

Q: 쿼리 편집기 V2를 사용해야 할 이유가 있나요?

데이터 분석가, 데이터 사이언티스트 또는 데이터 엔지니어라면 이제 쿼리 편집기 V2를 사용해 웹 기반 인터페이스를 통해 스키마와 테이블을 탐색 및 생성하고, 데이터를 로드하며, SQL 쿼리와 저장 프로시저, UDF를 작성할 수 있습니다. 도구에서 나가지 않고 여기서 데이터의 시각적 분석을 수행할 수도 있습니다. 또, 장기 실행 쿼리나 일간 보고와 같은 간단한 보고 목적을 위한 쿼리를 예약할 수도 있습니다.

Q: 쿼리 편집기 v2에는 어떤 기능이 포함되어 있나요?

쿼리 편집기 V2에서 가능한 작업:

  • 스키마와 테이블을 시각적으로 생성하고, Amazon S3에서 데이터를 로드할 수 있습니다.
  • SQL 쿼리 작성을 위한 직관적인 편집기를 사용해 쿼리를 작성하고 더욱 빠르게 인사이트를 얻을 수 있습니다.
  • 결과 분석을 수행하고 JSON/CSV 형식으로 데스크톱에 다운로드할 수 있습니다.
  • 다양한 버전의 쿼리를 자동으로 관리할 수 있습니다.
  • 쿼리, 분석, 결과를 공유해 다른 사용자와 협업할 수 있습니다.
  • 브라우저를 닫아도 백그라운드에서 쿼리가 실행됩니다.

확장성 및 동시성

Q: Amazon Redshift 데이터 웨어하우스 클러스터의 크기 및 성능을 조정하려면 어떻게 해야 합니까?

쿼리 성능을 향상하거나 CPU, 메모리 또는 I/O 초과 사용률에 대응하려는 경우 AWS 관리 콘솔이나 ModifyCluster API를 통해 탄력적 크기 조정을 사용하여 데이터 웨어하우스 클러스터의 노드 수를 늘릴 수 있습니다. 데이터 웨어하우스 클러스터를 수정하는 경우 요청한 변경 사항이 즉시 적용됩니다. Redshift 데이터 웨어하우스 클러스터의 컴퓨팅 사용률, 스토리지 사용률 및 읽기/쓰기 트래픽에 대한 지표는 AWS 관리 콘솔 또는 Amazon CloudWatch API를 통해 무료로 확인할 수 있습니다. 또한, Amazon CloudWatch의 사용자 지정 지표 기능을 사용하여 사용자 정의 지표를 추가할 수 있습니다.

동시성 확장 기능을 사용하면 일관성 있게 빠른 쿼리 성능을 유지하면서 사실상 무제한으로 동시 사용자 및 동시 쿼리를 지원할 수 있습니다. 동시성 확장 기능을 활성화하면 Amazon Redshift는 클러스터의 쿼리 대기열이 증가할 경우 클러스터 용량을 자동으로 추가합니다.

Amazon Redshift Spectrum에서는 여러 Redshift 클러스터를 실행하여 Amazon S3에 있는 같은 데이터를 액세스할 수 있습니다. 서로 다른 클러스터를 다양한 사용 사례에 사용할 수 있습니다. 예를 들어 한 클러스터를 표준 보고에 사용하고 다른 클러스터를 데이터 과학 쿼리에 사용할 수 있습니다. 마케팅 팀에서는 운영 팀과 별개로 자체 클러스터를 사용할 수 있습니다. Redshift Spectrum은 쿼리 실행을 공유 리소스 풀의 여러 Redshift Spectrum 작업자에게 자동으로 분산하여 Amazon S3의 데이터를 읽고 처리하며, 결과를 Redshift 클러스터로 가져와서 나머지 작업을 처리합니다.

Q: 규모를 조정하는 동안 데이터 웨어하우스 클러스터를 사용할 수 있습니까?

경우에 따라 다릅니다. 동시성 확장 기능을 사용하면 동시성 확장 시 클러스터에서 읽기 및 쓰기를 완전히 사용할 수 있습니다. 탄력적 크기 조정을 사용할 경우에는 크기 조정 기간에 4~8분 동안 클러스터를 사용할 수 없습니다. 관리형 스토리지에서 Redshift RA3 스토리지 탄력성 기능을 통해 클러스터를 완전히 사용할 수 있으며, 관리형 스토리지와 컴퓨팅 노드 간에 데이터가 자동으로 이동합니다.

Q: 언제 동시성 확장을 사용하고, 언제 데이터 공유를 사용해야 하나요?

데이터 공유 및 동시성 확장은 보완 기능입니다. Amazon Redshift는 동시성 확장을 통해 단일 클러스터에서 하나 이상의 워크로드를 자동 조정하여 높은 동시성과 쿼리 급증을 처리할 수 있습니다. Amazon Redshift는 초 단위로 용량을 탄력적으로 자동 조정하여 사용자 활동의 급증을 처리하고 활동이 줄어들면 다시 축소합니다. 애플리케이션은 단일 애플리케이션 엔드포인트를 통해 Amazon Redshift와 계속 상호작용합니다. 데이터 공유를 통해서는 다중 클러스터, 다중 계정 배포로 다양한 워크로드에 맞게 크기를 조정할 수 있습니다. 이 기능을 사용하면 탈중앙화된 환경에서 워크로드 격리 및 청구 기능, 교차 그룹 협업을 활성화하여 내부 및 외부 이해 당사자에게 서비스 형태로 데이터를 제공할 수 있습니다. 동시성 확장은 데이터 공유 생성자 클러스터 및 소비자 클러스터 모두에서 활성화할 수 있습니다.

Q: Amazon Redshift 클러스터가 동시성이 높게 나타나는 상황에서 빠른 성능을 일관되게 제공할 수 있도록 리소스를 관리하려면 어떻게 해야 하나요?

일반적인 데이터 웨어하우스는 하루 동안 동시 쿼리 사용량의 변동폭이 매우 큽니다. 리소스를 최대 수요에 맞춰 프로비저닝하는 대신 필요한 기간 동안에만 추가하는 것이 좀 더 경제적인데, Amazon Redshift에서는 이를 사용자를 대신해 자동으로 처리합니다.

동시성 확장은 수천의 동시 쿼리가 있더라도 빠른 쿼리 성능을 일관되게 제공하는 Amazon Redshift의 새로운 기능입니다. Amazon Redshift는 이 기능을 통해 높은 수요를 처리하는 데 필요한 임시 용량을 자동으로 추가합니다. Amazon Redshift가 확장 클러스터에 쿼리를 자동으로 라우팅하면 이러한 쿼리는 몇 초 만에 프로비저닝되고 즉시 처리되기 시작합니다.

이 기능은 대부분의 고객이 무료로 사용할 수 있습니다. 각각의 Amazon Redshift 클러스터는 하루에 최대 1시간 분량의 동시성 확장 크레딧을 무료로 획득합니다. 이를 통해 분석 수요의 변동성이 심한 경우에도 월간 비용을 예측할 수 있습니다.

Q: 엘라스틱 크기 조정이란 무엇이며, 동시성 확장과는 어떻게 다릅니까?

탄력적 크기 조정은 쿼리 처리량을 관리하기 위해 단일 Redshift 클러스터에서 노드를 몇 분 내에 추가하거나 제거합니다. 예를 들어 하루의 특정 시간대 또는 월말 보고 업무를 위한 ETL 워크로드를 정시에 완료하려면 Amazon Redshift 리소스가 추가로 필요할 수 있습니다. 동시성 확장은 클러스터 리소스를 추가하여 전반적인 쿼리 동시성을 높입니다.

Q: 동시성 확장 클러스터에 직접 액세스할 수 있습니까?

아니요. 동시성 확장은 대규모로 확장 가능한 Amazon Redshift 리소스 풀로서, 고객은 직접 액세스할 수 없습니다.

데이터 통합 및 로딩

Q: 내 Amazon Redshift 데이터 웨어하우스로 데이터를 로드하려면 어떻게 해야 합니까?

Amazon S3, Amazon RDSAmazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline 및 Amazon EC2 또는 온프레미스의 모든 SSH 지원 호스트를 비롯하여 다양한 데이터 소스에서 Amazon Redshift로 데이터를 로드할 수 있습니다. Amazon Redshift는 데이터 웨어하우스 클러스터에 데이터를 수집할 수 있는 속도를 최대화하기 위해 각 컴퓨팅 노드에 데이터를 병렬로 로드합니다. 클라이언트는 ODBC 또는 JDBC를 사용하여 Amazon Redshift에 연결한 다음 'Insert' SQL 문을 사용하여 데이터를 삽입할 수 있습니다. 그러한 방법은 SQL Insert 문이 단일 리더 노드를 통해 로드하는 반면 각 컴퓨팅 노드에 데이터를 병렬로 로드하기 때문에 S3 또는 DynamoDB를 사용하는 것보다 더 느리게 처리될 수 있습니다. Amazon Redshift에 데이터를 로드하는 방법에 대한 자세한 내용은 시작 안내서를 참조하십시오.

Q: 기존 Amazon RDS, Amazon EMR, Amazon DynamoDB, Amazon EC2 데이터 소스에서 Amazon Redshift로 데이터를 로드하려면 어떻게 해야 합니까?

COPY 명령을 사용하여 Amazon EMR, Amazon DynamoDB 또는 모든 SSH 사용 호스트에서 Amazon Redshift로 직접 데이터를 병렬 로드할 수 있습니다. 또한, Amazon Redshift Spectrum에서는 간단한 INSERT INTO 명령을 통해 Amazon S3에서 클러스터로 데이터를 로드할 수 있습니다. 이를 통해 Parquet, ORC 등 다양한 형식의 데이터를 클러스터로 로드할 수 있습니다. 이러한 접근 방식을 사용하는 경우 Amazon S3에서 스캔된 데이터에 대한 Redshift Spectrum 요금이 발생합니다. 

AWS Data Pipeline은 안정적이고 내결함성 있는 고성능 솔루션을 제공하여 Amazon RDS부터 Redshift에 이르는 다양한 AWS 데이터 소스에서 데이터를 로드합니다. 데이터 소스와 원하는 데이터 변환을 지정한 다음 미리 작성된 가져오기 스크립트를 실행하여 데이터를 Amazon Redshift에 로드하는 데 AWS Data Pipeline을 사용할 수 있습니다. 또한, AWS Glue는 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL(Extract, Transform and Load) 서비스입니다. AWS 관리 콘솔에서 클릭 몇 번으로 AWS Glue ETL 작업을 생성하고 실행할 수 있습니다. 이뿐만 아니라 많은 ETL 기업에서 자사 도구와 함께 사용하도록 Amazon Redshift를 인증했으며 이러한 도구 중 다수는 무료 평가판으로 제공되어 데이터 로드를 시작하도록 지원합니다. 또한 이러한 기능 중 일부는 다양한 서드 파티 소스에서 Amazon Redshift로 데이터 파이프라인을 쉽게 검색하고 모니터링할 수 있도록 Redshift 콘솔과의 심도 있는 통합을 구현했습니다.

Q: Amazon Redshift에 처음 로드하는 데이터가 많습니다. 인터넷을 통해 전송하면 시간이 오래 걸릴 것입니다. 이 데이터를 로드하려면 어떻게 해야 하나요?

AWS Snowball을 사용하면 이동식 스토리지 디바이스를 사용하여 데이터를 Amazon S3로 전송할 수 있습니다. 또한, 네트워크 또는 데이터 센터와 AWS 간에 프라이빗 네트워크 연결을 설정하기 위해 AWS Direct Connect를 사용할 수 있습니다. 데이터를 전송하기 위해 1Gbit/초 또는 10Gbit/초 연결 포트를 선택할 수 있습니다.

보안

Q: Amazon Redshift는 어떻게 내 데이터를 안전하게 유지합니까?

Amazon Redshift는 기본 AWS IAM 통합, SSO(Single Sign-On)을 위한 아이덴티티 페더레이션, 다중 인증(MFA), 열 수준 액세스 제어, 행 수준 보안, Amazon Virtual Private Cloud(Amazon VPC)를 통해 업계 최고 수준의 보안을 지원하며, 기본 AWS KMS 통합을 제공하여 전송 중 데이터와 저장 데이터를 보호합니다. Amazon Redshift는 업계 표준 암호화 기술을 사용하여 전송 데이터와 저장 데이터를 암호화하여 보호합니다. 전송 중인 데이터를 보호하기 위해 Amazon Redshift는 클라이언트 애플리케이션 및 Redshift 데이터 웨어하우스 클러스터 간에 SSL 사용 연결을 지원합니다. 저장된 데이터를 보호하기 위해서 Amazon Redshift는 디스크에 데이터를 쓸 때 하드웨어 가속 AES-256을 사용하여 각 블록을 암호화합니다. 이 작업은 I/O 하위 시스템의 낮은 수준에서 수행되며 중간 쿼리 결과를 포함하여 디스크에 쓰는 모든 것을 암호화합니다. 블록은 있는 그대로 백업됩니다. 즉, 백업도 암호화됩니다. 기본적으로 Amazon Redshift가 키를 관리하지만, 사용자가 AWS Key Management Service를 통해 키를 관리하도록 선택할 수도 있습니다. 모든 Amazon Redshift 보안 기능은 추가 비용 없이 제공됩니다. Redshift Spectrum은 AWS Key Management Service(KMS)에서 관리하고 사용하는 사용자 계정의 기본 키를 통한 Amazon S3의 서버 측 암호화(SSE)를 지원합니다.

Q: Redshift는 열 수준 보안과 같은 세분화된 액세스 제어를 지원합니까?

예. Amazon Redshift는 역할 기반 액세스 제어를 지원합니다. 행 수준 액세스 제어를 통해 하나 이상의 역할을 사용자에게 할당하고 역할별로 시스템 및 객체 권한을 할당할 수 있습니다. 즉시 사용 가능한 시스템 역할(루트 사용자, dba, 운영자 및 보안 관리자)을 사용하거나 역할을 직접 만들 수 있습니다.

Q: Amazon Redshift에서 데이터 마스킹 또는 데이터 토큰화를 지원하나요?

AWS Lambda 사용자 정의 함수(UDF)를 통해 Amazon Redshift에서 AWS Lambda 함수를 UDF로 사용하고 Redshift SQL 쿼리에서 호출할 수 있습니다. 이 기능을 사용하면 SQL 쿼리용 사용자 지정 확장을 작성하여 다른 서비스 또는 타사 제품과 더 긴밀하게 통합할 수 있습니다. Protegrity와 같은 공급업체와 통합하여 외부 토큰화, 데이터 마스킹, 데이터 식별 또는 식별 취소를 수행하고, 쿼리 시간에 사용자의 권한 및 그룹에 따라 민감한 데이터를 보호하거나 보호 해제하는 Lambda UDF를 작성할 수 있습니다.

Q: Amazon Redshift는 Single Sign-On을 지원하나요?

예. Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate 또는 기타 SAML 호환 자격 증명 공급자와 같은 회사 자격 증명 공급자를 사용하려는 고객은 Single Sign-On을 제공하도록 Amazon Redshift를 구성할 수 있습니다.

Q: Amazon Redshift는 Microsoft Azure Active Directory에서 Single Sign-On을 어떻게 지원하나요?

Microsoft Azure AD(Active Directory) 자격 증명을 사용하여 Amazon Redshift 클러스터에 사인온할 수 있습니다. 따라서 Redshift에서 Azure Active Directory 자격 증명을 복제하지 않고도 Redshift에 사인온할 수 있습니다.

Q: Amazon Redshift는 Multi-Factor Authentication(MFA)을 지원합니까?

예. Amazon Redshift 클러스터에 인증할 때 추가적인 보안을 위해 Multi-Factor Authentication(MFA)을 사용할 수 있습니다.

Q: Amazon Virtual Private Cloud(Amazon VPC)에서 Amazon Redshift를 사용할 수 있습니까?

예. VPC 구성의 일부로 Amazon Redshift를 사용할 수 있습니다. Amazon VPC를 사용하면 사용자의 데이터 센터에서 운영하는 기존 네트워크와 매우 유사한 가상 네트워크 토폴로지를 정의할 수 있습니다. 따라서 Redshift 데이터 웨어하우스 클러스터에 액세스할 수 있는 사용자를 완벽하게 제어할 수 있습니다. Redshift Spectrum을 Amazon VPC의 일부인 Redshift 클러스터와 함께 사용할 수 있습니다.

Amazon Redshift는 VPC의 Redshift 클러스터에 연결하는 데 관리형 VPC 엔드포인트(AWS PrivateLink에서 지원)를 지원합니다. Amazon Redshift 관리형 엔드포인트를 사용하여 퍼블릭 IP를 사용하거나 인터넷으로 트래픽을 우회하지 않고도 온프레미스에서 실행 중인 같은 AWS 계정이나 다른 AWS 계정에 있는 다른 VPC의 클라이언트 애플리케이션에서 VPC 내 Redshift 데이터 웨어하우스에 비공개로 액세스할 수 있습니다.

Q: Amazon Redshift 컴퓨팅 노드에 직접 액세스할 수 있습니까?

Amazon Redshift 컴퓨팅 노드는 프라이빗 네트워크 공간에 있으며 데이터 웨어하우스 클러스터의 리더 노드에서만 액세스할 수 있습니다. 이를 통해 데이터에 대한 추가적인 보안 계층이 제공됩니다.

Q: Redshift는 데이터베이스에서 역할 기반 액세스 제어를 지원하나요? (사전 발표)

Amazon Redshift에서 곧 역할 기반 액세스 제어를 지원할 예정입니다.

가용성 및 내구성

Q: 노드 중 하나에 있는 드라이브에 장애가 발생하면 데이터 웨어하우스 클러스터 가용성 및 데이터 내구성에 어떤 일이 발생합니까?

Amazon Redshift는 이러한 경우에 드라이브 또는 노드 실패를 감지하고 클러스터 노드를 자동으로 교체합니다. Dense Compute(DC) 및 Dense Storage(DS2) 클러스터에서 데이터는 높은 데이터 내구성을 보장하기 위해 컴퓨팅 노드에 저장됩니다. 노드가 교체되면 데이터가 다른 노드의 미러 복사본으로 새로 고쳐집니다.

Amazon S3에 데이터가 저장되고 로컬 드라이브는 데이터 캐시로만 사용되기 때문에 RA3 클러스터와 Redshift 서버리스는 동일한 방식으로 영향을 받지 않습니다. 노드 교체가 발생하면 데이터를 Amazon S3에서 가져옵니다. Amazon S3는 99.9999%의 데이터 내구성을 보장합니다. 다중 노드 또는 전체 클러스터 장애가 발생하면 S3에서 최신 데이터 복사본을 이용할 수 있기 때문에 데이터 손실 없이 동일한 AZ 또는 다른 AZ에서 클러스터를 복구할 수 있습니다.

데이터 웨어하우스 클러스터는 교체 노드가 프로비저닝되고 데이터베이스에 추가될 때까지 쿼리 및 업데이트에 사용할 수 없습니다. Amazon Redshift는 교체 노드를 즉시 가용 상태로 만들고, 가장 자주 액세스되는 데이터를 RA3 및 서버리스의 Amazon S3로부터, 그리고 DS2 및 Amazon Dense Compute(DC2)의 미러로부터 로드합니다. 단일 노드 DC2 및 DS2 클러스터는 데이터 복제를 지원하지 않습니다. 드라이브 장애가 발생하는 경우 S3의 스냅샷에서 클러스터를 복원해야 합니다. 단일 노드 RA3.XLPLUS 클러스터는 AWS Support의 지원을 통해 S3에 저장된 데이터를 사용하여 데이터 손실 없이 재생성할 수 있습니다. 프로덕션에서는 가용성을 극대화하기 위해 최소 두 개의 노드를 사용하는 것이 좋습니다.

Q: 개별 노드 장애 발생 시 데이터 웨어하우스 클러스터 가용성 및 데이터 내구성에 어떤 일이 발생합니까?

Amazon Redshift는 자동으로 데이터 웨어하우스 클러스터에서 장애가 발생한 노드를 검색하고 해당 노드를 교체합니다. 데이터 웨어하우스 클러스터는 교체 노드가 프로비저닝되고 DB에 추가될 때까지 쿼리 및 업데이트에 사용할 수 없습니다. Amazon Redshift는 교체 노드를 즉각적으로 사용할 수 있게 만들고, 먼저 S3에서 가장 빈번하게 액세스되는 데이터를 로드하여 가능한 한 빨리 데이터 쿼리 작업을 재개할 수 있게 해 줍니다. 단일 노드 클러스터는 데이터 복제를 지원하지 않습니다. 드라이브 장애가 발생하는 경우 S3의 스냅샷에서 클러스터를 복원해야 합니다. 프로덕션에서는 최소 두 개의 노드를 사용하는 것이 좋습니다.

Q: 데이터 웨어하우스 클러스터의 가용 영역(AZ)이 중단되면 데이터 웨어하우스 클러스터 가용성 및 데이터 내구성에 어떤 일이 발생합니까?

Amazon Redshift 데이터 웨어하우스 클러스터의 가용 영역이 사용 불가능해지면 Amazon Redshift는 데이터 손실 또는 애플리케이션 변경 없이도 클러스터를 다른 AWS 가용 영역(AZ)으로 자동으로 이동합니다. 이를 활성화하려면 클러스터 구성 설정에서 재배치 기능을 활성화해야 합니다.

Q: Amazon Redshift는 다중 AZ 배포를 지원하나요?

현재 Amazon Redshift는 단일 리전 배포만 지원합니다. 재해 복구(DR) 구성을 설정하려면 클러스터에서 교차 리전 스냅샷 복사를 활성화합니다. 이렇게 하면 클러스터의 모든 스냅샷이 다른 AWS 리전으로 복제됩니다. DR 사건이 발생하면 복제 리전의 스냅샷을 복원하여 새 클러스터를 만들 수 있습니다. Amazon Redshift는 교차 리전 데이터 공유도 지원합니다. 이를 통해 고객 클러스터가 다른 리전의 생산자 클러스터에 있는 라이브 데이터에 액세스할 수 있습니다. 이 기능은 Amazon Redshift Serverless 및 RA3에서만 지원됩니다.

쿼리 및 분석

Q: Amazon Redshift와 Redshift Spectrum은 기본 비즈니스 인텔리전스 소프트웨어 패키지 및 ETL 도구와 호환되나요?

예. Amazon Redshift는 업계 표준 SQL을 사용하며 표준 JDBC 및 ODBC 드라이버를 사용하여 액세스할 수 있습니다. Amazon Redshift 사용자 지정 JDBC 및 ODBC 드라이버는 Redshift Console의 [클라이언트 연결(Connect Client)] 탭에서 다운로드할 수 있습니다. AWS에서는 주요 BI 및 ETL 공급업체와의 통합을 검증했으며, 이 중 상당수가 데이터 로드 및 분석을 시작하는 데 도움이 되도록 무료 평가판을 제공합니다. 또한, AWS Marketplace로 이동하여 Amazon Redshift와 연동되도록 설계된 솔루션을 몇 분 만에 배포 및 구성할 수 있습니다.

Amazon Redshift Spectrum은 모든 Amazon Redshift 클라이언트 도구를 지원합니다. 이러한 클라이언트 도구는 ODBC 또는 JDBC 연결을 사용하여 계속해서 Amazon Redshift 클러스터 엔드포인트에 연결할 수 있으므로, 변경할 필요가 없습니다.

Redshift 클러스터의 로컬 스토리지에 있는 테이블에 사용하는 것과 정확히 동일한 쿼리 구문 및 동일한 쿼리 기능을 사용하여 Redshift Spectrum에 있는 테이블에 액세스합니다. 외부 테이블은 이를 등록할 때 사용한 CREATE EXTERNAL SCHEMA 명령에 정의된 스키마 이름을 사용하여 참조됩니다.

Q: Amazon Redshift Spectrum은 어떤 데이터 형식 및 압축 형식을 지원하나요?

Amazon Redshift Spectrum은 현재 Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text 및 TSV를 비롯한 수많은 오픈 소스 데이터 형식을 지원합니다.

Amazon Redshift Spectrum에서는 현재 Gzip 및 Snappy 압축을 지원합니다.

Q: 내 로컬 스토리지에 있는 테이블 이름과 외부 테이블 이름이 같으면 어떻게 됩니까?

로컬 테이블에서와 마찬가지로 스키마 이름을 사용하여 원하는 테이블을 정확히 선택할 수 있습니다. 쿼리에 schema_name.table_name을 사용하면 됩니다.

Q: Hive Metastore를 사용하여 내 S3 데이터 레이크에 대한 메타데이터를 저장하고 있습니다. Redshift Spectrum을 사용할 수 있습니까?

예. CREATE EXTERNAL SCHEMA 명령은 Hive Metastore를 지원합니다. 현재 Hive Metastore에 대한 DDL은 지원하지 않습니다.

Q: 내 클러스터에 생성된 모든 외부 데이터베이스 테이블 목록을 받으려면 어떻게 해야 합니까?

시스템 테이블 SVV_EXTERNAL_TABLES를 쿼리하여 해당 정보를 얻을 수 있습니다.

Q: Redshift는 SQL에서 기계 학습을 사용하는 기능을 지원하나요?

예. Amazon Redshift ML 기능을 통해 SQL 사용자는 친숙한 SQL 명령을 사용하여 기계 학습(ML) 모델을 생성하고 훈련하며 배포할 수 있습니다. Amazon Redshift ML을 사용하면 완전관리형 ML 서비스인 Amazon SageMaker에서 Amazon Redshift의 데이터를 활용할 수 있습니다. Amazon Redshift는 비지도 학습(K-Means) 및 지도 학습(Autopilot, XGBoost, MLP 알고리즘)을 모두 지원합니다. 또한 AWS Language AI 서비스를 사용하여 사전 구축된 Lamda UDF 함수로 SQL 쿼리의 텍스트 필드를 변환, 수정 및 분석할 수 있습니다. 블로그 게시물을 참조하세요.

Q: Amazon Redshift는 데이터를 쿼리하는 API를 제공하나요?

Amazon Redshift가 제공하는 데이터 API를 사용하여 모든 유형의 클라우드 네이티브 및 컨테이너화된 기존 서버리스 웹 서비스 기반 애플리케이션 및 이벤트 기반 애플리케이션에서 Amazon Redshift의 데이터에 원활하게 액세스할 수 있습니다. 데이터 API를 사용하면 드라이버를 구성하고 데이터베이스 연결을 관리할 필요가 없기 때문에 Amazon Redshift에 대한 액세스가 간소화됩니다. 대신, 데이터 API에서 제공하는 보안 API 엔드포인트를 호출하기만 하면 Amazon Redshift 클러스터에 대해 SQL 명령을 실행할 수 있습니다. 데이터베이스 연결 관리와 데이터 버퍼링은 데이터 API에서 처리합니다. 데이터 API는 비동기식이므로, 나중에 결과를 검색할 수 있습니다. 쿼리 결과는 24시간 동안 저장됩니다.

Q: Amazon Redshift 데이터 API에서 어떤 유형의 자격 증명을 사용할 수 있나요?

데이터 API는 IAM 자격 증명 및 AWS Secrets Manager의 보안 암호 키 사용 모두를 지원합니다. 데이터 API는 AWS Identity and Access Management(IAM) 자격 증명을 연동하므로, API 호출에서 데이터베이스 자격 증명을 전달하지 않고도 Okta 또는 Azure Active Directory와 같은 자격 증명 공급자나 Secrets Manager에 저장된 데이터베이스 자격 증명을 사용할 수 있습니다.

Q: AWS CLI에서 Amazon Redshift 데이터 API를 사용할 수 있나요?

예. AWS CLI에서 aws redshift-data 명령줄 옵션을 사용하여 데이터 API를 사용할 수 있습니다.

Q: Redshift 데이터 API는 다른 AWS 서비스와 통합되나요?

AWS Lambda, AWS Cloud9, AWS AppSync, Amazon EventBridge와 같은 다른 서비스에서도 데이터 API를 사용할 수 있습니다.

Q: Amazon Redshift 데이터 API 사용에 대한 요금을 별도로 내야 하나요?

아니요. 데이터 API 사용에 대한 별도의 요금은 없습니다.

백업 및 복원

Q: Amazon Redshift는 내 데이터를 어떻게 백업합니까? 백업에서 클러스터를 복원하려면 어떻게 해야 합니까?

Amazon Redshift RA3 클러스터와 Amazon Redshift Serverless는 Redshift 관리형 스토리지를 사용하여 가용한 데이터의 최신 복사본을 항시 유지합니다. DS2 및 DC2 클러스터는 장애 발생 시 최신 복사본을 이용할 수 있도록 클러스터의 데이터를 미러링합니다. 백업은 모든 Redshift 클러스터 유형에서 자동으로 생성되어 24시간 보관되며, 지난 24시간에 대한 서버리스 복구 지점이 제공됩니다.

무기한 보관할 수 있는 자체 백업을 생성할 수도 있습니다. 이러한 백업은 언제든 생성할 수 있으며, 장기 보관을 위해 Amazon Redshift 자동 백업 또는 Amazon Redshift Serverless 복구 지점을 사용자 백업으로 변환할 수 있습니다.

또한, Amazon Redshift는 재해 복구를 위해 스냅샷 또는 복구 지점을 다른 리전의 Amazon S3에 비동기적으로 복제할 수 있습니다.

DS2 또는 DC2 클러스터에서 무료 백업 스토리지는 데이터 웨어하우스 클러스터의 노드 전체 스토리지 크기로 제한되며 활성 데이터 웨어하우스 클러스터에만 적용됩니다.

예를 들어, 총 8TB의 데이터 웨어하우스 스토리지가 있는 경우 추가 요금 없이 최대 8TB의 백업 스토리지가 제공됩니다. 백업 보존 기간을 1일보다 길게 설정하려는 경우 AWS 관리 콘솔 또는 Amazon Redshift API를 사용하여 해당 작업을 수행할 수 있습니다. 자동 스냅샷에 대한 자세한 내용은 Amazon Redshift 관리 가이드를 참조하세요.

Amazon Redshift는 변경된 데이터만 백업하므로 대부분 스냅샷은 적은 양의 무료 백업 스토리지만 사용합니다. 백업을 복원해야 하는 경우, 백업 보존 기간 내 모든 자동 백업에 액세스할 수 있습니다. 복원할 백업을 선택하면 새로운 데이터 웨어하우스 클러스터가 프로비저닝되고 데이터가 해당 데이터 웨어하우스 클러스터로 복구됩니다.

Q: 자동 백업 및 스냅샷의 보존 기간을 관리하려면 어떻게 해야 합니까?

AWS Management Console 또는 ModifyCluster API를 사용하여 RetentionPeriod 파라미터를 수정하면 자동 백업 보존 기간을 관리할 수 있습니다. 자동 백업을 완전히 비활성화하려는 경우 보존 기간을 0으로 설정하면 됩니다(권장하지 않음).

Q: 데이터 웨어하우스 클러스터를 삭제하는 경우 백업은 어떻게 됩니까?

데이터 웨어하우스 클러스터를 삭제할 때, 최종 스냅샷을 생성할지를 삭제 시 지정할 수 있습니다. 이렇게 하면 나중에 삭제된 데이터 웨어하우스 클러스터를 복원할 수 있습니다. 이전에 생성한 데이터 웨어하우스 클러스터의 모든 수동 스냅샷은 삭제하도록 선택하지 않는 한 보존되며 표준 Amazon S3 요금이 청구됩니다.

모니터링 및 유지관리

Q: Amazon Redshift 데이터 웨어하우스 클러스터의 성능을 모니터링하려면 어떻게 해야 합니까?

Amazon Redshift 데이터 웨어하우스 클러스터의 컴퓨팅 사용률, 스토리지 사용률 및 읽기/쓰기 트래픽에 대한 지표는 AWS Management Console 또는 Amazon CloudWatch API를 통해 무료로 확인할 수 있습니다. 또한, Amazon CloudWatch의 사용자 지정 지표 기능을 사용하여 추가적인 사용자 정의 지표를 추가할 수 있습니다. AWS Management Console에서는 모든 클러스터의 상태와 성능을 모니터링할 수 있는 모니터링 대시보드를 제공합니다. Amazon Redshift는 AWS Management Console을 통해 쿼리 및 클러스터 성능 정보도 제공합니다. 이 정보를 사용하면 가장 많은 시스템 리소스를 소비하고 있는 사용자 및 쿼리를 확인할 수 있고 쿼리 계획 및 실행 통계를 확인하여 성능 문제를 진단할 수 있습니다. 또한 각 컴퓨팅 노드의 리소스 사용량을 확인하여 모든 노드에서 데이터 및 쿼리의 로드가 균등하게 분배되고 있는지 확인할 수 있습니다.

Q: 유지 관리 기간이란 무엇입니까? 소프트웨어를 유지 관리하는 동안 데이터 웨어하우스 클러스터를 사용할 수 있습니까?

Amazon Redshift에서는 수정 사항, 개선 사항 및 새로운 기능을 클러스터에 적용하기 위해 정기적으로 유지 관리를 수행합니다. 프로그래밍 방식으로 또는 Redshift 콘솔을 사용하여 클러스터를 수정하여 예약된 유지 관리 기간을 변경할 수 있습니다. 이러한 유지 관리 기간에는 Amazon Redshift 클러스터가 일반 작업에 사용되지 않습니다. 리전별 유지 관리 기간과 일정에 대한 자세한 정보는 Amazon Redshift 관리 가이드에서 Maintenance Windows 섹션을 참조하십시오.

Amazon Redshift 요금에 대해 자세히 알아보십시오

요금 페이지로 이동하기
구축할 준비가 되셨습니까?
Amazon Redshift 시작하기
질문이 있으십니까?
문의하기