Amazon Web Services 한국 블로그

Amazon Redshift Serverless 미리보기 – 데이터 웨어하우스 인프라 관리할 필요 없이 대규모 분석 실행

기존 데이터 웨어하우스를 관리할 전문성 또는 시간이 부족한 개발자 또는 LOB 분석가 등의 사용자처럼 조직 내 새로운 고객들로 데이터 분석 사용이 확대되고 있습니다. 또한 일부 고객은 워크로드가 예측할 수 없는 급격한 증가로 가변적이어서 지속적인 용량 관리가 매우 어려울 수 있습니다.

Amazon Redshift를 사용하면 SQL을 사용하여 데이터 웨어하우스, 운영 데이터베이스 및 데이터 레이크에 걸쳐 구조화된 데이터와 반정형 데이터를 분석할 수 있습니다. 오늘은 규모에 상관 없이 고성능으로 클라우드에서 분석을 매우 쉽게 실행할 수 있는 새로운 기능인 미리 보기(Amazon Redshift 서버리스)를 소개하게 되어 기쁩니다. 데이터를 로드하고 쿼리를 시작하기만 하면 됩니다. 클러스터를 설정하고 관리할 필요가 없습니다. 예를 들어 데이터를 쿼리 또는 로드하는 동안과 같이 데이터 웨어하우스가 사용 중인 기간(초)에 대해 비용을 지불합니다. 데이터 웨어하우스가 유휴 상태일 때는 요금이 부과되지 않습니다.

Amazon Redshift 서버리스는 시작하기 위해 필요한 적합한 컴퓨팅 리소스를 자동으로 프로비저닝합니다. 동시 사용자와 신규 워크로드가 증가하면서 수요가 늘어남에 따라, 데이터 웨어하우스는 원활하게 자동으로 변경 사항에 맞춰 확장됩니다. 필요에 따라 기본 데이터 웨어하우스 크기를 지정하여 비용 및 애플리케이션별 SLA를 추가로 제어할 수 있습니다.

새로운 서버리스 옵션을 사용하면 Amazon Simple Storage Service(Amazon S3) 데이터 레이크와 Amazon AuroraAmazon Relational Database Service(RDS) 데이터베이스 등의 다른 AWS 데이터 스토어의 데이터를 계속해서 쿼리할 수 있습니다.

Amazon Redshift 서버리스는 가변 워크로드, 대기 시간이 있는 주기 워크로드, 급증하는 안정 상태 워크로드 등의 컴퓨팅 요구 사항을 예측하기 어려운 경우에 적합합니다. 이 접근 방식은 빠르게 시작해야 하는 애드혹 분석 요구와 테스트 및 개발 환경에도 적합합니다.

실제로 어떻게 작동하는지 알아보겠습니다.

Amazon Redshift 서버리스 사용
Amazon Redshift 콘솔로 이동하여 새로운 서버리스 옵션을 선택합니다. 처음으로 서버리스 엔드포인트를 설정하고 네트워킹과 보안을 구성했습니다.

기본값Amazon Virtual Private Cloud(VPC)과 그 기본 보안 그룹 내 모든 서브넷을 사용하는 기본값 설정임을 확인합니다. 데이터는 항상 암호화되며 AWS 소유 키 기본값을 사용합니다. 필요한 경우 모든 설정을 사용자 지정할 수 있습니다. 이제 또는 나중에 AWS Identity and Access Management(IAM) 역할을 연결하여 다른 AWS 리소스에 액세스할 수 있는 권한을 부여할 수 있습니다. 예를 들어 S3 버킷에서 데이터를 로드할 수 있습니다. 서버리스 엔드포인트 구성은 동일한 AWS 계정 및 리전에 있는 모든 서버리스 데이터 웨어하우스에서 공유됩니다.

콘솔 스크린샷.

데이터를 쿼리하기 위해 몇 달 전에 출시한 새로운 무료 웹 기반 도구인 Amazon Redshift 쿼리 편집기 V2를 사용합니다. 쿼리 편집기를 사용하면 몇 가지 샘플 데이터 집합에 빠르게 액세스하여 Amazon Redshift의 SQL 기능 (TPC-H, TPC-DStickit)을 쉽게 학습할 수 있습니다. 이벤트 티켓 판매 정보를 포함하는 데이터 집합입니다.

빠른 테스트를 위해 tickit 샘플 데이터 집합을 사용하므로 데이터를 로드할 필요가 없습니다. 판매량이 많은 날짜를 먼저 보도록 정렬된 날짜 별 티켓 판매량 목록을 가져오는 쿼리를 준비합니다.

SELECT caldate, sum(qtysold) as sumsold
FROM   tickit.sales, tickit.date
WHERE  sales.dateid = date.dateid 
GROUP BY caldate
ORDER BY sumsold DESC;

웹 기반 쿼리 편집기를 사용하면 서버리스 엔드포인트에 도달하기 위해 SQL 클라이언트를 구성하거나 네트워크 권한을 설정할 필요가 없습니다. 대신 SQL 쿼리를 작성하고 실행하기만 하면 됩니다.

콘솔 스크린샷.

저는 시각적인 사람입니다. 결과 테이블 우측의 [차트] 옵션을 활성화하고 막대형 차트를 선택합니다.

콘솔 스크린샷.

차트의 선명도에 만족하므로 이것을 이미지 파일로 내보냅니다. 이런 식으로 빠르게 공유하거나 보고서에 포함시킬 수 있습니다.

막대 차트

Amazon Redshift 서버리스는 반정형 데이터 지원과 같은 Amazon Redshift의 모든 풍부한 SQL 기능을 지원합니다. JDBC/ODBC 호환 도구 또는 Amazon Redshift 데이터 API를 사용하여 데이터를 쿼리할 수 있습니다. 데이터를 마이그레이션하기 위해 Amazon Redshift 프로비저닝 클러스터의 스냅샷을 생성하여 서버리스 클러스터로 복원할 수 있습니다. 그런 다음 새로운 서버리스 엔드포인트를 사용하도록 SQL 애플리케이션을 업데이트하기만 하면 됩니다.

가용성 및 요금
Amazon Redshift 서버리스미리보기로 미국 동부(버지니아 북부), 미국 서부(캘리포니아 북부, 오레곤), EU(프랑크푸르트, 아일랜드) 및 아시아 태평양(도쿄) AWS 리전에서 제공됩니다.

Amazon Redshift 서버리스를 사용하면 사용하는 컴퓨팅 및 스토리지에 대해 별도로 비용을 지불하면 됩니다. 컴퓨팅 용량은 Redshift 처리 단위(RPU)로 측정되며, 워크로드에 대하여 초당 청구하는 RPU 시간 단위로 비용을 지불합니다. 스토리지의 경우, Amazon Redshift 관리형 스토리지에 저장된 데이터 및 스냅샷에 사용된 스토리지에 대하여 비용을 지불합니다. 이는 RA3 인스턴스를 사용하여 프로비저닝된 클러스터로 지불하는 것과 유사합니다.

비용을 제어하기 위해 사용 한도를 지정하고, 해당 한도에 도달할 경우 Amazon Redshift에서 자동으로 수행하도록 작업을 정의할 수 있습니다. 사용량 한도를 RPU-시간으로 지정할 수 있으며 일별, 주별 또는 월별 기간과 연계할 수 있습니다. 더 높은 사용 한도를 설정할 수록 시스템의 전체 처리량을 향상시킬 수 있습니다. 특히 일관되게 고성능을 유지하면서 높은 동시성을 처리해야 하는 워크로드일 수록 그러합니다.

활동이 없는 경우 백그라운드에서 컴퓨팅 리소스가 자동으로 종료되고 데이터를 로드하거나 쿼리가 들어올 때 다시 시작됩니다. 새로운 서버리스 엔드포인트를 통해 S3 데이터 레이크에 액세스할 때 Amazon Redshift Spectrum 비용을 별도로 지불하지 않아도 됩니다. 통합 서버리스 환경을 보유하고 있으며, 데이터 레이크 쿼리에 대한 비용도 RPU-초 단위로 지불합니다. 자세한 내용은 Amazon Redshift 요금 페이지를 참조하세요.

서버리스 엔드포인트는 AWS 계정 수준에서 구성됩니다. 여러 팀 또는 프로젝트가 있고 비용을 별도로 관리하려는 경우 별도의 AWS 계정을 사용할 수 있습니다. 프로비저닝된 클러스터와 서버리스 엔드포인트 간, 그리고 계정들 전반의 서버리스 엔드포인트 간에 데이터를 공유할 수 있습니다.

연습을 지원하기 위해 Amazon Redshift 서버리스 미리보기 체험을 시도할 수 있도록 $500 상당의 AWS 크레딧을 선불로 제공합니다. Amazon Redshift 서버리스로 데이터베이스를 처음 생성하면 크레딧을 받을 수 있습니다. 이러한 크레딧은 Amazon Redshift 서버리스의 컴퓨팅, 스토리지 및 스냅샷 사용 비용을 충당하는 데만 사용됩니다.

지금 바로 Amazon Redshift 서버리스를 사용하여 데이터 웨어하우스 클러스터를 프로비저닝 및 관리할 필요 없이 분석을 실행하고 크기를 조정하십시오.

Danilo