게시된 날짜: Dec 9, 2020
완전 관리형 클라우드 데이터 웨어하우스인 Amazon Redshift가 JSON 및 반정형 데이터의 기본 지원 평가판을 발표했습니다. 이 기능은 반정형 데이터를 Redshift 테이블에 저장할 수 있는 새로운 데이터 유형 'SUPER'를 기반으로 합니다. Redshift는 또한 PartiQL 쿼리 언어의 지원을 추가하여 반정형 데이터를 원활하게 쿼리하고 처리할 수 있습니다. 이 기능을 사용하면 기존의 정형 SQL 데이터(예: 문자열, 숫자 및 타임 스탬프)와 반정형 SUPER 데이터를 통합한 고급 분석을 수행함으로써 우수한 성능, 유연성 및 사용 편의성을 달성할 수 있습니다.
일반 데이터 유형 SUPER는 본질적으로 스키마가 없으며 Redshift 스칼라 값, 중첩 배열 또는 기타 중첩 구조로 구성될 수 있는 중첩 값을 저장할 수 있습니다. Amazon Redshift는 JSON 데이터를 구문 분석하여 SUPER로 변환하는 기능을 지원하며, 유사한 데이터를 기존 스칼라 열에 삽입하는 것보다 JSON/SUPER 데이터를 최대 5배 빠르게 삽입할 수 있습니다. PartiQL은 여러 AWS 서비스에서 채택된 SQL의 확장 버전입니다. PartiQL을 사용하면 효율적인 객체 및 배열 탐색, 중첩 해제, JOIN 및 집계와 같은 기존의 분석 작업을 사용한 유연한 쿼리 작성 등을 통해 스키마 없이 중첩된 SUPER 데이터에 액세스할 수 있습니다. 이에 따라 정형 데이터 및 반정형 데이터의 조합을 검색하는 임시 쿼리를 통해 새로운 고급 분석을 수행할 수 있습니다. 또한 데이터 엔지니어는 외부 서비스와 통합하지 않더라도 Redshift 클러스터에서 직접 삽입된 반정형 데이터에 대해 간소화되고 지연 시간이 짧은 ELT(추출, 로드, 변환) 처리 작업을 수행할 수 있습니다. ELT를 촉진하는 PartiQL 기능은 탐색 및 중첩 해제 외에도 스키마 없는 의미 체계, 동적 타이핑 및 유형 내부 검사 기능이 있습니다. 구체화된 보기를 생성하여 반정형 데이터를 쉽게 파쇄할 수 있으며, 구체화된 보기를 자동으로 그리고 점진적으로 유지하면서 훨씬 더 빠른 분석 쿼리를 수행할 수 있습니다.