게시된 날짜: Oct 2, 2020
HyperLogLog(HLL) 스케치를 기본적으로 저장하고 처리하는 기능이 Amazon Redshift에서 새롭게 지원됩니다. HyperLogLog는 데이터 세트의 고유 값 수 추정치를 효율적으로 계산하는 새로운 알고리즘입니다. HLL 스케치는 데이터 세트의 고유 값에 대한 정보를 캡슐화하는 구성 요소입니다. HLL 스케치를 사용하면 평균 0.01~0.6%의 상대 오차로 대규모 데이터 세트의 카티널리티를 대략적으로 계산하는 쿼리의 성능을 크게 높일 수 있습니다.
Redshift는 퍼스트 클래스 데이터 유형 HLLSKETCH와 HyperLogLog 스케치를 생성하고, 유지하고, 결합하는 관련 SQL 함수를 제공합니다. Amazon Redshift의 HyperLogLog 기능은 편차 보정 기법을 사용하며, 적은 메모리를 사용하여 높은 정확도를 제공합니다. Amazon Redshift 데이터 유형 HLLSKETCH는 테이블에 HLL 스케치 값을 저장하는 데 사용할 수 있습니다. 또한 Amazon Redshift는 집계 함수와 스칼라 함수를 사용하여 HLLSKETCH 값에 적용할 수 있는 연산을 지원합니다. 이 같은 함수를 사용하여 HLL 스케치를 생성하거나 HLL 스케치의 카디널리티를 추출하거나 여러 스케치 값을 결합할 수 있습니다.