게시된 날짜: Nov 21, 2022

오늘, Amazon EMR은 내결함성을 위해 Amazon S3 또는 HDFS에서 체크포인트를 지정하여 Trino 엔진(Project Tardigrade)에서 장기 실행 내결함성 SQL 쿼리의 지원을 발표했습니다. Project Tardigrade는 ETL 스타일 워크로드에 사용되었을 때 Trino에서 장기 실행되는 리소스 집약적 쿼리에 대한 사용자 경험의 개선을 목표로 합니다. Project Tardigrade는 버퍼링된 중간 데이터의 체크포인트를 지정하는 데 Amazon S3를 사용합니다. Amazon EMR 6.9 버전 릴리스를 통해 성능에 민감하고 장기 실행되는 SQL 워크로드를 위해 HDFS에서 체크포인트를 추가하고 있습니다.

장기 실행 ETL 워크로드는 Trino에서 안정적이고 비용 효율적으로 실행하기 어려울 수 있습니다. 실패한 쿼리를 처음부터 재시작하는 것은 클러스터 리소스를 낭비하고 반복 쿼리 기능의 부재로 대규모 클러스터에서 비용이 더 많이 들 수 있기 때문입니다. Project Tardigrade는 Trino 클러스터가 S3에서 수집된 중간 교환 데이터를 사용하여 재시도하는 것으로 쿼리 실패를 완화할 수 있게 하는 새로운 내결함성 실행 메커니즘을 선보입니다. Amazon EMR 팀은 Trino 쿼리의 성능을 더욱 개선하기 위해 이 기능을 HDFS의 체크포인트로 확장했습니다. 내결함성 장기 실행 쿼리의 지원을 통해 Amazon EMR 사용자는 이제 반복적인 태스크 실행으로 인한 비용 절약 및 성능의 이점을 누리는 동시에 ETL 워크플로를 안정적으로 실행할 수 있습니다. Amazono EMR 콘솔의 Trino 구성 분류, CLI 혹은 API를 사용하여 Amazon EMR Trino 클러스터에서 내결함성을 활성화할 수 있습니다.

Amazon EMR Trino가 제공되는 모든 리전에서 이 기능을 사용할 수 있습니다. 이 기능에 대해 자세히 알아보려면 설명서를 참조하세요.