게시된 날짜: Oct 27, 2022

Hive 사용자는 파일 시스템(S3 또는 HDFS)에 직접 추가했거나 파일 시스템에서 제거된 파티션의 파티션 메타데이터를 Hive 메타스토어에서 업데이트하기 위해 repair table 옵션(MSCK REPAIR table)을 사용하여 메타스토어 확인 명령을 실행합니다. MSCK repair 명령은 실행 시에 파일 시스템을 호출하여 각 파티션이 있는지를 확인해야 합니다. 그런데 테이블의 파티션 수가 매우 많으면 이 단계에 시간이 오래 걸릴 수 있습니다. EMR 6.5에는 파티션을 가져올 때 S3 파일 시스템 호출 수를 줄이기 위해 Hive에 MSCK repair 명령 최적화 기능이 도입되었습니다. 특히 파티션 수가 많은 테이블에서 작업을 할 때 이 기능을 사용하면 파일 시스템 호출 수가 감소하므로 MSCK 명령의 성능이 개선됩니다(파티션이 1만 개 이상일 때 성능 15~20배 개선). 이전에는 플래그를 명시적으로 설정하여 이 기능을 활성화해야 했습니다. Amazon EMR 6.8부터는 MSCK repair 명령을 더욱 빠르게 실행할 수 있도록 S3 파일 시스템 호출 수가 더욱 감소했으며 이 기능이 기본적으로 활성화됩니다.

이제 Amazon EMR Hive 사용자는 MSCK 복구 테이블 최적화 기능을 사용할 수 있을 뿐 아니라 Parquet 모듈식 암호화 기능을 사용하여 Parquet 파일의 민감한 정보를 암호화 및 인증할 수 있습니다. Parquet의 기능을 그대로 유지하면서 민감한 데이터의 개인정보와 무결성을 대규모로 보호하기란 쉽지 않습니다. 현재는 Parquet 파일을 암호화하는 데 파일 암호화, 스토리지 계층 등의 데이터 보호 솔루션이 사용되고 있습니다. 그런데 이러한 솔루션 사용 시에는 성능이 저하될 수 있습니다. Parquet 모듈식 암호화 기능을 사용하는 경우에는 액세스를 세부적으로 제어할 수 있을 뿐 아니라 열 형식 프로젝션, 조건자 푸시다운, 인코딩, 압축 등의 Parquet 최적화 항목도 보존할 수 있습니다. Amazon EMR Hive 사용자는 Parquet 모듈식 암호화 기능을 사용해 Parquet 데이터와 메타데이터를 모두 보호할 수 있습니다. 또한 열별로 다른 암호화 키를 사용할 수 있으며, 민감한 열만 일부분 암호화할 수도 있습니다. 또한 클라이언트는 모든 Parquet 최적화 항목을 유지하면서 검색된 데이터의 무결성도 확인할 수 있습니다. 이 기능은 Amazon EMR 6.6 릴리스 이상에서 사용 가능합니다.

Amazon EMR이 제공되는 모든 리전에서 이 기능을 사용할 수 있으며 두 가지 배포 옵션(EMR on EC2 및 EMR Serverless)을 모두 사용할 수 있습니다. 이러한 기능에 대해 자세히 알아보려면 설명서를 참조하세요.