投稿日: Oct 27, 2022
Hive ユーザーはテーブル修復オプション (MSCK REPAIR table) を使用してメタストアのチェックコマンドを実行し、ファイルシステム (S3 または HDFS) に直接追加または削除されたパーティションの Hive メタストアのパーティションメタデータを更新します。実行中、MSCK 修復コマンドはファイルシステム呼び出しを行い、パーティションごとにパーティションが存在するかどうかを確認する必要があります。テーブルのパーティションが数千に及ぶ場合、この手順には時間がかかることがあります。EMR 6.5 では、Hive の MSCK 修復コマンドに最適化を導入し、パーティションを取得する際の S3 ファイルシステム呼び出し回数を削減しました。この機能により、特に多くのパーティションを持つテーブルで作業する際にファイルシステム呼び出し回数が減少するため、MSCK コマンドのパフォーマンスが向上します (10,000 以上のパーティションで約 15 ~ 20 倍)。これまでは、明示的にフラグを設定してこの機能を有効にする必要がありました。Amazon EMR 6.8 以降では、S3 ファイルシステム呼び出し回数をさらに削減して MSCK の修復の実行速度を上げ、この機能をデフォルトで有効にしました。
MSCK REPAIR TABLE の最適化に加え、Amazon EMR Hive ユーザーは Parquet モジュラーの暗号化を使用して、Parquet ファイルの極秘情報の暗号化と認証ができるようになりました。大規模環境で極秘データのプライバシーと整合性を守り、Parquet の機能を維持するのは困難を極めます。ファイルの暗号化やストレージレイヤーなどのデータ保護ソリューションが Parquet ファイルの暗号化に現在使用されていますが、パフォーマンス低下につながることがあります。Parquet モジュラーの暗号化によって、きめ細かいアクセスコントロールができるだけでなく、列指向型プロジェクション、述語プッシュダウン、エンコーディング、圧縮などの Parquet の最適化を維持できます。Parquet モジュラーの暗号化を使用すると、Amazon EMR Hive ユーザーは Parquet データとメタデータの両方を保護し、異なる列に異なる暗号化キーを使用し、極秘の列にのみ部分的な暗号化を実行することができます。取得したデータの整合性を確認する一方、すべての Parquet の最適化を維持することもできます。本機能は Amazon EMR 6.6 以降で利用できます。
上述の機能は EMR on EC2、EMR Serverless の 2 つのデプロイオプションで、Amazon EMR が利用可能なすべてのリージョンで利用できます。詳細については、AWS のドキュメントをご覧ください。