发布于: Oct 27, 2022

Hive 用户运行包含修复表选项 (MSCK REPAIR table) 的元存储检查命令来更新 Hive 元存储中用于分区的分区元数据,这些分区元数据已直接添加到文件系统(S3 或 HDFS)或从文件系统删除。运行时,MSCK 修复命令必须进行文件系统调用来检查每个分区是否存在分区。如果表有数千个分区,该步骤可能需要很长时间。在 EMR 6.5 中,我们对 Hive 中的 MSCK 修复命令进行了优化,以减少获取分区时 S3 文件系统调用的数量。该功能提高了 MSCK 命令的性能(10,000 以上分区大约 15-20 倍),因为它减少了文件系统调用的数量,尤其是在处理具有大量分区的表时。以前,您必须通过显式设置标志来启用该功能。从 Amazon EMR 6.8 开始,我们进一步减少了 S3 文件系统调用的数量,以使 MSCK 修复运行得更快,并在默认情况下启用了该功能。

除了 MSCK 修复表优化外,我们还想分享另一则消息,那就是 Amazon EMR Hive 用户现在可以使用 Parquet 模块化加密来加密和验证 Parquet 文件中的敏感信息。在保持 Parquet 功能完整的同时大规模保护敏感数据的隐私和完整性是一项具有挑战性的任务。目前用于加密 Parquet 文件的数据保护解决方案包括加密文件或存储层等,但这些解决方案可能会导致性能下降。而借助 Parquet 模块化加密,您不仅可以启用精细访问控制,还可以保留 Parquet 优化功能,例如列式投影、谓词下推、编码和压缩。使用 Parquet 模块化加密,Amazon EMR Hive 用户可以同时保护 Parquet 数据和元数据、对不同列使用不同的加密密钥,以及仅对敏感数据列进行部分加密。它还让客户能够检查所检索数据的完整性,同时保留所有 Parquet 优化功能。该功能可从 Amazon EMR 6.6 版本及以上版本获得。

您可以在推出 Amazon EMR 的所有区域中使用该功能,同时还可以使用两种部署选项:EC2 上的 EMR 和 EMR Serverless。要了解有关这些功能的更多信息,请参阅我们的文档