发布于: Jan 21, 2022

我们很高兴地宣布,Amazon EMR 6.5.0 现已包含 Apache Iceberg 版本 0.12。Apache Iceberg 是 Amazon S3 中大型数据集的一种开放表格式,可提供对大型表、原子提交、并发写入和 SQL 兼容表演变的快速查询性能。在当前版本中,您可以在 EMR 集群上使用 Iceberg 表格式的 Apache Spark 3.1.2 版本。

Apache Iceberg 为存储在数据湖中的数据提供了一种开源表格式,可帮助数据工程师管理复杂的挑战,例如在保持查询性能的同时管理不断变化的数据集。Iceberg 使您能够:

  • 保持多个应用程序之间表的事务一致性,其中文件可以通过完全的读取隔离和多个并发写入的方式进行原子化的添加、删除或修改
  • 实施完整的模式演变以跟踪表随时间的变化
  • 发出时间旅行查询以查询历史数据并对更新之间的更改进行验证
  • 通过分区演化将表组织为灵活的分区布局,从而能够在查询和数据量发生变化时更新分区方案,而无需依赖物理目录
  • 将表回滚到以前的版本以快速纠正问题并将表恢复到已知的良好状态
  • 在大型数据集等的高性能查询中执行高级规划和筛选。

带有 Apache Iceberg 的 Amazon EMR 版本 6.5.0 现已在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、南美洲(圣保罗)、欧洲(爱尔兰)、欧洲(斯德哥尔摩)、AWS GovCloud(US)、由光环新网运营的 Amazon Web Services 中国(北京区域)、由西云数据运营的 Amazon Web Services 中国(宁夏)区域,未来几周将增加更多区域。

如需了解有关在 Amazon EMR 上使用 Apache Iceberg 的更多信息,请参阅此处的 Amazon EMR 文档页面。