发布于: Aug 8, 2023

Amazon EMR Studio 是一个集成式开发环境 (IDE),使数据科学家和数据工程师能够轻松地开发、可视化和调试用 PySpark、Python、Scala 和 R 编写的大数据和分析应用程序。EMR Studio 提供完全托管的 Jupyterlab Notebook 和工具(例如 Spark UI 和 YARN Timeline Service),可用于简化调试过程。今天,我们很高兴地宣布,EMR Studio 工作空间现在支持在通过 EC2 上的 EMR 集群访问数据时使用 AWS Lake Formation 应用精细数据访问控制。

现在,当您从 EMR Studio 工作空间连接到 EMR 集群时,可以选择要与之连接的 IAM 角色(称为运行时 IAM 角色)。Apache Spark 交互式笔记本将仅访问附加到此运行时角色的策略允许的数据和资源。当从使用 AWS Lake Formation 托管的数据湖访问数据时,可以使用附加到运行时角色的策略强制执表级和列级访问。使用这项新功能,多个用户从 EMR Studio 工作空间可以连接到同一个 EMR 集群,每个用户都使用具有自定义数据访问权限的运行时角色。在共享集群上,用户会话完全彼此独立。这还可以简化交互式用例的 EMR 集群预置,从而缩减运营开销并节省成本。

在所有支持 EMR Studio 的区域,在连接版本为 6.11 以上的 EC2 上的 Amazon EMR 集群时,均可以使用此功能。有关更多信息,请参阅 EMR 文档