发布于: Jun 14, 2018

现在,您可以在采用 EMR 版本 5.14.0 的 Amazon EMR 上使用 JupyterHub。JupyterHub 是一种多用户 Jupyter Notebook 服务器,可为每个用户提供其专属的 Jupyter Notebook 界面。它允许多个用户同时使用其 Jupyter Notebook,以创建和执行代码,并执行探索性数据分析。EMR 上的 JupyterHub 与 Spark 框架相集成,因而允许您使用 Scala、PySpark、Spark R 和 Spark SQL 内核在 EMR 集群上执行交互式 Spark 查询。此外,您还可以在本地运行 Python 作业,并利用预先安装在 Notebook 中的许多常用数据科学库。现在,利用 EMR 版本 5.14.0,EMRFS(适用于 S3 的 Amazon EMR 连接器)支持对运行通过 EMRFS 访问 S3 中数据的查询的用户执行审核。此功能默认处于启用状态,且会将用户和组信息传递给 CloudTrail 等审核日志,为您提供全面的请求跟踪。除了审核之外,EMRFS 还提供了一致性视图S3 服务器端和客户端加密以及对 S3 的精细授权等功能。

在配置和启动集群时,您可以通过从要安装的应用程序列表中选择“JupyterHub”来启动 JupyterHub。请参阅 Amazon EMR 文档,详细了解 EMR 版本 5.14.0JupyterHubEMRFS

Amazon EMR 版本 5.14.0 在所有支持 Amazon EMR 的区域提供。