发布于: Dec 9, 2020

今天,我们宣布推出公开预览版 EMR Studio,这是一个集成开发环境 (IDE),能够帮助数据科学家和数据工程师能够轻松地开发、以可视化方式研究和调试用 R、Python、Scala 和 PySpark 编写的数据工程和数据科学应用程序。EMR Studio 提供完全托管的 Jupyter 笔记本电脑,以及 Spark UI 和 YARN Timeline Service 等工具,可简化调试。

EMR Studio 使用 AWS SSO,让您无需登录 AWS 控制台即可直接使用您的企业凭证登录。数据科学家和分析人员可以安装自定义内核和库,使用代码库(如 GitHub 和 BitBucket)与同事协作,或者使用 Apache Airflow 或 Amazon Managed Workflows for Apache Airflow 等编排服务,将参数化笔记本作为计划工作流的一部分运行。

EMR Studio 内核和应用程序在 EMR 集群上运行,因此您可以利用性能优化的适用于 Apache Spark 的 Amazon EMR,获得分布式数据处理带来的优势。 管理员可以设置 EMR Studio,以便分析师可以在现有 EMR 集群上运行其应用程序,或使用 EMR 的预定义 AWS CloudFormation 模板创建新集群。在 EMR Studio 中,您可以在一个中心位置浏览所有 EMR 集群,并使用集群 ID、集群状态和其他参数等筛选条件来缩小范围。只需单击一下,您就可以访问 Spark History ServerYARN Timeline ServerTez UI,它们将在活动集群和终止集群上的作业上覆盖执行上下文。 

EMR 版本 6.2 和更高版本在以下区域提供 EMR Studio 公开预览版:美国东部(弗吉尼亚北部)、美国西部(俄勒冈)和欧洲(爱尔兰)地区。

要开始使用 EMR Studio 公开预览版,请参阅产品详细信息页。