发布于: Dec 9, 2020
今天,我们宣布推出公开预览版 EMR Studio,这是一个集成开发环境 (IDE),能够帮助数据科学家和数据工程师能够轻松地开发、以可视化方式研究和调试用 R、Python、Scala 和 PySpark 编写的数据工程和数据科学应用程序。EMR Studio 提供完全托管的 Jupyter 笔记本电脑,以及 Spark UI 和 YARN Timeline Service 等工具,可简化调试。
EMR Studio 使用 AWS SSO,让您无需登录 AWS 控制台即可直接使用您的企业凭证登录。数据科学家和分析人员可以安装自定义内核和库,使用代码库(如 GitHub 和 BitBucket)与同事协作,或者使用 Apache Airflow 或 Amazon Managed Workflows for Apache Airflow 等编排服务,将参数化笔记本作为计划工作流的一部分运行。
EMR Studio 内核和应用程序在 EMR 集群上运行,因此您可以利用性能优化的适用于 Apache Spark 的 Amazon EMR,获得分布式数据处理带来的优势。 管理员可以设置 EMR Studio,以便分析师可以在现有 EMR 集群上运行其应用程序,或使用 EMR 的预定义 AWS CloudFormation 模板创建新集群。在 EMR Studio 中,您可以在一个中心位置浏览所有 EMR 集群,并使用集群 ID、集群状态和其他参数等筛选条件来缩小范围。只需单击一下,您就可以访问 Spark History Server、YARN Timeline Server 或 Tez UI,它们将在活动集群和终止集群上的作业上覆盖执行上下文。
EMR 版本 6.2 和更高版本在以下区域提供 EMR Studio 公开预览版:美国东部(弗吉尼亚北部)、美国西部(俄勒冈)和欧洲(爱尔兰)地区。
要开始使用 EMR Studio 公开预览版,请参阅产品详细信息页。