发布于: Apr 20, 2021

今天,我们高兴地宣布正式推出 EMR Studio,这是一个集成开发环境 (IDE),能够帮助数据科学家和数据工程师能够轻松地开发、以可视化方式研究和调试用 R、Python、Scala 和 PySpark 编写的大数据和分析应用程序。EMR Studio 提供完全托管的 Jupyter 笔记本,以及 Spark UIYARN Timeline Service 等工具,可简化调试。EMR Studio 使用 AWS Single Sign-On,让您无需登录 AWS 控制台即可直接使用您的企业凭证登录。

使用 EMR Studio,作为管理员,您可以从 EMR 控制台创建和配置 EMR Studio,或是通过指定 CloudFomation 模板中的配置和依赖项自动执行 Studio 创建。您可以使用 AWS SSO 控制台启动 AWS SSO,从支持的身份提供商中进行选择(包括 Okta、Azure AD、OneLogin、Ping Identity 和 Microsoft AD),并使用 EMR 控制台将用户和组分配到 EMR Studio。 

EMR Studio 提供笔记本示例,例如查询 Hive 元存储仓的 PySpark 代码、用于可视化的 Python 代码等,以帮助您快速开始开发您的数据科学应用程序。无论公共访问节点如何,您都可以将笔记本连接到 GitHub、Bitbucket、GitLab 和 AWS CodeCommit 存储库。您可以在现有的 EMR 集群上运行您的应用程序,或是预定义 CloudFormation 模板并在 EMR Studio 中传递自定义参数来创建新的集群。您可以直接从笔记本中启动实时 Spark UI 以访问日志并调试应用程序。 

EMR Studio 在 EMR 发行版 5.32、6.2 及更高版本上正式推出,已面向以下区域推出:美国东部(弗吉尼亚北部俄亥俄)、美国西部(俄勒冈)、欧洲(爱尔兰、法兰克福和伦敦)以及亚太地区(孟买、首尔、新加坡、悉尼和东京)。 

要开始使用 EMR Studio,请参阅我们 Amazon EMR Studio 文档