发布于: Dec 1, 2021
Amazon SageMaker Studio 是首个适用于机器学习(ML)的完全集成式开发环境 (IDE)。它提供基于 Web 的统一可视化界面,让您可以轻松执行准备数据以及构建、训练和部署模型所需的所有机器学习(ML)开发步骤。我们最近推出了从 SageMaker Studio 笔记本中直观浏览和连接到 Amazon EMR 集群的功能。从今天开始,您只需点击一下鼠标,就可以从 SageMaker Studio 笔记本监控和调试您在 EMR 上运行的 Apache Spark 任务。此外,您现在还可以直接从 SageMaker Studio 发现、连接、创建、终止和管理 EMR 集群。因此,与 EMR 的内置集成允许您在单个通用 SageMaker Studio 笔记本中以千兆字节的规模进行交互式数据准备和机器学习。
分析、转换和准备大量数据是所有数据科学和机器学习(ML)工作流的基本步骤。数据科学家和数据工程师等数据工作者利用运行在 EMR 上的 Apache Spark、Hive 和 Presto 进行快速数据准备。直到今天,这些数据工作者可以在同一个账户中从 Studio笔记本轻松连接到 EMR 集群。但是,他们必须设置复杂的安全规则和 Web 代理来跨账户连接,或者监控和调试他们在 EMR 运行的 Apache Spark 任务。此外,当这些数据工作者需要创建适合其特定工作负载的 EMR 集群时,他们必须请求管理员创建它们,或者必须切换到使用其他工具,并使用网络、计算和集群配置的详细技术知识来自行创建集群。这一过程不仅对他们的工作流程具有挑战性和破坏性,还分散了他们对数据准备任务的注意力。因此,尽管不经济,但许多客户仍然保持持久集群运行,以应对即将到来的工作负载,而不管活动使用情况如何。
从今天开始,数据工作者可以直接从 SageMaker Studio 轻松发现并连接到单账户和跨账户配置的 EMR 集群。此外,数据工作者现在可以一键访问 Apache Spark 用户界面,从 SageMaker 工作室笔记本中监控和调试运行在 EMR 上的 Apache Spark 任务,大大简化了他们的调试工作流。客户还可以使用 AWS Service Catalog 来定义和向选定的数据工作者推出预配置的模板,使他们能够直接从 SageMaker Studio 创建 EMR 集群。当数据工作者使用这些模板时,客户可以完全控制组织、安全、计算和联网防护机制。数据工作者可以直观地浏览提供给他们的一组模板,根据他们的特定工作负载进行定制,按需创建 EMR 集群,只需从 SageMaker Studio 中点击几下鼠标即可将其终止。客户可以使用这些功能来简化他们的数据准备工作流程,并更好地将 EMR 集群用于 SageMaker Studio 的交互式工作负载。
这些功能现已在以下 AWS 区域提供:美国东部(弗吉尼亚州北部和俄亥俄州)、美国西部(加利福尼亚州北部和俄勒冈州)、加拿大(中部)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(斯德哥尔摩)、欧洲(巴黎)和欧洲(伦敦)、亚太地区(孟买)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)以及亚太地区(东京)和南美(圣保罗)。如需了解详情,请参阅此博客帖子和 SageMaker Studio Notebooks 用户指南。