亚马逊AWS官方博客

新功能 — 使用 Amazon SageMaker Studio 创建和管理 EMR 集群和 Spark 任务

今天,我们很高兴为我们的 Amazon SageMaker Studio 服务推出三项新的增强功能。

从现在起,SageMaker Studio 的用户可以直接创建、终止、管理、发现和连接在单个 AWS 账户内和整个组织的共享账户中运行的 Amazon EMR 集群 — 所有这些操作都可以直接从 SageMaker Studio 进行。此外,SageMaker Studio Notebook 用户还可以利用 SparkUI 直接从 SageMaker Studio Notebooks 监控和调试在 Amazon EMR 集群上运行的 Spark 作业!

过往经历…
在今天以前,SageMaker Studio 用户可以通过某些功能来查找和连接 EMR 集群,前提是他们在与 SageMaker Studio 相同的账户中运行。虽然这些功能在许多情况下很有用,但如果没有适合正在运行的模型或分析的要求的集群,那么数据科学家将不得不离开他们的开发环境并手动配置适合他们需求的集群。这样不但会干扰数据科学家的工作流程,而且无法保证数据科学家拥有配置集群所需的权限或知识深度,以支持他们继续完成工作。此外,在跨多个 AWS 账户工作的组织中,限制在单个账户中创建和管理集群可能会令人望而却步。

新增功能
数据科学家可以:

  • 从 SageMaker Studio 中发现、管理、创建、终止和连接 Amazon EMR 集群
  • 利用“模板”— 在经验丰富的开发运维从业者的支持下,为您的工作负载需求配置和预置集群的新方法
  • 从 SageMaker Studio Notebook 中连接、调试和监控在 Amazon EMR 集群上运行的 Spark 任务

创建、连接和管理 EMR 集群

从 SageMaker Studio Notebook 连接到 EMR 集群

由于能够在 SageMaker Studio 中连接和管理 EMR 集群,因此数据科学家不再需要离开他们熟悉的环境来创建、配置和预置运行工作负载的 EMR 集群。

推出模板
模板是针对众多工作负载进行了优化的现成集群配置的集合。模板可以由开发运维管理员创建和管理,并通过 AWS Service Catalog 提供给 SageMaker Studio 中的数据科学家。这使他们能够快速启动集群以满足自己的需求,同时确保受信任的开发运维管理员已根据项目要求正确配置集群。此外,这使数据科学家能够继续完成他们最擅长的工作,并使这些团队中的开发运维管理员能够更好地管理预置的基础设施类型。

在 SageMaker Studio Notebooks 中管理 EMR 集群

直接连接并监控 Spark 任务
最后,为了简化数据科学家的工作,我们已经建立了从 SageMaker Studio Notebook 中连接、调试和监控在 Amazon EMR 集群上运行的 Spark 任务的能力。在此之前,要访问 Spark 任务的监控用户界面,需要配置安全隧道和 Web 代理才能直接访问当前正在执行的任务,这给试图观察和调试工作负载的数据科学家的工作流程增加了阻力。现在,有了这些新功能,用户可以直接从他们已经熟悉的界面进行一键式访问。这使他们能够构建工作负载并将其投入使用,而不是花时间配置基础设施和工作负载。

从 SageMaker Studio Notebook 连接 Spark 任务

这些新功能使数据科学家可以根据需要使用简单、一致的 UI 来预置和管理基础设施,而无需离开 SageMaker Studio 或深入研究此类硬件配置的细节 — 此外,他们不必花时间配置代理和 SSH 隧道来调试和监控正在进行的 Spark 任务。

了解更多
这些功能已在推出 SageMaker Studio 的所有 AWS 区域正式发布,使用此功能不会产生额外费用。有关定价和区域可用性的完整信息,请参阅 SageMaker Studio 定价页面。

要了解详情,请参阅我们的文档