Amazon SageMaker Unified Studio 基础模块:数据访问、数据分析和 AI 应用开发的集中平台

Olawale Olaleye
难度
初级
时间
20 分钟
上次更新时间
2025 年 2 月 13 日

介绍

Amazon SageMaker Unified Studio(预览版)提供了一个数据访问、数据分析和 AI 应用开发的集中平台。在这个统一的受控环境中,你可以使用你熟悉的 AWS 服务进行模型开发、生成式 AI 应用开发,以及数据处理与分析。现在,你可以通过单一界面构建、部署并执行端到端的工作流。SageMaker Unified Studio 基于 Amazon DataZone 构建,利用域来对数据资产进行分类和组织,同时提供基于项目的协作功能,使团队能够安全地共享产物 (Artifact),并跨多个计算服务协同工作。这种方式使得不同角色能够无缝协作,同时遵循适当的访问控制和治理政策。

本文将从管理员的角度出发,深入探讨实现自助式数据访问过程所需的基础构建模块。

概念框架

SageMaker Unified Studio 提供集成式开发体验,分为三个独立层面,分别服务于开发生命周期中的不同角色和目的。该架构既能实现明确的职责分工,又能促进无缝协作。

如下图所示,每个层面代表一个不同的功能层,并与其他层面协同运作,从而实现完整的数据与机器学习 (ML) 解决方案。

具体层面如下:

  • 基础设施层面:该层面构成了 SageMaker Unified Studio 的基础。企业管理员和域所有者可在此层面预配底层基础设施,并制定规则,使数据工厂层面的用户能够自助部署用于数据和机器学习 (ML) 操作的计算资源。此外,也可以选择接入现有资源或预先创建的资源,并设置访问控制和权限,规范资源使用,将资源分配给不同团队和项目。该层确保所需的所有计算资源处于可用状态,并进行合理管理,以支持后续计算。
  • 数据工厂层面:该层面类似于一个高度智能的计算资源自动售卖机,数据科学家和机器学习工程师可以选择并使用预配置的计算资源或部署新的资源。数据产品开发者、数据工程师和数据科学家可以基于基础设施资源创建协作空间,协作构建数据产品,且无需关注底层的复杂性。
  • 产品体验层:产品体验层位于最外层,是发现和协作中心。在此层面上,各业务单元(包括数据生产者和数据使用者)能够通过资产目录探索各类数据产品。该层可以促使不同用户基于数据展开对话,在组织内共享知识和数据洞察。通过产品体验层,数据产品所有者可以利用自动化工作流捕捉数据血缘及质量指标,并管理访问权限。他们还可以追踪数据产品的使用情况,并持续提升数据资产的价值。

本文将从管理员角度出发,重点介绍基础设施层面的部署步骤,概述关键职责与操作,并讲解在初始设置阶段如何根据特定业务单元和团队的需求配置和组织资产,并通过授权策略授予访问权限。

基础设施层面的域所有者(管理员)的角色和职责

如下图所示,基础设施层面围绕三个关键的操作范式展开:接入、组织以及授权。

基础设施层面的三个核心功能的详情如下:

  • 接入:域所有者通过创建来建立基础环境。域代表了一个组织实体,用于将资产、用户、资源和代码库配置连接在一起。可以通过域来关联接入需要访问自助的集中开发环境 (Unified Studio) 的用户。自助 Unified Studio 是一个基于浏览器的应用程序,通过它,用户可以自主分析、发现、编目、治理和共享数据。管理员可以根据需要启用蓝图 (Blueprint),并创建项目配置文件,从而搭建底层数据基础设施。在多账户 (Mesh) 场景下,管理员还可以通过关联 AWS 账户将用户接入业务单元。
  • 组织:在此阶段,域所有者通过创建层级结构来组织和隔离各个业务单元中的项目。通过创建域单元的方式来划分业务单元或团队级别的层次结构,从而确保每个业务单元能够对其资产负责。管理员还可以将域单元的所有权委派给对应的业务单元。
  • 授权:各个业务单元或业务线的管理员或所有者(域单元所有者)可以管理用户策略,即针对项目的特定策略,这些策略定义了主体在域单元中可以执行的具体操作。

讨论完核心功能后,接下来我们将深入分析由这些元素组成的工作流。

工作流程(基础设施层面)

如下图所示,我们通过一系列操作,清晰地界定了从域所有者到单元管理员的角色和职责,涵盖了基础设施的部署和管理。

该工作流程包括以下步骤:

  1. 根域所有者(管理员)通过控制台创建一个 SageMaker Unified Studio 域。域创建成功后,你将获得该域对应的 SageMaker Unified Studio URL。Unified Studio 是一个基于浏览器的应用程序,可以通过你的 AWS Identity and Access Management (IAM) 身份与访问管理用户凭证、AWS IAM Identity Center 管理的来自身份提供者 (IdP) 的凭证,或 SAML 凭证进行身份验证。
  2. 在用户接入操作流程中,管理员需要设置单点登录 (SSO) 用户、SSO 用户组以及被授权可以登录 SageMaker Unified Studio 的 IAM 用户。也可以给 IAM 角色分配域访问权限,但这些 IAM 角色仅能用于通过编程方式访问域。使用快速域部署流程时,会创建默认的项目配置文件 (Project Profile) 模板。项目配置文件是一个包含 AWS 工具和服务配置的蓝图 (Blueprint) 集合。你可以创建以下项目配置文件:
    1. 生成式 AI 应用开发:提供基于 Amazon Bedrock 基础模型 (Foundation Model) 和相关工具构建生成式 AI 应用的多种工具。
    2. SQL 分析:提供 SQL 编辑器,用于查询 Amazon SageMaker LakehouseAmazon RedshiftAmazon Athena 中的数据。
    3. 数据分析和 AI-ML 模型开发:提供构建和管理机器学习 (ML) 及生成式 AI 模型的工具。这些工具基于AWS Glue、Athena、Amazon Managed Workflows for Apache Airflow (Amazon MWAA)、Amazon SageMaker AI 和 SageMaker Lakehouse 构建。
    4. 自定义项目配置文件:构建自定义模板。可以根据你的业务需求,结合多个蓝图与不同的工具构建自定义模板。

管理员还可以将项目配置文件模板授权给特定用户和用户组,从而实现基于用户角色控制资源部署。默认情况下,所有用户均有权使用默认项目配置文件。然而,管理员可以修改此设置,限制某些项目配置文件的访问权限,仅授权特定用户和用户组使用。

通过快速部署设置,还可以创建与 AWS CodeCommit 的默认 Git 连接,以便你管理代码库。你也可以选择创建并启用新 Git 连接来连接 GitHub、GitHub Enterprise Server、GitLab 以及 GitLab Self-Managed 实例。SageMaker Unified Studio 域的所有用户默认可以使用 Amazon Q 的 Free Tier 版本。如果已在 IAM Identity Center 中配置了域用户,可以为域用户配置 Amazon Q Developer Pro。

在初始设置过程中,管理员还需要授予域用户 Amazon Bedrock 无服务器模型的访问权限。

在多账户场景中,中央管理员关联所有 AWS 账户,关联账户的管理员允许关联并启用所需蓝图,中央管理员从而可以使用启用的蓝图创建项目配置文件。请参阅本文末尾的附录,了解更多详情。

3. 为了整理组织内的数据资产,管理员访问 SageMaker Unified Studio URL 并登录,然后创建业务单元对应的域单元

4. 将每个域单元的所有权委派给对应的业务单元,从而使业务单元能够在指定范围内自主管理资产。这种基于域的隔离提供了明确的界限,同时允许单元所有者独立管理其资产并执行相关策略。

步骤 3 和步骤 4 是快速部署设置中的可选步骤。如果当前不需要域单元,用户可以直接登录 SageMaker Unified Studio,然后根据业务使用场景构建数据产品。如果没有创建域单元,所有用户和用户组的访问权限都在根域级别,授权策略作用在根域上。

幕后工作

用户在 SageMaker Unified Studio 中使用简洁的界面创建项目时,其背后依赖于准确编排的组件体系。基于这种底层抽象机制,管理员只需进行简单选择,即可部署基础设施,而系统会自动完成资源预配。我们将解析其背后的底层流程,如下图所示。

该工作流程包括以下步骤:

  1. 管理员启用包含 AWS CloudFormation 模板的蓝图,其中包含如何创建和配置底层数据基础设施的信息。使用快速设置部署时,会自动启用这些蓝图。
  2. 通过项目配置文件将这些蓝图配置组合成模板。在创建项目时,这些模板决定要部署哪些基础设施组件。
  3. 当用户在 SageMaker Unified Studio 中选择一个项目配置文件时,系统会自动触发相应的 AWS CloudFormation 堆栈,并部署所需的基础设施资源作为环境。环境是支撑项目运行的实际数据基础设施。

在多账户场景下,关联账户的管理员负责启用蓝图。然而,项目配置文件则由根域所属的账户管理员负责创建。项目配置文件模板将包含关联账户的信息以及关联账户启用的蓝图。请参阅本文末尾的附录,了解更多详情。

我们已经了解了 SageMaker Unified Studio 的功能构建模块,接下来我们将演示部署流程。我们将通过快速设置部署流程,创建一个只涉及单一账户的域。关于多账户部署的步骤,请参考附录。

前提条件

在按照下一小节中的说明操作之前,你需要完成以下准备工作:

  1. 注册 AWS 账户
  2. 创建具有管理员访问权限的用户
  3. 在创建 SageMaker Unified Studio 域的同一 AWS 区域启用 IAM Identity Center。确认 SageMaker Unified Studio 支持的区域。配置你的身份提供者 (IdP),并将用户身份和用户组信息同步到 IAM Identity Center。请参考 IAM Identity Center 身份源教程,了解更多详情。
  4. 如需使用 Amazon Bedrock 上的基础模型,请授予基础模型的访问权限。

配置域

按照以下步骤创建新的 SageMaker Unified Studio 域:

  1. 登录 SageMaker 控制台,并选择已启用 IAM Identity Center 的区域。
  2. 选择 Create a Unified Studio domain(创建 Unified Studio 域)。

3. 选择 Quick setup (recommended for exploration)(快速设置(探索时推荐))。

4. 单击 Create VPC (创建 VPC)(你也可以使用已有的 VPC,但为了更容易清理资源,我们选择创建一个新的 VPC)。

你将进入部署 AWS CloudFormation 栈的新标签页。这种方式会创建新 VPC 及所需的私有和公共子网

5. 在 Stack name(栈名称)栏,输入一个唯一的堆栈名称,以防默认名称已被占用。

6. 将 useVpcEndpoints 参数设为 false

7. 单击 Create stack(创建堆栈)。

8. 创建堆栈后,转到域创建页面并刷新页面,如下图所示。

9. 在 Name(名称)栏,填写一个唯一的域名。

10. 对于 Domain Execution role(域执行角色)、Domain Service role(域服务角色)、Provisioning role(资源预配置角色)、和 Manage Access role(访问管理角色)字段,保留默认选项即可。

11. 该配置页面会自动选择 VPC 和私有子网。

12. 保留 Model provisioning role(模型预配置角色)和 Model consumption role(模型使用角色)的默认选项。

13. 单击 Continue(继续)。

14. 指定一个在 IAM Identity Center 中设置的 SSO 用户的电子邮件地址。

此处选择的 SSO 用户将作为 SageMaker Unified Studio 的管理员。如果账户没有配置 IAM Identity Center,只要账户具有相应权限,将自动创建一个 IAM Identity Center 账户实例。在域创建成功后,必须使用 SSO 或 IAM 用户登录该 Unified Studio 域。

15. 单击 Create domain(创建域)。

16. 创建域后,会弹出一个提示对话框。你可以关闭该对话框,然后设置授权策略并接入用户。

域详情页将显示该域对应的 Amazon SageMaker Unified Studio URL。你可以使用 IAM 用户凭证、IAM Identity Center 管理的 IdP 凭证,或 SAML 凭证进行身份验证。在授权用户登录该 URL 前,管理员必须将用户接入该域。接下来,我们将说明这一流程的详细步骤。

接入用户和关联账户

请按以下步骤操作:

  1. 进入 User management (用户管理)选项卡,点击 Add(添加)。
  2. Add (添加)菜单中,选择 Add SSO users and groups(添加 SSO 用户和组)或 Add IAM users(添加 IAM 用户)。

你可以添加 IAM 角色,以便通过编程方式管理域。但需要注意的是,IAM 角色无法用于登录访问 SageMaker Unified Studio 域的 URL。添加用户后,用户状态会显示为 Assigned(已分配)。只有当用户登录到 SageMaker Unified Studio 域的 URL 时,状态才会变为 Activated(已激活)。

3. 如果需要将多个 AWS 账户关联到你的域账户,请进入 Account associations(账户关联)标签页,然后选择 Request association(请求关联)。

关联后,域用户能够通过这些关联的 AWS 账户发布和使用数据。

多账户设置,即向其他 AWS 账户发送关联请求,然后你可以使用 AWS Resource Access Manger (AWS RAM) 与该账户共享根域。被请求关联的管理域的所有者接受邀请。为了从 SageMaker Unified Studio 访问关联账户的计算资源,关联的域所有者必须启用必要的蓝图。请参阅附录,了解更多关于跨账户部署步骤的信息。

项目配置文件和授权用户

使用快速设置部署时,当你导航到 Blueprints(蓝图)选项卡时,你会注意到所有蓝图都已自动启用。同时,在 Project profiles(项目配置文件)选项卡中,你会发现已经为用户启用了默认项目配置文件。

其余选项卡保留默认设置即可。

创建自定义项目配置文件并授权用户(可选)

在以下示例中,我们展示了如何通过绑定所选蓝图来创建自定义项目配置文件,并仅授权指定用户使用该配置文件模板。此示例创建了一个基于选定蓝图的自定义项目配置文件,用户可以使用它来创建一个包含 AWS Glue 数据库和 Athena 工作组的数据湖环境,用来查询数据。用户还可以创建一个 Amazon Managed Workflows for Apache Airflow (MWAA) 环境,用于编排工作流。通过 Tooling configurations(工具配置)选项,你还可以更改或覆盖蓝图配置参数。

注意:由于 SageMaker Unified Studio 还在预览阶段,所以当前版本中一些视觉元素的命名方式可能会有所不同。

创建项目配置文件时,你可以通过两种模式添加蓝图部署设置:创建时添加和按需添加。创建时添加:项目创建完成后,用户可立即添加蓝图部署设置。按需添加:用户需要时才添加蓝图部署设置。

创建项目、创建域单元并委派所有权(可选)

在以下示例中,管理员登录到 SageMaker Unified Studio 并创建 retail 域单元。管理员还需要将所有权委托给零售业务用户。零售业务用户登录到 SageMaker Unified Studio,并使用已授权的项目配置模板创建项目。

完成这些配置后,你已成功以管理员身份部署了初始基础设施层面。

蓝图授权(可选)

默认情况下,所有域用户都有权跨域单元使用已启用的蓝图创建项目。如果你希望将蓝图的使用范围限制在特定域单元(本例中为 retail 域单元,如下图所示)中,则需要撤销现有授权,然后重新授权特定域单元。通过限制蓝图的域单元使用范围,用户只能在指定域单元内使用该蓝图创建项目。若要将授权设置应用到子域单元,请启用 Cascade to all child domain units(级联到所有子域单元)选项。

清理资源

实验完成后,请务必清理实验过程中创建的 SageMaker Unified Studio 资源,防止产生不必要的费用。资源清理步骤如下:

  1. 如果你创建了多个项目并且订阅了数据资产,请取消所有数据资产订阅。
  2. 记录下你的项目创建的所有 AWS Glue 数据库和 Athena 工作组的名称。
  3. 删除数据资源管理器 (Data Explorer) 中所有不再需要保留的连接。
  4. 记录项目 ID。
  5. 删除项目。如果出现错误,请在 AWS CloudFormation 控制台上找到删除失败的堆栈。排查导致堆栈删除失败的错误,然后删除项目。
  6. 记录域 ID。
  7. 删除域。
  8. 删除名为 amazon-datazone-AWSACCOUNTID-AWSREGION-DOMAINID 的 S3 存储桶。
  9. 删除你先前记录的 AWS Glue 数据库和 Athena 工作组。
  10. 删除实验过程中创建 VPC 的 AWS CloudFormation 堆栈。

如果仍有未删除的其他资源,可根据标签进行识别,然后删除对应的资源。

总结

本文介绍了 SageMaker Unified Studio 的基础构建模块,并说明了如何通过用户友好的界面跳过底层技术复杂性,使企业组织在确保标准化治理的同时,实现跨业务单元的高效资源管理。该方法既能保证基础设施部署的一致性,又能灵活适应不同的业务需求。

若要了解更多信息,请参阅Amazon SageMaker Unified Studio 管理员指南

附录:多账户管理

介绍如何实现跨账户关联。关联账户所有者接受账户邀请后,可参考以下示例中的步骤启用蓝图。在关联账户中启用蓝图后,根域账户可以使用关联账户的参数(包括其启用的蓝图)创建项目配置文件模板。然后,该示例演示了 retail 域单元用户如何使用关联账户的资源,完成计算资源的部署与数据创建。

更多教程

快速搭建容量高达 35GB 的免费个人网盘

本教程将介绍如何搭建一个没有使用限制的免费私人网盘。

构建企业专属智能客服机器人

本文将演示如何结合多种服务,打造企业专属的智能客服。

使用生成式 AI 构建多语言问答知识库

使用多种服务,构建可汇总搜索结果的多语言知识库。

查看全部教程 >>

免费套餐

AWS 海外区域

拓展海外业务或个人体验
免费使用 100 余种云产品或服务, 长达 12 个月

AWS 中国区域

发展中国业务
免费使用 40 余种核心云服务产品,长达 12 个月