本指南可帮助组织为其数据科学家提供外部软件包存储库访问权限,同时保持信息安全(infosec)合规性。数据科学家通常必须安装位于公共存储库中的开源软件包,但这会带来安全风险。通过使用 AWS 上的自动业务流程管道,组织可以确保所有公共软件包在进入数据科学家的专用 Jupyter Notebook 环境之前都经过全面的安全扫描。无缝集成的 InfoSec 治理控件可确保顺畅且无中断的数据科学工作流程体验。通过本指南,组织可以在赋予数据科学家灵活性和维持强有力的安全措施以实现运营协调之间取得平衡。

请注意:[免责声明]

架构图

[架构图描述]

下载架构图 PDF 

Well-Architected 支柱

当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。

上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。

  • 本指南使用支持 Amazon CloudWatchAWS CloudTrail 日志记录的 AWS 托管服务来响应事件和事件。您可以通过控制台或命令行界面来查看 CodePipeline 实施状态,并且可以单独监控每个 CodeBuild 项目。自动部署脚本会监控 AWS CloudFormation 堆栈状态,并使其对部署本指南的用户可见。此外,CloudTrail 会将所有对 CodeArtifact 的 API 调用捕获为事件,包括来自包管理器客户端的调用。

    阅读卓越运营白皮书 
  • 本指南使用 Amazon VPC 网络和 VPC 端点建立专用数据边界。Secrets Manager 可安全存储敏感凭证,例如 GitHub PAT 和电子邮件,GitHub PAT 则会对专用存储库 webhook 进行身份验证。cfn-nag 工具会验证 CloudFormation 模板,以确保 IAM 规则和安全组不会过于宽松、访问日志和加密已启用,并且没有密码文字。此外,CodePipeline 还使用由 AWS Key Management System(AWS KMS)加密的加密 Amazon S3 构件存储库来存储其资产。CodeArtifact 包使用由调用者计算并随请求提供的 SHA256 哈希发布。

    阅读安全性白皮书 
  • 本指南使用原生提供高可用性和弹性的 AWS 托管服务。例如,SageMaker 可提供低延迟、高吞吐量和高度冗余的网络。本指南旨在部署在一个 AWS 区域中,但您可以轻松调整其基础设施即代码,以在辅助灾难恢复区域中启动相同的堆栈。为了提供更高的可用性,AWS Lambda 在多个可用区(AZ)中运行您的函数,这就使它在单个 AZ 发生服务中断时仍能处理事件。CodePipelineCodeBuild 具有弹性,可以自动或手动重试失败的阶段操作。此外,CloudFormation 模板使您能够快速启动资源堆栈的新版本,而且,您也可以使用 CloudTrailCloudWatch 来访问资源配置和错误的堆栈日志。最后,Amazon QuickSight 会在发生重大事件时向您的账户管理员发送电子邮件。

    阅读可靠性白皮书 
  • 本指南使用更高抽象度的 AWS 托管服务,之所以选择这些服务,原因在于其运营优势。例如,这些服务根据 VPC 端点配额限制,原生提供至少 40 Gbps 的可突发吞吐量。对于使用的任何服务,最低请求配额(可以增加)为每天使用 Amazon Simple Email Service(Amazon SES)发送 200 封电子邮件。在该级别,指南可以扩展到 1000 个 CodePipeline 实施。它还与各种第三方源存储库(如 GitHub)集成,您只需将第三方安全扫描软件作为自定义 CodeBuild 项目插入自动化管道即可。此外,您还可以使用 SageMaker Studio 系统终端在本地和远程存储库之间提取、编辑和推送文件副本。或者,您也可以从本地系统终端或另一个笔记本环境执行 Git 命令。

    阅读性能效率白皮书 
  • 本指南在同一区域提供服务,以降低数据传输费用。作为托管的无服务器服务,它们可以降低您的维护开销和基础设施成本。此外,这些服务遵循按需付费模式,效率高,不需要长时间运行,并且可以在不使用时缩减。Amazon VPC 中的 NAT 网关按处理数据的数据库收费,支持 5 Gbps 带宽,并可自动扩展到 100 Gbps。Amazon VPC 中的互联网网关可水平扩展,并且具有冗余性和高可用性,无带宽限制。每个 VPC 端点为每个可用区提供高达 10 Gbps 的带宽和高达 40 Gbps 的突发带宽支持。此外,CodePipelineCodeBuild 项目实施会为每次运行提供一个唯一的实例,并且没有报告的并发限制。此外,Secrets Manager 支持每秒 10000 个 DescribeSecret 和 GetSecretValue API 请求。最后,SageMaker Studio 允许您自动关闭闲置资源,CloudFormation 允许您根据需要创建和删除堆栈,从而避免静态配置成本。

    阅读成本优化白皮书 
  • 指南中使用的 AWS 托管服务可根据需求扩展,并且是无服务器的,因此无需静态配置。例如,CodePipelineCodeBuildLambda 都可以利用云的弹性来动态扩展基础设施,使云资源的供应与需求相匹配,避免容量过度配置。此外,CloudFormation 支持堆栈取消配置,使您可以终止不再需要的资源。通过减少过度配置的计算和存储资源,您可以将工作负载对环境的影响降至最低。

    阅读可持续性白皮书 

实施资源

示例代码为起点。它经过行业验证,是规范性但不是决定性的,可以帮助您开始。

[内容类型]

[标题]

此[博客文章/电子书/指南/示例代码]演示了如何 [插入简短描述]。

免责声明

示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。

本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指导是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。

此页内容对您是否有帮助?