此合作伙伴解决方案适合想要使用 Databricks API 在 Amazon Web Services(AWS)Cloud 上创建 Databricks 工作区的 IT 基础设施架构师、管理员以及 DevOps 专业人员。此合作伙伴指南将在您的 AWS 账户中创建一个新的工作区,并且设置环境,以便部署更多工作区。
Databricks 是一个统一数据分析平台,用于数据工程、机器学习和协作数据科学。Databricks 工作区是软件即服务(SaaS)环境,用于访问您的所有 Databricks 资源。工作区将对象(例如,笔记本、库和实验)组织到文件夹,并且提供数据和计算资源(例如集群和任务)的访问权限。
重要提示:此 AWS 合作伙伴解决方案部署需要 Databricks 账户位于 E2 版平台。如需更多信息,请 联系 Databricks。
此合作伙伴解决方案由 Databricks 与 AWS 联合创建。Databricks 是 AWS 合作伙伴。
-
构建内容
-
如何部署
-
费用和许可证
-
构建内容
-
该合作伙伴指南会设置以下内容,构成 Databricks 工作区:
- 一个跨至少三个可用区的高度可用架构。
- 客户的 AWS 账户中 Databricks 托管或客户托管的 Virtual Private Cloud (VPC)。根据 AWS 最佳实践,为此 VPC 配置了私有子网和公有子网,以在 AWS 上为您提供属于自己的虚拟网络。
- 在私有子网中:
- Amazon Elastic Compute Cloud (Amazon EC2) 实例的 Databricks 集群。
- 用于启用安全集群连接的一个或多个安全组。
- Amazon Elastic Compute Cloud (Amazon EC2) 实例的 Databricks 集群。
- 在公有子网中:
- 允许出站互联网访问的网络地址转换 (NAT) 网关。
- 允许出站互联网访问的网络地址转换 (NAT) 网关。
- 用于 Databricks 工作区实例日志的 Amazon CloudWatch。
- (可选)客户托管的 AWS Key Management Service (AWS KMS) 密钥,用于加密笔记本。
- Amazon Simple Storage Service (Amazon S3) 存储桶,用于存储对象,例如集群日志、笔记本修订和任务结果。
- AWS Security Token Service (AWS STS),支持您请求具有有限权限的临时凭证,以便用户进行身份验证。
- 用于访问 S3 构件和日志的 VPC 终端节点。
- 跨账户 AWS Identity and Access Management (IAM) 角色,支持 Databricks 在 VPC 中为新工作区部署集群。根据您所选的部署选项,您可以在部署期间创建此 IAM 角色,也可以使用现有 IAM 角色。
-
如何部署
-
要部署 Databricks,请遵循部署指南中的说明操作。 Databricks 需要访问您的 AWS 账户中的跨账户 IAM 角色,才能将集群启动到新工作区的 VPC。部署过程大约需要 15 分钟,包括以下步骤:
- 如果您还没有 AWS 账户,请在 https://aws.amazon.com 上注册,并登录您的账户。
- 通过选择以下选项来启动合作伙伴解决方案:
Amazon 可能会跟与 AWS 合作打造此解决方案的 AWS 合作伙伴共享用户部署信息。
-
费用和许可证
-
您需要支付在运行此解决方案时使用的 AWS 服务的费用。使用此合作伙伴解决方案无需额外付费。
本合作伙伴解决方案的 AWS CloudFormation 模板包括可自定义的配置参数。其中一些设置(如实例类型)会影响部署成本。有关成本估算信息,请参阅您使用的每种 AWS 服务的定价页面。价格可能随时变动。
提示:部署此合作伙伴解决方案后,请 启用 AWS Cost and Usage Report,以将计费指标发送到您账户中的 Amazon S3 存储桶。它根据每个月的使用情况提供成本估算,并在月末汇总数据。有关更多信息,请参阅 什么是 AWS 成本和使用情况报告?
有关 Databricks 成本估算,请参阅 Databricks 定价页面,了解产品套餐和功能。
相关内容
当 Databricks 面临减少将 Databricks 工作区部署到 AWS Cloud 的复杂配置步骤和时间的挑战时,它与 AWS 集成和自动化团队合作设计了一个 AWS 合作伙伴解决方案,这是在具有集成最佳实践的 AWS CloudFormation 模板上构建的自动化参考架构。