扩展人工智能模型开发
在快速变化的人工智能格局中,各组织正在寻求加快生成式和代理式人工智能解决方案的部署,进而更快地释放商业价值。自 2010 年以来,AWS 和 NVIDIA 一直合作提供全面的人工智能基础设施、软件和服务。为了进一步帮助组织实现其人工智能目标,AWS 上的 NVIDIA DGX Cloud 提供了一个完全托管的高性能人工智能训练平台,可灵活地短期访问大规模 GPU 集群。该平台可在简化采购的 AWS Marketplace 专属定制服务中提供,旨在简化和扩展高级人工智能模型的开发,使该平台成为寻求缩短价值实现时间的成熟企业和初创企业的理想之选。
优势
AWS 上的 DGX Cloud 提供:
全栈人工智能平台
通过直接访问 NVIDIA 非常高级的 GPU 集群、先进的训练和编排软件以及 AI 专业知识,提供企业级性能,所有这些都是托管服务。该平台针对大规模多节点训练进行了优化,通过内置的任务调度和工作负载管理提供连续集群、低延迟和高 GPU 利用率。该平台的基础是 NVIDIA GPU 加速的 Amazon Elastic Compute Cloud(Amazon EC2)实例,由 AWS Nitro System 提供支持,通过实时更新和智能硬件监控确保持续运行,结合 NVIDIA 企业级软件堆栈和 NVIDIA AI Enterprise(包含在 AWS 上的 DGX Cloud 中),提供 99.99% 的基础设施正常运行时间。
访问最新的 GPU
利用最新的 NVIDIA GPU 架构(Blackwell 和 Hopper),AWS 上的 DGX Cloud 可加速大语言模型(LLM)和生成式人工智能工作负载的训练。从第一天起,即可受益于更快的模型训练、更短的解决方案执行时间和更高的工作效率。Amazon EC2 实例由 NVIDIA Grace Blackwell Superchips 和 NVIDIA 优化的软件堆栈加速,提供前所未有的人工智能训练和推理性能。
增强网络和数据安全性
安全性至关重要,AWS 的全面特征包括加密联网和安全数据存储。AWS Nitro System 为数据和模型权重提供基于硬件的安全隔离和保护。
与生成式和代理式人工智能工作流程集成
该平台与 AWS 生成式人工智能堆栈无缝集成,使组织能够构建复杂的人工智能系统,从聊天机器人和代码生成器到自主人工智能代理。客户可以在 Amazon Bedrock、Amazon SageMaker AI 或 Amazon Elastic Kubernetes Service(Amazon EKS)上部署经过训练的模型,同时利用 NVIDIA NIM 微服务进行快速部署。作为世界上最全面、应用最广泛的云,AWS 提供大容量 NVIDIA GPU 驱动的人工智能加速器,使客户能够大规模运行最严苛的人工智能工作负载。
基础设施正常运行时间交付
为模型训练节省的天数
训练模型时节省的成本
特征
高度便携
在 DGX Cloud 上训练,将您的人工智能和机器学习管道带到任何地方 AWS 环境中的任何服务。AWS 客户可以使用其承诺的云支出协议购买 DGX Cloud,并将他们的模型带入 Amazon Bedrock、Amazon SageMaker AI 或 Amazon Elastic Kubernetes Service(Amazon EKS)进行推理。
更高的工作效率
使用完全托管的服务最大限度地提高 GPU 利用率并提高投资回报率。NVIDIA 提供即用型集群。客户的平均 GPU 利用率为 86-100%。
更快的训练
利用企业级 NVIDIA 软件和专业知识加快训练速度。DGX Cloud 预先配置了加速库、GPU 运算符和网络运算符,可缩短训练时间。
全栈
DGX Cloud 提供的不仅仅是计算。该平台配备了一整套经过优化的联网、存储、高性能计算、云原生 Kubernetes 以及企业级软件和支持。DGX Cloud 结合了 NVIDIA 人工智能的精华,并将其带入 AWS。
NVIDIA 专家
每位客户都可以通过指定的技术客户经理(TAM)与 NVIDIA 专家取得联系。DGX Cloud 还提供全天候关键业务支持。
推动人工智能创新
AWS 上的 DGX Cloud 代表了在普及高性能人工智能基础设施访问方面的重大飞跃。通过将 NVIDIA GPU 专业知识与 AWS 可扩展云服务相结合,组织可以缩短训练时间、降低运营复杂性并解锁新的商机。对于那些寻求站在人工智能创新前沿的人们来说,该平台凭借其性能、安全性和灵活性成为基础要素。
