Amazon FSx for Lustre 客户

  • LG AI Research

    LG AI Research LG AI Research 与世界领先的人工智能专家一起,旨在通过提供最佳研究环境和利用最先进的人工智能技术,引领人工智能的下一个时代,与您一起共创充满希望的未来。

    挑战:LG AI Research 需要在一年内将其基础模型 EXAONE 部署到生产中。EXAONE 代表“expert AI for everyone”(面向所有人的专家级人工智能),是一个具有 3000 亿参数的多模式模型,同时使用图像和文本数据。

    解决方案:LG AI Research 使用 Amazon SageMaker 来训练其大规模基础模型,同时使用适用于 Lustre 的 Amazon FSx 将数据分发到实例中以加快模型训练。LG AI Research 需要在一年内将其基础模型 EXAONE 部署到生产中。LG AI Research 在一年内成功部署了 EXAONE,不再需要单独的基础设施管理团队,从而将成本降低了大约 35%。

    阅读 LG AI Research 案例研究。 »
  • Paige

    Paige 是领先的数字病理学转型提供商,提供全面、支持人工智能、基于 Web 的解决方案,为癌症诊断带来了效率和信心。

    挑战:Paige 的本地解决方案已达到最大限度。他们的目标是训练人工智能和机器学习模型来帮助癌症病理学。Paige 发现,他们拥有的计算能力越强,他们训练模型和帮助解决诊断问题的速度就越快。

    解决方案:为了运行机器学习训练工作负载,Paige 选择了由 NVIDIA A100 Tensor Core GPU 提供支持的 Amazon EC2 P4d 实例,这些实例为云端的机器学习训练和 HPC 应用程序提供高性能。Paige 使用适用于 Lustre 的 Amazon FSx,这是一种基于常用的高性能文件系统构建的完全托管式共享存储。该公司将这项服务与其一些 Amazon S3 存储桶连接起来,这可以帮助其开发团队处理 PB 级的机器学习输入数据,而无需在高性能文件系统上手动预存数据。AWS 解决方案的结果是,使用适用于机器学习的 AWS 基础设施,Paige 可以训练本地数据量 10 倍的数据。  Paige 还使用 Amazon EC2 和适用于 Lustre 的 Amazon FSx 将内部工作流的速度提高了 72%。 

    通过将适用于 Lustre 的 Amazon FSx 连接到 Amazon S3,我们可以毫不费力地使用本地基础设施中尝试过的数据量的 10 倍进行训练。

    Alexander van Eck,Paige staff AI engineer
    阅读案例研究《Paige 使用通过 Amazon EC2 P4d 实例构建的混合机器学习工作流推进癌症治疗》。 »
  • Netflix

    阅读博客 »
  • Toyota

    Toyota Research Institute 选用 FSx for Lustre 来缩短对象识别机器学习训练时间。

    Toyota Research Institute(TRI)收集并处理来自其自动驾驶汽车(AV)试驾的大量传感器数据。每个训练数据集暂存于本地 NAS 设备并传输到 Amazon Simple Storage Service(Amazon S3),然后在强大的 GPU 计算集群上进行处理。TRI 需要高性能文件系统,来匹配他们的计算资源,加快机器学习模型训练速度,并推动数据科学家快速获得见解。

    我们需要适用于机器学习训练数据集的并行文件系统,与我们的传统文件系统产品相比,Amazon FSx for Lustre 具有更高的可用性和持久性,因此我们选择了此产品。此外,它与 AWS 服务(包括 S3)集成,这也使其成为我们高性能文件存储的首选。

    David Fluck,软件工程师 – Toyota Research Institute
  • Shell

    Shell 提供动态的能源选择组合,从石油、天然气和石化产品到风能、太阳能和氢,Shell 很自豪能够为客户提供生活所需的能源。 

    挑战:Shell 依靠 HPC 进行模型构建、测试和验证。从 2020 年到 2022 年,GPU 利用率平均不到 90%,这导致了项目延迟而且限制了新算法实验的效果。

    解决方案:Shell 通过将 Amazon EC2 集群和适用于 Lustre 的 Amazon FSx 扩展到云端,从而增强其本地计算容量。该解决方案使 Shell 能够快速扩缩,并且仅在需要时才购买额外的计算容量。Shell 的 GPU 现已得到充分利用,从而降低了计算成本并加快了机器学习模型的测试。

  • Storengy

    ENGIE Group 的子公司 Storengy 是出色的天然气供应商。该公司为全球企业提供天然气储存、地热解决方案、无碳能源生产和储存技术。

    为确保正确储存其产品,Storengy 使用高科技模拟器来评估地下天然气储存情况,该过程需要大量使用高性能计算(HPC)工作负载。该公司还使用 HPC 技术开展天然气发现和勘探工作。

    得益于 AWS,我们获得了可扩展性和高可用性,可以一次执行数百次模拟。此外,该解决方案会自动扩缩以支持我们的高峰工作负载时段,这意味着我们的 HPC 环境不会发生任何意外。

    Jean-Frederic Thebault – Storengy 工程师
  • Smartronix

    Smartronix 利用 FSx for Lustre 为其 SAS Grid 部署提供可靠的高性能。

    Smartronix 为世界上许多知名的商业和联邦组织提供云解决方案、网络安全、系统集成、全球 C5ISR 和数据分析,以及以任务为中心的工程。Smartronix 依靠 SAS Grid 来分析和提供全美范围内的新冠每日统计数据,发现他们自主管理的并行文件系统难以管理和保护。

    通过与 AWS 合作并利用他们的托管解决方案(例如 FSx for Lustre),我们能够更好地为客户提供服务 – 与自主管理的文件系统相比,可用性更高,成本降低了 29%。

    Rob Mounier – Smartronix 高级解决方案架构师
  • Netflix

    Netflix 是一项流式传输服务,提供各种屡获殊荣的电视节目、电影、动画、纪录片等。

    挑战:Netflix 对媒体机器学习模型、后期制作缩略图、视觉特效和成千上万个视频和数百万个片段的预告片生成使用大规模分布式训练。由于跨节点复制和 40% 的 GPU 空闲时间,Netflix 的等待时间很长。

    解决方案:Netflix 重新设计了其数据加载管道,并通过预先计算所有视频/音频片段来提高效率。Netflix 还选择 Amazon UltraClusters(EC2 P4d 实例)来提高计算性能。通过适用于 Lustre 的 Amazon FSx 性能,Netflix 能够让 GPU 饱和,几乎消除 GPU 的空闲时间。现在,使用预计算和适用于 Lustre 的 FSx,Netflix 的性能提高了 3-4 倍,将模型训练时间从一周缩短到 1-2 天。

    观看视频:通过适用于 Lustre 的 Amazon FSx 对媒体机器学习模型进行大规模分布式训练。 »
  • Hyundai

    Hyundai Motor Company 已发展成为全球知名的汽车制造商,其品牌汽车出口到 200 多个国家/地区。

    挑战:自动驾驶中经常使用的算法之一是语义分割,这是一项使用对象类对图像的每个像素进行注释的任务。这些类可以是道路、人、汽车、建筑、植被、天空等。Hyundai 测试准确度,并收集其他图像以纠正特定情况下预测性能不足的问题。但是,这可能是一个挑战,因为通常没有足够的时间来准备所有新数据,同时留出足够的时间来训练模型并在预定的截止日期之前完成任务。

    解决方案:Hyundai 选择 Amazon SageMaker 自动进行模型训练,选择 Amazon SageMaker 库进行数据并行处理,以便从单个 GPU 转移到分布式训练。他们选择适用于 Lustre 的 Amazon FSx 来训练模型,无需等待数据副本。他们还选择 Amazon S3 进行永久数据存储。Hyundai 通过 8 个 GPU 实例(总共 64 个 GPU)实现了高达 93% 的扩展效率。通过适用于 Lustre 的 FSx,Hyundai 能够在零等待时间的情况下针对相同的数据运行多个训练作业和实验。

    阅读客户博客文章 »
  • Rivian

    Rivian 的使命是让世界永远充满刺激。我们相信,我们能以更负责任的方式来探索世界,并决心使向可持续交通的过渡成为令人振奋之举。

    为了按计划加快工程工作并降低开发物理原型的必要性,电动汽车制造商 Rivian 采用高级建模和模拟技术。利用高计算容量,模拟使工程师能够测试新的概念,并将他们的设计快速投入到市场。

    通过与 Amazon 合作,Rivian 可以专注于可持续的汽车开发和交付(而非 IT)。通过 Amazon,我们运行关键开发应用程序的速度比本地更快,包括:在 Elements 上提高了 56%,在 Siemens 上提高了 35%,以及在 Ansys 上提高了 20%。

    Madhavi Osanaka,Rivian CIO
    阅读 Rivian 案例研究 »
  • DENSO

    Denso 为高级驾驶辅助系统(ADAS)开发图像传感器,可帮助驾驶员使用停车和变道等功能。

    挑战:为了开发用于 ADAS 图像识别的必要机器学习模型,DENSO 在其本地环境中构建了 GPU 集群。但是,多名机器学习工程师共享有限的 GPU 资源,这影响了工作效率,尤其是在新产品发布前的繁忙时期。

    解决方案:通过采用 Amazon SageMaker 和适用于 Lustre 的 Amazon FSx,Denso 能够缩短数据采集、模型开发、学习和评估时间,从而加快 ADAS 图像识别模型的创建。

    “在人工智能和机器学习领域,向云端转移的实践将继续加速。我相信,随着我们继续增加功能,AWS 将继续为我们提供支持。”

    Kensuke Yokoi,DENSO general manager
    阅读 Denso 案例研究。 »
  • Joby Aviation

    Joby Aviation 使用 AWS 革新交通方式。

    挑战:Joby 工程师依靠高性能计算(HPC)进行数千次复杂的计算密集型计算流体动力学(CFD)模拟,每次使用数百个 CPU 内核,可能需要数小时才能完成。

    解决方案:与本地高性能计算基础设施相比,通过使用 Amazon Elastic Compute Cloud(Amazon EC2)和 Amazon FSx for Lustre,Joby 能够更快地从 CFD 工作负载中获得结果。

    在尝试同时运行数十次模拟时,我们一次只能读取和写入几千兆字节的数据,这减慢了一切的速度。FSx for Lustre 消除了这些容量问题。我们现在可以轻松地增加硬盘的大小。

    Alex Stoll,Joby Aviation 航空力学主管
    阅读 Joby Aviation 案例研究 »
  • T-Mobile

    借助 Amazon FSx for Lustre,T-Mobile 每年可节省 150 万美元,并将 SAS Grid 工作负载的速度提高一倍。

    挑战:T-Mobile 因自主管理的 SAS Grid 工作负载而遇到了高管理开销和性能问题。

    解决方案:T-Mobile 部署了 Amazon FSx for Lustre,这是完全托管的高性能文件系统,用于迁移和扩展其 SAS Grid 基础设施。T-Mobile 利用 Amazon FSx 与 S3 的紧密集成来减少存储开销并优化运营。

    Amazon FSx for Lustre 帮助我们将 SAS Grid 工作负载的处理速度提高了一倍,将总拥有成本降低了 83%,并完全消除了我们的运营负担。通过与 AWS 合作,我们能够专注于我们最擅长的事情,为客户开发创新产品,同时使用 FSx 的先进存储功能和 AWS 的出色托管能力。

    Dinesh Korde,软件开发高级经理 – T-Mobile
  • Netflix

    Netflix 的剧集《王冠》第四季的制作面临着意想不到的挑战,因为新型冠状病毒感染疫情,世界进入了封锁状态,而当时正值后期特效工作开始的时候。通过在 AWS 上采用基于云的工作流程,包括适用于增强吞吐量的 Amazon FSx Lustre 文件服务器,Netflix 内部视觉特效团队的 10 名艺术家在短短 8 个月内就完成了该季 10 集剧集的 600 多个视觉特效镜头,这些工作全部都在远程完成。 

    阅读“The Crown' in the Cloud”博客文章 »
  • Maxar

    Maxar 使用 AWS 提供预测的速度比其天气超级计算机快 58%。

    挑战:Maxar Technologies 是地球情报和太空基础设施领域值得信赖的合作伙伴和创新者,需要以比其本地超级计算机更快的速度预测天气。

    解决方案:Maxar 与 AWS 合作,使用关键技术创建了 HPC 解决方案,包括用于安全且高度可靠的计算资源的 Amazon Elastic Compute Cloud(Amazon EC2)、用于加速其应用程序读取/写入吞吐量的 Amazon FSx for Lustre,以及用于在 AWS 上快速构建 HPC 计算环境的 AWS ParallelCluster

    Maxar 使用我们 AWS HPC 解决方案中的 Amazon FSx for Lustre 来运行 NOAA 的数值天气预报模型。这使我们可以将计算时间缩短 58%,在大约 45 分钟内生成预测,从而实现更具成本效益的价格点。对我们来说,最大限度地利用我们的 AWS 计算资源意味着令人惊叹的性能提升。

    Stefan Cecelski,博士、高级数据科学家兼工程师 – Maxar Technologies
    阅读 Maxar 案例研究 »
  • INEOS TEAM UK

    INEOS TEAM UK 使用 AWS 加速面向美洲杯帆船赛的帆船设计。

    挑战:INEOS TEAM UK 成立于 2018 年,旨在将美洲杯帆船赛(世界上最古老的国际体育奖杯)引入英国。美洲杯帆船赛将水上测试时间限定在赛事开始前 150 天内,因此对单体船和翼板进行高性能计算流体力学(CFD)模拟是帆船设计获奖的关键。 

    解决方案:借助 AWS,INEOS TEAM UK 可在一周内为其面向美洲杯帆船赛的帆船执行数千次的设计模拟,而使用本地环境则需要一个多月。INEOS TEAM UK 在 2021 年参加了第 36 届美洲杯帆船赛。该帆船队使用基于 Amazon EC2 竞价型实例运行的 HPC 环境。  为确保快速的磁盘性能以支持每周数千次的模拟需求,该帆船队还使用了 Amazon FSx for Lustre 来提供基于 Amazon Simple Storage Service(S3)的快速、可扩展、安全的高性能文件系统。

    在 AWS 的帮助下,我们能够采取更大的设计步骤,这仅仅因为我们有更多时间来了解我们的结果。

    Nick Holroyd,设计主管 – INEOS TEAM UK
    阅读 INEOS TEAM UK 案例研究 »
详细了解 Amazon FSx 功能
查看 Amazon FSx 的功能

了解 Amazon FSx for Lustre 的主要功能。

了解更多 
注册免费 AWS 账户
注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中构建
开始在控制台中构建

开始在 AWS 管理控制台中使用 Amazon FSx for Lustre 构建。

登录