跳至主要内容

适用于 Lustre 的 Amazon FSx

适用于 Lustre 的 Amazon FSx 客户

Datologyai

DatologyAI 构建的工具可以自动选择用于训练深度学习模型的最佳数据。

“我们很高兴使用亚马逊SageMaker HyperPod的一键可观测性解决方案。我们的高级员工需要深入了解我们如何利用 GPU 资源。预建的 Grafana 仪表板将为我们提供确切的需求,无需我们维护任何监控基础架构,即可即时查看关键指标——从特定任务的 GPU 利用率到文件系统(FSx for Lustre)性能。作为一个欣赏 Prometheus 查询语言强大功能的人,我喜欢这样一个事实,那就是我可以自己编写查询和分析自定义指标,而不必担心基础设施问题。”

Josh Wills,DatologyAI 技术人员

Missing alt text value

Apoidea 集团

Apoidea使用尖端的生成式人工智能和深度学习技术,为跨国银行开发人工智能驱动的解决方案。他们的旗舰产品SuperACC是一项复杂的文件处理服务,它采用专有模式来处理各种财务文件,包括银行对账单和KYC表格。这项技术极大地提高了银行业的效率,将财务分摊处理时间从4-6小时缩短到仅10分钟。

为了支持这一开发,Apoidea利用了亚马逊SageMaker HyperPod,它为大规模模型训练提供了可扩展且灵活的环境。SageMaker HyperPod 具有分布式训练管理、与 FSx for Lustre 的无缝数据同步以及可自定义的环境等功能,所有这些都提高了机器学习工作流程的效率。

Missing alt text value

Adobe

Adobe 成立于 40 年前,公司理念简单纯粹,即创造改变世界的创新产品。Adobe 提供突破性技术,让世界各地的每个人都能够想象、创造数字化体验,并将数字化体验融入日常生活。Adobe 决定训练自己的基础生成式 AI 模型,而不是依赖开源模型,专为创造性用例量身定制。Adobe 在 AWS 上创建了人工智能超级高速公路,用于构建人工智能训练平台和数据管道,用于快速迭代模型。Adobe 使用亚马逊 FSx 来实现 Lustre 高性能文件存储、快速访问数据并确保 GPU 资源永不闲置。

“很容易想到我会创建自己的人工智能云,但是与AWS的合作使我们能够专注于我们的差异化因素”

Alexandru Costin,Adobe 生成式人工智能和 Sensei 副总裁

Missing alt text value

LG 人工智能研究

LG AI Research是韩国集团LG集团的人工智能(AI)研究中心,成立的目的是促进人工智能,将其作为其数字化转型战略的一部分,以推动未来增长。该研究所使用亚马逊SageMaker和适用于Lustre的亚马逊FSx在一年内开发了其基础模型EXAONE引擎。基础模型通过大规模数据训练模仿人类自行思考、学习和采取行动。各个行业都可以使用这个多用途根基模型来执行一系列任务。

The logo of LG Electronics, featuring a stylized 'L' and 'G' inside a circle with the text 'LG Electronics' next to it.

佩奇

领先的数字病理学提供商Paige试图增强其用于癌症诊断的人工智能和机器学习模型,但本地解决方案面临局限性。为了克服这个问题,Paige 采用了 Amazon EC2 P4d 实例和 Amazon FSx for Lustre,将后者与亚马逊 S3 存储桶集成,以高效处理千兆字节的机器学习输入数据。这个 AWS 基础设施使 Paige 无需在高性能文件系统上手动预置即可处理数据。结果,Paige 将数据训练能力提高了十倍,内部工作流程加快了 72%。

“通过将 Amazon FSx for Lustre 连接到 Amazon S3,我们可以毫无问题地使用我们在本地基础设施中尝试过的数据量的 10 倍进行训练。“

Alexander van Eck,Paige staff AI engineer

The logo for Paige, featuring a stylized abstract circular design and the text 'Paige'.

丰田

Toyota Research Institute(TRI)收集并处理来自其自动驾驶汽车(AV)试驾的大量传感器数据。每个训练数据集都存储在本地 NAS 设备中并传输到亚马逊简单存储服务 (Amazon S3),然后在强大的 GPU 计算集群上进行处理。TRI 需要高性能文件系统,来匹配他们的计算资源,加快机器学习模型训练速度,并推动数据科学家快速获得见解。Toyota Research Institute 选用 FSx for Lustre 来缩短对象识别机器学习训练时间。

“我们的机器学习训练数据集需要一个并行文件系统,并选择了适用于 Lustre 的 Amazon FSx,因为与我们的传统文件系统产品相比,它的可用性和耐用性更高。与包括 S3 在内的 AWS 服务的集成也使其成为我们高性能文件存储的首选选项。“

David Fluck,软件工程师 – Toyota Research Institute

Logo of the Toyota Research Institute featuring a geometric design with red, black, and gray elements and the text 'TOYOTA RESEARCH INSTITUTE' below it.

Shell

壳牌提供动态的能源产品组合——从石油、天然气和石化产品到风能、太阳能和氢气——壳牌很自豪能够为客户提供生活所需的能源。Shell 依赖 HPC 进行模型构建、测试和验证。从 2020 年到 2022 年,GPU 利用率平均不到 90%,这导致了项目延迟而且限制了新算法实验的效果。壳牌借助亚马逊 EC2 集群和 Amazon FSx for Lustre 向云端猛增本地计算容量。该解决方案使 Shell 能够快速扩缩,并且仅在需要时才购买额外的计算容量。Shell 的 GPU 现已得到充分利用,从而降低了计算成本并加快了机器学习模型的测试。

Missing alt text value

Netflix

Netflix 对媒体机器学习模型、后期制作缩略图、视觉特效以及成千上万个视频和数百万个片段的预告片生成使用大规模分布式训练。由于跨节点复制和 40% 的 GPU 空闲时间,Netflix 的等待时间很长。

Netflix 重新设计了数据加载管道,并通过预先计算所有视频/音频片段来提高其效率。通过适用于 Lustre 的 Amazon FSx 性能,Netflix 能够让 GPU 饱和,几乎消除 GPU 的空闲时间。现在,使用预计算和适用于 Lustre 的 FSx,Netflix 的性能提高了 3-4 倍,将模型训练时间从一周缩短到 1-2 天。

观看 Netflix 视频

Netflix 的剧集《王冠》第四季的制作面临着意想不到的挑战,因为新型冠状病毒感染疫情,世界进入了封锁状态,而当时正值后期特效工作开始的时候。通过在AWS上采用基于云的工作流程,包括Amazon FSx Lustre文件服务器以提高吞吐量,Netflix由10位艺术家组成的内部视觉特效团队能够在短短8个月内无缝完成本季10集的600多张视觉特效镜头,同时还能远程办公。

Missing alt text value

Storengy

ENGIE Group 的子公司 Storengy 是出色的天然气供应商。该公司为全球企业提供天然气储存、地热解决方案、无碳能源生产和储存技术。

为确保正确储存其产品,Storengy 使用高科技模拟器来评估地下天然气储存情况,该过程需要大量使用高性能计算(HPC)工作负载。该公司还使用 HPC 技术开展天然气发现和勘探工作。

“有了 AWS,我们具有可扩展性和高可用性,可以一次执行数百次模拟。此外,该解决方案会自动向上或向下扩展以支持我们的高峰工作负载时段,这意味着我们的 HPC 环境不会有任何意外。“

Jean-Frederic Thebault – Storengy 工程师

Missing alt text value

Smartronix

Smartronix 利用 FSx for Lustre 为其 SAS Grid 部署提供可靠的高性能。

Smartronix 为世界上许多知名的商业和联邦组织提供云解决方案、网络安全、系统集成、全球 C5ISR 和数据分析,以及以任务为中心的工程。Smartronix 依靠 SAS Grid 来分析和提供全美范围内的新冠每日统计数据,发现他们自主管理的并行文件系统难以管理和保护。

“与AWS合作并利用他们的托管解决方案(例如FSx for Lustre),使我们能够更好地为客户提供服务,与自我管理的文件系统相比,可用性更高,成本降低29%。“

Rob Mounier – Smartronix 高级解决方案架构师

Missing alt text value

Hyundai

现代汽车公司是一家向200多个国家出口的全球汽车制造商,它使用语义分割进行自动驾驶,将图像像素分为道路、人和建筑物等类别。

为了提高模型准确性并按时完成任务,现代汽车实施了Amazon SageMaker,用于跨多个显卡的自动训练和数据并行处理,并实施了适用于Lustre的Amazon FSx和S3,以实现高效的数据存储和处理。这些解决方案帮助现代汽车使用 64 个 GPU 实现了 93% 的扩展效率,同时减少了数据等待时间。

A plain solid dark blue background image.

Rivian

适用于 Lustre 的 Amazon FSx 在 Rivian 的云转型中发挥了至关重要的作用,为其计算机辅助工程和设计工作负载提供了所需的快速共享存储访问权限。使用 FSx for Lustre 作为其 AWS 解决方案的一部分,Rivian 显著改善了其性能指标,包括将产品生命周期管理交互速度提高了 66%,并将备份同步时间从一天缩短到不到一小时。

完全托管的存储服务与 Amazon EC2 和 Auto Scaling 等其他 AWS 服务一起实施,帮助 Rivian 克服了本地基础设施的局限性,并在短短三周内实现了可扩展的高性能计算能力,而预期的时间为六个月。

Missing alt text value

Denso

电装为高级驾驶辅助系统 (ADAS) 开发图像传感器,为驾驶员提供停车和变道等功能。为了开发用于 ADAS 图像识别的必要机器学习模型,电装在其本地环境中构建了 GPU 集群。但是,多名机器学习工程师共享有限的 GPU 资源,这影响了工作效率,尤其是在新产品发布前的繁忙时期。

通过采用亚马逊 SageMaker 和亚马逊 FSx for Lustre,电装能够缩短数据采集、模型开发、学习和评估时间,从而加速 ADAS 图像识别模型的创建。

“在人工智能和机器学习领域,向云迁移的做法将继续加速。我相信,随着我们继续增加功能,AWS 将继续为我们提供支持。”

Kensuke Yokoi,DENSO general manager

DENSO logo with the tagline 'Crafting the Core' in red text on a white background.

T-Mobile

T-Mobile通过实施Amazon FSx for Lustre来改造其SAS网格基础设施,以解决其自我管理系统的性能问题和高额管理开销。

为Lustre部署FSx及其与亚马逊S3的集成,使T-Mobile的SAS网格工作负载速度提高了一倍,同时每年节省了150万美元,总拥有成本降低了83%。

该解决方案消除了运营负担,使T-Mobile能够专注于其核心业务,即开发创新的客户产品,同时利用AWS的高级存储功能。

Missing alt text value

Maxar

Maxar Technologies是地球情报和太空基础设施领域值得信赖的合作伙伴和创新者,与其本地超级计算机相比,它需要更快地提供天气预报。Maxar与AWS合作创建了采用关键技术的高性能计算解决方案,包括用于安全、高度可靠的计算资源的亚马逊EC2,用于加速其应用程序的读/写吞吐量的Amazon FSx for Lustre,以及用于在AWS上快速构建高性能计算环境的AWS ParallelCluster。

“Maxar在我们的AWS HPC解决方案中使用了Amazon FSx for Lustre来运行NOAA的数值天气预报模型。这使我们可以将计算时间缩短 58%,在大约 45 分钟内生成预测,从而实现更具成本效益的价格点。最大限度地利用我们的 AWS 计算资源对我们来说是一个不可思议的性能提升。“

Stefan Cecelski,博士、高级数据科学家兼工程师 – Maxar Technologies

Missing alt text value

黑刺疗法(Neumora)

使用标准的 DiY 云文件系统处理磁共振成像 (MRI) 数据是资源和时间密集型的。BlackThorn 需要一种计算密集型共享文件存储解决方案,以帮助简化他们的数据科学和机器学习工作流程。适用于 Lustre 的 Amazon FSx 已与亚马逊 S3 和 Amazon SageMaker 集成,可快速处理他们的机器学习训练数据集,并使用亚马逊 EC2 实例无缝访问计算。

“FsX for Lustre 使我们能够创建高性能 MRI 数据处理管道。与几天和几周相比,我们基于机器学习的工作流程的数据处理时间缩短到几分钟。“

Oscar Rodriguez,创新与技术高级总监 – BlackThorn Therapeutics

Logo for BlackThorn Therapeutics, featuring a stylized network globe design in blue and the company name.

Qubole

Qubole 正在寻找一种高性能存储解决方案,为其客户处理分析和 AI/ML 工作负载。他们需要轻松存储和处理其 EC2 竞价型实例集中的中间数据。Qubole 使用适用于 Lustre 的亚马逊 FSx 通过其并行高速文件系统存储和处理中间数据。

“我们的用户最大的两个问题,高成本和中间数据丢失,源于使用空闲的 EC2 实例和 EC2 竞价型实例来处理和存储由 Hive 和 Spark 等分布式处理框架生成的中间数据。通过使用 Amazon FSx for Lustre(一种高性能文件系统)来卸载中间数据,我们成功解决了这个问题。现在,我们的用户不必为维护闲置实例付费,也不会受到中断的 EC2 竞价型节点的影响。亚马逊 FSx 帮助我们的用户将总成本降低了 30%。“

Joydeep Sen Sarma,首席技术官 – Qubole

The Qubole company logo featuring the text 'Qubole' with the 'Qu' in white on a blue square background and 'bole' in black text on a white background.