跳至主要內容

Amazon FSx for Lustre

Amazon FSx for Lustre 客戶

達托洛吉亞

DatologyAI 構建工具,可自動選擇最佳數據以訓練深度學習模型。

「我們很高興能使用亞馬遜 SageMaker HyperPod 的一鍵觀測解決方案。我們的資深員工需要深入了解我們如何利用 GPU 資源。預先建置的 Grafana 儀表板將為我們提供我們所需的功能,並立即了解關鍵指標(從任務特定 GPU 使用率到文件系統(FSx for Lustre)效能),而不需要我們維護任何監控基礎架構。作為欣賞 Prometheus 查詢語言功能的人,我喜歡自己可以編寫自己的查詢和分析自定義指標,而不必擔心基礎架構問題的事實。」

喬什·威爾斯,達托洛格亞技術人員

Missing alt text value

阿波伊達集團

Apoidea 使用尖端的生成人工智能和深度學習技術,為跨國銀行開發 AI 驅動的解決方案。他們的旗艦產品 SuperACC 是一項複雜的文檔處理服務,採用專有模式來處理各種財務文件,包括銀行對帳單和 KYC 表格。這項技術顯著提高了銀行業的效率,將財務分散處理時間從 4-6 小時縮短到僅 10 分鐘。

為了支援這項開發,Apoidea 利用 Amazon SageMaker HyperPod,它為大規模模型訓練提供可擴充且靈活的環境。SageMaker HyperPod 具有分散式訓練管理、與 FSx for Lustre 的無縫資料同步,以及可自訂的環境,所有這些功能都可提升 ML 工作流程效率。

Missing alt text value

Adobe

Adobe 成立於 40 年前,僅旨在打造改變世界的創新產品,該公司提供突破性技術,讓每個人都能夠想像、創造並將任何數位體驗帶入現實生活中。Adobe 決定為創意使用案例量身定制的基礎世代人工智能模型而不依賴開源模型,而不是依賴開源模型。Adobe 在 AWS 上建立 AI「超級高速公路」,以建置 AI 訓練平台和資料管道,進而迅速地反覆運作模型。Adobe 使用 Amazon FSx 進行 Lustre 高效能檔案儲存,快速存取資料,並確保 GPU 資源永遠不會閒置。

「很容易認為我會創建自己的 AI 雲,但與 AWS 的合作夥伴關係讓我們可以專注於我們的區別因素」

Alexandru Costin,Paytm 生成式 AI 和 Sensei 副總裁

Missing alt text value

LG 人工智能重新搜索

LG AI Research 是韓國集團 LG 集團的人工智能 (AI) 研究中心,成立為推廣人工智能作為其數位轉型策略的一部分,以推動未來增長。該研究機構在一年內使用亞馬遜 SageMaker 和亞馬遜 FSx for Lustre 開發了其基礎模型 EXAONE 引擎。基礎模型通過大規模數據培訓模仿人類的思考、學習和採取行動。該多功能基礎模型可在各種產業中用於執行各種任務。

The logo of LG Electronics, featuring a stylized 'L' and 'G' inside a circle with the text 'LG Electronics' next to it.

佩奇

Paige 是領先的數位病理提供商,致力於增強其用於癌症診斷的 AI 和 ML 模型,但在內部部署解決方案面臨了限制。為了克服這種問題,佩奇採用了亞馬遜 EC2 P4d 執行個體和 Amazon FSx 的 Lustre,後者與 Amazon S3 儲存區整合,以有效率地處理 PB 的 ML 輸入資料。此 AWS 基礎架構使 Paige 能夠處理資料,而無需在高效能檔案系統上手動預設。因此,Paige 數據培訓能力提高了十倍,並且內部工作流程更快 72%。

「透過將 Amazon FSx for Lustre 連接至 Amazon S3,我們可以在現場部署基礎架構中嘗試過的 10 倍數據量,毫無問題地進行訓練。「

Paige 職員 AI 工程師 Alexander van Eck

The logo for Paige, featuring a stylized abstract circular design and the text 'Paige'.

Toyota

Toyota Research Institute (TRI) 從自動駕駛車輛 (AV) 試駕中收集和處理大量感應器資料。每個訓練資料集都會安裝在內部部署 NAS 裝置中,然後傳輸到 Amazon 簡易儲存服務 (Amazon S3),然後再在強大的 GPU 運算叢集上進行處理。TRI 需要高效能檔案系統與運算資源配對、加速機器學習模型訓練,並縮短資料科學家產生洞察的時間。Toyota Research Institute 選擇 FSx for Lustre 來縮短物件辨識機器學習訓練時間。

「我們需要一個平行檔案系統來進行 ML 訓練資料集,並且選擇了 Amazon FSx for Lustre,因為它與舊版檔案系統產品相比,更高的可用性和耐用性。與 AWS 服務(包括 S3)的整合也使其成為我們高效能檔案儲存的首選選項。「

Toyota Research Institute 軟體工程師 David Fluck

Logo of the Toyota Research Institute featuring a geometric design with red, black, and gray elements and the text 'TOYOTA RESEARCH INSTITUTE' below it.

Shell

Shell 提供充滿活力的能源選項組合,包括石油、天然氣、石化、風能、太陽能和氫氣。Shell 很榮幸能夠為客戶提供生活所需的能源。Shell 依賴 HPC 進行模型建置、測試和驗證。從 2020 年到 2022 年,GPU 平均使用率低於 90%,導致專案延遲,也對新演算法的實驗造成限制。Shell 透過 Amazon EC2 叢集和 Amazon FSx for Lustre 擴充雲端,藉此擴充其內部部署運算容量。此解決方案讓 Shell 能夠快速縱向擴展和縮減規模,並且僅在需要時購買額外的運算容量。Shell 的 GPU 現在已充分利用,讓運算成本得以降低,並加速機器學習模型測試。

Missing alt text value

Netflix

Netflix 針對媒體機器學習模型採用大規模分散式培訓,進行後期製作縮圖、視覺效果和預告片製作成數千部影片和數百萬片段。過去,由於跨節點複製和 40% GPU 閒置時間,Netflix 遭遇了冗長的等待時間。

Netflix 重新架構了他們的數據加載管道,並通過預計算所有視頻/音頻片段來提高其效率。Amazon FSx for Lustre 的效能使得 Netflix 可以讓 GPU 滿載,幾乎消除了 GPU 閒置時間。現在,透過預先運算和 FSx for Lustre,Netflix 的效能提升了 3-4 倍,將模型訓練時間從一週縮短為 1-2 天。

觀看 Netflix 視頻

Netflix 的第四季度劇集「皇冠」的製作遇到了前所未有的挑戰,在後期製作 VFX 工作計劃開始時,全球因為新冠肺炎疫情而封鎖。透過在 AWS 上採用雲端工作流程,包括 Amazon FSx Lustre 檔案伺服器以提升輸送量,Netflix 的內部 VFX 團隊由 10 位藝術家組成的內部 VFX 團隊能夠在短短 8 個月內無縫完成 600 多張視覺效果拍攝,同時只需 8 個月即可在遠端工作中完成。

Missing alt text value

Storengy

ENGIE Group 旗下子公司 Storengy 是一家領先的天然氣供應商。該公司為全球企業提供天然氣儲存、地熱解決方案、無碳能源生產和儲存技術。

為了確保產品妥善儲存,Storengy 使用高科技模擬器來評估地下天然氣儲存,這個過程需要大量使用高效能運算 (HPC) 工作負載。該公司還使用 HPC 技術來執行天然氣探索和勘探作業。

「由於 AWS,我們擁有可擴充性和高可用性,可同時執行數百種模擬。此外,該解決方案會自動上升或降低以支援我們的高峰工作負載期間,這意味著我們對 HPC 環境沒有任何驚喜。「

Storengy 工程師 Jean-Frederic Thebault

Missing alt text value

Smartronix

Smartronix 利用 FSx for Lustre,為其 SAS Grid 部署提供可靠的高效能。

Smartronix 為許多全球領先的商業和聯邦組織提供雲端解決方案、網路安全、系統整合、全球 C5ISR 和資料分析,以及具備以任務為中心的工程設計能力。Smartronix 依賴 SAS Grid 分析和提供全國的新冠疫情每日統計資料,並發現對自我管理的平行檔案系統進行管理和保護的難度很高。

「與 AWS 合作並利用它們的管理解決方案,例如 FSx for Lustre,使我們能夠更好地為客戶提供服務,而可用性更高,成本比自我管理的檔案系統降低 29%。「

Smartronix 資深解決方案架構師 Rob Mounier

Missing alt text value

Hyundai

現代汽車公司是一家出口到 200 多個國家的全球汽車製造商,使用語義分段進行自動駕駛,將圖像像素分類為道路、人和建築等類別。

為了提高模型準確度並符合截止日期,現代汽車實施了 Amazon SageMaker,可跨多個 GPU 進行自動化訓練和資料平行處理,以及 Amazon FSx for Lustre 和 S3,以實現有效率的資料儲存和處理。這些解決方案幫助現代汽車利用 64 個 GPU 實現 93% 的擴展效率,同時消除了數據等待時間。

A plain solid dark blue background image.

Rivian

Amazon FSx for Lustre 在 Rivian 雲端轉型中扮演著重要的角色,為其電腦輔助工程和設計工作負載提供所需的快速共用儲存存存取權。Rivian 使用 FSx for Lustre 作為 AWS 解決方案的一部分,大幅改善了其效能指標,包括產品生命週期管理互動速度提高 66%,並將備份同步時間從一天縮短至少於一小時。

完全受管的儲存服務與 Amazon EC2 和 Auto Scaling 等其他 AWS 服務一起實施,幫助 Rivian 克服其內部部署基礎架構限制,並在短短三週內實現可擴展的高效能運算功能,與預期的六個月時間相比。

Missing alt text value

登索

Denso 為先進駕駛輔助系統 (ADAS) 開發影像感測器,可協助駕駛員執行停車和更換車道等功能。為了開發 ADAS 影像辨識所需的 ML 模型,DENSO 已在其內部部署環境中建置 GPU 叢集。但是,多位 ML 工程師共用有限的 GPU 資源,此情況影響了生產力,尤其是在新產品發布前的忙碌期間。

通過在 Lustre 中採用 Amazon SageMaker 和 Amazon FSx,Denso 能夠通過縮短資料採集、模型開發、學習和評估時間來加速 ADAS 影像識別模型的建立。

「轉移到雲端的做法將在人工智能和 ML 領域持續加速。我相信,隨著我們繼續新增功能,AWS 會繼續為我們提供支援。」

DENSO 總經理 Kensuke Yokoi

DENSO logo with the tagline 'Crafting the Core' in red text on a white background.

T-Mobile

T-Mobile 透過實作 Amazon FSx for Lustre 來改變了 SAS 電網基礎架構,以解決效能問題和高管理費用的自我管理系統。

使用 FSx for Lustre 的部署並與亞馬遜 S3 整合,使 T-Mobile 能夠將 SAS 電網工作負載速度加倍,同時實現了 1.5 萬美元的年度節省 1.5 萬美元,並降低了 83% 的總擁有成本。

該解決方案消除了營運負擔,讓 T-Mobile 能夠專注於開發創新客戶產品的核心業務,同時利用 AWS 的進階儲存功能。

Missing alt text value

Maxar

Maxar Technologies 是地球智能和太空基礎設施的值得信賴的合作夥伴和創新者,與其內部部署超級計算機相比,需要更快地提供天氣預報。Maxar 與 AWS 合作,建立具有關鍵技術的 HPC 解決方案,包括 AMAZON EC2 提供安全、高度可靠的運算資源、Amazon FSx 來加速其應用程式的讀寫輸送量,以及 AWS ParallelCluster 可快速在 AWS 上建置 HPC 運算環境。

「Maxar 在我們的 AWS HPC 解決方案中使用了 Amazon FSx 來運行 NOAA 的數值天氣預測模型。這使我們能夠將運算時間縮短 58%,並在約 45 分鐘內產生預測,以獲得更具成本效益的價格點。最大化 AWS 運算資源對我們來說是一項令人難以置信的效能提升。「

Maxar Technologies 資深資料科學家和工程師 Stefan Cecelski 博士

Missing alt text value

黑刺治療(諾伊莫拉)

使用標準的 DIY 雲端檔案系統處理磁共振成像 (MRI) 資料需要耗資源和時間。BlackThorn 需要運算密集的共用檔案儲存解決方案,協助簡化資料科學和機器學習工作流程。Amazon FSx for Lustre 與亞馬遜 S3 和亞馬遜 SageMaker 整合,為其機器學習訓練資料集提供快速處理,並且使用 Amazon EC2 執行個體無縫存取運算。

「FSx for Lustre 使我們能夠創建高性能的磁力共振數據處理管道。與數天和幾週相比,我們基於 ML 的工作流程的數據處理時間縮短到幾分鐘。「

BlackThorn Therapeutics 創新與技術資深總監 Oscar Rodriguez

Logo for BlackThorn Therapeutics, featuring a stylized network globe design in blue and the company name.

Qubole

Qubole 正在尋找高效能儲存解決方案,以為其客戶處理分析和 AI/ML 工作負載。他們需要輕鬆存放和處理 EC2 Spot 機群中保存的中繼資料。Qubole 使用 Amazon FSx for Lustre,透過其平行、高速檔案系統儲存和處理中間資料。

「我們使用者的兩大問題,即高成本和中間資料遺失,是由於使用閒置 EC2 執行個體和 EC2 Spot 執行個體來處理和儲存由 Hive 和 Spark 等分散式處理架構產生的中間資料所產生的。我們可以使用 Amazon FSx for Lustre (一種高效能的檔案系統) 卸載中繼資料,藉此解決這個問題。使用者現在無需支付費用,即可維護閒置執行個體,也不會受到中斷的 EC2 Spot 節點影響。亞馬遜 FSx 幫助我們的使用者降低 30% 的總成本。「

Qubole 技術長 Joydeep Sen Sarma

The Qubole company logo featuring the text 'Qubole' with the 'Qu' in white on a blue square background and 'bole' in black text on a white background.