Amazon FSx for Lustre 客戶
-
Adobe
Adobe 成立於 40 年前,基於打造改變世界之創新產品的簡單想法,Adobe 提供突破性技術,讓每個人都能夠想像、創造並將任何數位體驗帶入生活中。
挑戰:Adobe 決定訓練自己專為創意使用案例量身打造的基礎生成式 AI 模型,而不是依賴開放原始碼模型。
解決方案:Adobe 在 AWS 上建立 AI 超級高速公路,以建置 AI 訓練平台和資料管道,進而迅速地反覆運作模型。Adobe 使用 Amazon Elastic Compute Cloud (Amazon EC2) P5、採用 NVIDIA GPU 技術的 P4d 執行個體、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Block Store (Amazon EBS) 和 Amazon Elastic Fabric Adapter (EFA) 來建置其解決方案。Adobe 還使用 Amazon Simple Storage Service (Amazon S3) 來充當資料湖和主要儲存器,以儲存大量資料。Adobe 使用 Amazon FSx for Lustre 高效能檔案儲存來快速存取資料,並確保 GPU 資源絕不會閒置。
-
LG AI Research
LG AI Research LG AI Research 與世界一流的 AI 專家共同合作,透過提供最佳的研究環境並運用最先進的 AI 技術,致力於帶領下一個 AI 時代,與您一起實現充滿前景的未來。
挑戰:LG AI Research 必須在一年內將其基礎模型 EXAONE 部署到生產環境裡。EXAONE 的含義是「每個人的專家級 AI」,是一個使用圖像和文字資料的多模態模型,具有 3,000 億個參數。
解決方案:LG AI Research 使用 Amazon SageMaker 訓練其大規模基礎模型,並使用 Amazon FSx for Lustre 將資料分發到各執行個體以加速模型訓練。LG AI Research 必須在一年內將其基礎模型 EXAONE 部署到生產環境中。由於不再需要單獨的基礎結構管理團隊,LG AI Research 順利在一年內部署 EXAONE,也將成本降低了約 35%。
-
Paige
Paige 是領先業界的數位病理學轉型供應商,提供全面、採用 AI 提供技術支援的 Web 型解決方案,為癌症診斷帶來效率和信心。
挑戰:Paige 的內部部署解決方案已達上限。他們的目標是訓練 AI 和 ML 模型來協助癌症病理學。Paige 發現,他們的運算容量越多,就可以更快訓練模型並幫助解決診斷問題。
解決方案:為了執行 ML 訓練工作負載,Paige 選擇了採用 NVIDIA A100 Tensor 核心 GPU 提供支援的 Amazon EC2 P4d 執行個體,這些執行個體可為雲端 ML 訓練和 HPC 應用程式提供高效能。Paige 使用 Amazon FSx for Lustre,這是在熱門高效能檔案系統上建置的全受管的共用儲存空間。該公司將此服務與其部分 Amazon S3 儲存貯體連接,協助開發團隊處理數以 PB 計的 ML 輸入資料,而無需在高效能檔案系統上手動預先設置資料。AWS 解決方案的結果是,Paige 可以使用 AWS 機器學習基礎結構來訓練 10 倍數量的內部部署資料。 Paige 也運用了 Amazon EC2 和 Amazon FSx for Lustre,讓內部工作流程加快 72%。
-
Toyota
Toyota Research Institute 選擇 FSx for Lustre 來縮短物件辨識機器學習訓練時間。
Toyota Research Institute (TRI) 從自動駕駛車輛 (AV) 試駕中收集和處理大量感應器資料。每個訓練資料集都會暫存在內部部署 NAS 裝置中,並傳輸到 Amazon Simple Storage Service (Amazon S3),之後才在功能強大的 GPU 運算叢集上進行處理。TRI 需要高效能檔案系統與運算資源配對、加速機器學習模型訓練,並縮短資料科學家產生洞察的時間。
-
Shell
Shell 提供各式各樣的能源選擇組合,從石油、天然氣和石油化學製品,到風力、太陽能和氫氣;Shell 很榮幸能為客戶提供生活所需的能源。
挑戰:Shell 依賴 HPC 進行模型建置、測試和驗證。從 2020 年到 2022 年,GPU 平均使用率低於 90%,導致專案延遲,也對新演算法的實驗造成限制。
解決方案:Shell 透過 Amazon EC2 叢集和 Amazon FSx for Lustre 拓展到雲端,藉此擴增其內部部署運算容量。此解決方案讓 Shell 能夠快速縱向擴展和縮減規模,並且僅在需要時購買額外的運算容量。Shell 的 GPU 現在已充分利用,讓運算成本得以降低,並加速機器學習模型測試。
-
Storengy
ENGIE Group 旗下子公司 Storengy 是一家領先的天然氣供應商。該公司為全球企業提供天然氣儲存、地熱解決方案、無碳能源生產和儲存技術。
為了確保產品妥善儲存,Storengy 使用高科技模擬器來評估地下天然氣儲存,這個過程需要大量使用高效能運算 (HPC) 工作負載。該公司還使用 HPC 技術來執行天然氣探索和勘探作業。
-
Smartronix
Smartronix 利用 FSx for Lustre,為其 SAS Grid 部署提供可靠的高效能。
Smartronix 為許多全球領先的商業和聯邦組織提供雲端解決方案、網路安全、系統整合、全球 C5ISR 和資料分析,以及具備以任務為中心的工程設計能力。Smartronix 依賴 SAS Grid 分析和提供全國的新冠疫情每日統計資料,並發現對自我管理的平行檔案系統進行管理和保護的難度很高。
-
Netflix
Netflix 是一種串流服務,提供各式各樣獲獎肯定的電視節目、電影、動畫、紀錄片等內容。
挑戰:Netflix 為媒體 ML 模型採用大規模的分散式訓練,提供數千部影片和數百萬片段的後製縮圖、VFX 和預告片製作。過去,由於跨節點複製和 40% GPU 閒置時間,Netflix 遭遇了冗長的等待時間。
解決方案:Netflix 重新架構了資料載入管道,並透過預先運算所有視訊/音訊片段的方式來提高其效率。Netflix 還選擇了 Amazon UltraClusters (EC2 P4d 執行個體) 來加速運算效能。Amazon FSx for Lustre 的效能使得 Netflix 可以讓 GPU 滿載,幾乎消除了 GPU 閒置時間。現在,透過預先運算和 FSx for Lustre,Netflix 的效能提升了 3-4 倍,將模型訓練時間從一週縮短為 1-2 天。
-
Hyundai
Hyundai Motor Company 是全球備受矚目的知名汽車製造商,其品牌汽車出口到 200 多個國家。
挑戰:語義分割是經常在自動駕駛中使用的演算法其中之一,這是使用物件類別來註釋影像的每個像素的一種任務。這些類別可以是道路、人、汽車、建築、草木,天空等等。Hyundai 測試精確度,並且會收集其他影像來修正特定情況中不充分的預測效能。然而,這可能是一個挑戰,因為通常沒有足夠的時間準備所有的新資料,同時也很難有足夠的時間來訓練模型並符合預定的截止日期。
解決方案:Hyundai 選擇了 Amazon SageMaker 來自動化模型訓練,並且選擇了 Amazon SageMaker 程式庫進行資料平行處理,從單一 GPU 轉移到分散式訓練。他們選擇 Amazon FSx for Lustre 來訓練模型而無須等待資料副本。他們也選擇了 Amazon S3 作為他們的永久資料儲存方式。Hyundai 透過 8 個 GPU 執行個體 (或總共 64 個 GPU) 來實現高達 93% 的擴展效率。FSx for Lustre 使 Hyundai 能夠以零等待時間,針對相同的資料執行多項訓練工作和實驗。
-
Rivian
Rivian 的使命是讓世界永遠大膽冒險。我們相信可以透過更負責的方式探索世界,並決心使朝向永續運輸的過渡變成令人興奮的過程。
為了滿足快速的工程設計時間表,並降低對實體設計原型的需求,電動車製造商 Rivian 仰賴先進的建模和模擬技術。具備高度運算效能的模擬技術讓工程師得以測試新的概念,並可加快設計上市的腳步。
-
DENSO
Denso 為先進駕駛輔助系統 (ADAS) 開發影像感應器,這套系統可透過停車和更換車道等功能來協助駕駛。
挑戰:為了開發 ADAS 影像辨識所需的 ML 模型,DENSO 在其內部部署環境中建置了 GPU 叢集。但是,多位 ML 工程師共用有限的 GPU 資源,此情況影響了生產力,尤其是在新產品發布前的忙碌期間。
解決方案:透過採用 Amazon SageMaker 和 Amazon FSx for Lustre,Denso 能夠縮短資料採集、模型開發、學習和評估時間,藉此加速 ADAS 影像識別模型的建立。
-
Joby Aviation
Joby Aviation 使用 AWS 徹底改變運輸。
挑戰:Joby 工程師依賴高效能運算 (HPC) 來執行數千個複雜、運算密集運算流體動力學 (CFD) 模擬,這些模擬每個都使用數百個 CPU 核心,可能需要數小時才能完成。
解決方案:使用 Amazon Elastic Compute Cloud (Amazon EC2) 和 Amazon FSx for Lustre,與內部部署高效能運算基礎設施相比,Joby 可以更快地從 CFD 工作負載取得結果。
-
T-Mobile
T-Mobile 實現了每年省下 150 萬美元的目標,並使用 Amazon FSx for Lustre,將 SAS Grid 工作負載速度提升兩倍。
挑戰:T-Mobile 在自我管理的 SAS Grid 工作負載方面遇到了高額管理開銷費用和效能困難。
解決方案:T-Mobile 部署的 Amazon FSx for Lustre 是全受管的高效能檔案系統,可移轉和擴展其 SAS Grid 基礎設施。T-Mobile 利用 Amazon FSx 和 S3 的緊密整合,降低儲存開銷並最佳化營運。
-
Netflix
Netflix 的第四季度劇集「皇冠」的製作遇到了前所未有的挑戰,在後期製作 VFX 工作計劃開始時,全球因為新冠肺炎疫情而封鎖。透過採用 AWS 上的以雲端為基礎的工作流程 (包含提高輸送量的 Amazon FSx Lustre 檔案伺服器),由 10 位藝術家組成的 Netflix 內部 VFX 團隊可以在僅 8 個月內無縫完成本季 10 集劇集的超過 600 場 VFX 拍攝,全部工作在遠端完成。
-
Maxar
Maxar 使用 AWS 提供預測的速度比天氣超級電腦快 58%。
挑戰:Maxar Technologies 是地球智慧和太空基礎設施值得信賴的合作夥伴和創新者,與其內部部署超級電腦相比,他們需要加快天氣預報的提供速度。
解決方案:Maxar 與 AWS 合作,共同建立 HPC 解決方案,包括提供安全、高度可靠運算資源的 Amazon Elastic Compute Cloud (Amazon EC2)、可加速應用程式讀取/寫入輸送量的 Amazon FSx for Lustre,以及可在 AWS 上快速建立 HPC 運算環境的 AWS ParallelCluster 等關鍵技術。
-
INEOS TEAM UK
INEOS TEAM UK 使用 AWS 加速美國盃的船隻設計。
挑戰:INEOS TEAM UK 成立於 2018 年,旨在將美國盃 (世界上最古老的國際體育獎杯) 帶到英國。美國盃將水上測試限制在賽事前不超過 150 天,因此單體船和水翼的高效能運算流體動力學 (CFD) 模擬成為成功船隻設計的關鍵。
解決方案:INEOS TEAM UK 透過 AWS,可以處理數千個設計模擬,使用內部部署環境將其在一週中所使用的美國盃船隻與其超過一個月所使用的船隻進行比對。INEOS TEAM UK 完成 2021 年第 36 屆美國盃賽事。該團隊使用的是在 Amazon EC2 Spot 執行個體上執行的 HPC 環境。 為確保每週完成之數千個模擬的快速磁碟效能,團隊還使用了 Amazon FSx for Lustre 提供基於 Amazon Simple Storage Service (S3) 的快速、可擴展和安全的高效能檔案系統。
-
Hive VFX
Hive VFX 可降低工作室前期成本,並在 AWS 上以雲端 VFX 工作室的形式運作。
挑戰:Hive 需要高效能基礎設施,為世界各地的遠端工作藝術家推出小型獨立的雲端工作室,讓他們能夠創作優質的內容。
解決方案:與 Amazon S3 整合的全受管 Amazon FSx for Lustre,可讓您快速存取 AWS 運算資源,而無需大量的前期投資或內部 IT 團隊專業知識。FSx Lustre 和 S3 之間的檔案資料和檔案許可的流暢同步,讓 Hive VFX 能夠在各大洲存放大量影像並共用專案資料。
-
Lyell
Lyell 利用 Amazon FSx for Lustre 加速以細胞為基礎的癌症療法研究。
挑戰:Lyell 提供以細胞為基礎的癌症療法研究,這些研究需要執行大規模蛋白質運算設計。這些工作負載傳統上是在內部部署執行,但該公司需要更具可擴展性、更具成本效益的解決方案,因為他們每月實驗的執行次數只有一次。
解決方案:自從將檔案系統遷移到 FSx for Lustre 後,資料科學家可以啟動和關閉成千上萬個由 EC2 執行個體和 Amazon FSx 檔案系統組成的 HPC 叢集,讓他們能夠快速執行需要大量處理能力的實驗,而且只支付工作負載期間的運算和儲存費用。
-
BlackThorn Therapeutics
BlackThorn Therapeutics 透過 FSx for Lustre 縮短洞察產生時間。
挑戰:使用標準的 DiY 雲端檔案系統處理磁振造影 (MRI) 資料需要耗費大量資源和時間。BlackThorn 需要運算密集的共用檔案儲存解決方案,協助簡化資料科學和機器學習工作流程。
解決方案:Amazon FSx for Lustre 與 Amazon S3 和 Amazon SageMaker 整合,可為其機器學習訓練資料集提供快速處理,以及使用 Amazon EC2 執行個體進行流暢的運算存取。
-
Qubole
Qubole 透過 Amazon FSx for Lustre 改善資料耐用性,同時降低成本。
挑戰:Qubole 正在尋求高效能儲存解決方案,來處理客戶的分析和 AI/ML 工作負載。他們需要輕鬆存放和處理 EC2 Spot 機群中保存的中繼資料。
解決方案:Qubole 使用 Amazon FSx for Lustre,透過其平行、高速的檔案系統來存放和處理中繼資料。