減少 48%
計算成本
每月 150 萬活躍使用者
位於超過 160 個國家/地區
3.5 個月內
部署到 AWS 上
簡化
營運管理
最佳
效能
概觀
Codeway 在超過 160 個國家/地區擁有超過 1.4 億使用者,透過生成式人工智慧的力量,對行動應用程式和遊戲領域產生了重大影響。隨著使用者群的成長,Codeway 試圖提高支撐這項強大技術的工作負載的可擴展性、彈性和成本效率。
收到 Amazon Web Services (AWS) 的建議後,Codeway 選擇採用由 NVIDIA A10G Tensor Core GPU 提供支援的 Amazon Elastic Compute Cloud (Amazon EC2) G5 執行個體,這是 GPU 型高效能執行個體,適用於機器學習和圖形密集型應用程式,可為其影像生成應用程式 Wonder 提供支援。透過最佳化 Wonder 在 AWS 上的基礎架構,Codeway 保持了最佳效能,與之前的運算策略相比,降低了成本,並有效擴展以協助數百萬個內容創作者將他們的想法變為現實。
機會 | 擴展生成式 AI 的運算規模,同時降低 Codeway 的成本
Codeway 總部位於土耳其伊斯坦堡,開發由尖端技術 (尤其是生成式 AI) 驅動的行動應用程式和遊戲。Wonder 應用程式將文字轉化為數位影像;使用者輸入單字或句子,而 Wonder 透過部署 Stable Diffusion 模型來根據 AWS 上的 PyTorch 產生圖像,再將這些輸入轉換為藝術作品。根據訂閱方案,使用者可以下載高品質或低品質的影像版本。
由於 Wonder 的下載量已超過 2,830 萬名使用者,Codeway 努力將其運算和 GPU 能力發揮至最大。Wonder 的基礎架構分布於多個地區的各種雲端供應商。對於人工智慧 (AI) 推論工作負載,Codeway 使用託管在其中一個供應商上的 NVIDIA A100 Tensor Core GPU。但是,它遇到了影響效能的 GPU 容量問題。
「這些工作負載需要高度 GPU 密集的硬體。我們每個月都會增加數百萬使用者,因此我們對 GPU 的需求將只增不減,」Codeway 首席 DevOps 工程師 Ugur Arpaci 表示。「隨著我們管理的 GPU 從數百個上升到數千個,我們希望針對成本和效能進行最佳化,並找到適當的可擴展性策略。」
Amazon EC2 提供廣泛且深入的運算產品組合,擁有超過 600 個執行個體,供您選擇最新的處理器、儲存裝置、網路、作業系統和購買模型選項,協助客戶最妥善地滿足工作負載需求。Codeway 在尋找最佳化運算的方法時,發現一個理想的解決方案:由 NVIDIA A10G Tensor Core GPU 提供支援的 Amazon EC2 G5 執行個體。儘管 Codeway 可以選擇與其他雲端供應商類似的 GPU,但這些產品無法提供與 AWS 相同的可用性和可擴充性。
「AWS 團隊建議我們採用由 NVIDIA A10G Tensor Core GPU 提供支援的 Amazon EC2 G5 執行個體,來實現我們的性價比目標,」Arpaci 說。「我們開始測試這一點,也看到良好的成果。
在 AWS 上,我們可以區分工作負載,為使用者提供更好的效能。」
Ugur Arpaci
Codeway 首席 DevOps 工程師
解決方案 | 3.5 個月內,在 AWS 上為 Wonder 執行 PyTorch 型穩定擴散模型
在分析了 Amazon EC2 G5 執行個體的性價比後,Codeway 與 AWS 團隊密切合作,完成了入門流程。「我們一直與 AWS 的專家保持聯繫,」Arpaci 說。「我們遵循他們的指導,然後進行測試並計算我們這邊的成本。對於某些模型,我們意識到透過在 Amazon EC2 G5 執行個體上部署應用程式可以獲得最大收益。然後我們分享了我們的成果,並建立一個非常積極的回饋循環。」
入門流程快速且順暢,而且在 3.5 個月內,Codeway 已能在 AWS 上為 Wonder 執行生產工作負載。現在,它使用配備 A10G GPU 的 Amazon EC2 G5 執行個體,為免費版 Wonder 部署幾乎所有 AI 推論工作負載。為了為付費訂閱者產生完整高解析影像,Codeway 使用更強大的 A100 GPU,可以在更短的時間內產生更高品質的內容。使用 A10G 和 A100,該公司得以遵守針對輸出時間要求的所有服務等級協議。
「我們知道 A10G 的效能不如 A100,但某些工作負載不需要那麼高的 GPU 效能,」Arpaci 說。「現在,我們可以將這些大量工作負載從更強大的 GPU 中卸載,這些 GPU 現在僅用於高級使用者功能,例如高品質影像生成。」
為了進一步提高成本效率和效能,Codeway 採用 Amazon Elastic Kubernetes Service (Amazon EKS) 上的叢集 (Amazon EKS 是在 AWS 雲端和內部部署資料中心執行 Kubernetes 的受管服務),以根據需要,動態地上下調整 Amazon EC2 G5 執行個體。每個 Amazon EKS 叢集上都部署了自訂自動擴充解決方案,可以按需求智慧地要求更多執行個體。
為了管理執行個體,Codeway 依賴 Karpenter,這是一種開放原始碼節點佈建解決方案。此服務會根據 Codeway 的需求,有效地判斷並使用適當的執行個體類型。「Karpenter 實際上為我們選擇所需的執行個體數量並部署它們,然後我們再部署所需的工作負載。」Arpaci 說道。「整個流程都是自動化的,從操作角度來看,這簡化了很多因素。」
架構圖
成果 | 將運算成本降低 48%,以有效擴展生成式 AI
採用 Amazon EC2 G5 執行個體中的 A10G GPU,有助於 Codeway 邁向更具成本效益、穩健且可擴展的架構。該公司可以有效地進行擴展,以滿足使用量的尖峰和下降,因應全球使用者的需求。現在,數百萬 Wonder 使用者享受著應用程式和遊戲的增強體驗。
「借助由 NVIDIA A10G Tensor Core GPU 提供支援的 Amazon EC2 G5 執行個體,我們可以處理大部分 AI 推論工作負載,」Arpaci 說道。「透過在 AWS 上使用 A10G GPU 加速器,我們可以區分工作負載,為使用者提供更好的效能。」
在 AWS 上,Codeway 以最佳成本保持高效能和可用性。該公司調整 Amazon EC2 G5 執行個體的大小,並利用 Amazon EC2 Spot 執行個體 (其與隨需價格相比,在執行容錯工作負載方面最高可節省 90% 的成本),這個做法比起在 A100 GPU 上執行所有工作負載,得以降低了 48% 的運算成本。Wonder 的免費版本旨在將使用者轉換為付費訂閱者;透過降低免費提供的運算成本,Codeway 可以用相同價格獲得更多訂閱者。
展望未來,Codeway 將利用 AWS 服務保持在生成式 AI 領域的領先地位。它計劃將來加深與 AWS 的合作,並採用新服務來為其基礎架構的其他組件提供支持。例如,Codeway 正在評估多項 AWS 服務,例如 AWS Batch (這是一項可促進批次處理、機器學習模型培訓和大規模分析的服務),以標準化其 AI 培訓工作負載。
在 AWS 上,Codeway 在成功將生成式 AI「產品化」方面取得了巨大進展。由於這次變革之旅,其適應性強且有彈性的 AI 框架已準備好支援其不斷增長的使用者群。
關於 Codeway
Codeway 總部位於土耳其伊斯坦堡,推出由生成式人工智慧和其他尖端技術支援的行動應用程式。自 2020 年以來,分布於160 多個國家/地區的超過 1.4 億使用者下載了其應用程式。
使用的 AWS 服務
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) 提供最廣泛、最深入的運算平台,擁有超過 700 個執行個體,可選擇最新處理器、儲存、聯網、作業系統和購買模型,以協助您最有效地滿足工作負載需求。
Amazon EC2 G5 執行個體
Amazon EC2 G5 執行個體是最新一代 NVIDIA GPU 執行個體,可以在廣泛的圖形密集型工作和機器學習使用案例中運用。
Amazon EKS
Amazon Elastic Kubernetes Service (Amazon EKS) 是一項受管 Kubernetes 服務,用於在 AWS 雲端和內部部署資料中心執行 Kubernetes。
AWS Batch
AWS Batch 讓開發人員、科學家和工程師得以在優化運算資源的同時高效地執行數十萬個批次處理和 ML 運算任務,因此您可以專注於分析結果和解決問題。
更多生成式 AI 客戶案例
開始使用
各行各業各種規模的組織每天都在使用 AWS 來變革其業務和履行其使命。聯絡我們的專家,立即開始您的專屬 AWS 雲端之旅。