張貼日期: Dec 1, 2019
Amazon SageMaker Operators for Kubernetes 可讓開發人員和資料科學家在 Amazon SageMaker 中,使用 Kubernetes 訓練、調整和部署機器學習 (ML) 模型。
客戶使用一般用途容器協調系統 Kubernetes 設定可重複的管道,並保持對工作負載的更好控制和可攜性。但是,在 Kubernetes 中執行 ML 工作負載時,客戶還必須管理和最佳化基礎 ML 基礎架構,確保高可用性和可靠性,提供 ML 工具讓資料科學家效率更高,且符合適當的安全和監管要求。藉由 Amazon SageMaker Operators for Kubernetes,客戶可以使用 Kubernetes API 或 Kubernetes 工具 (例如 kubectl) 叫用SageMaker,來在 SageMaker 中建立並與其 ML 任務互動。這可為 Kubernetes 客戶提供可攜性,並透過Amazon SageMaker 標準化 Kubernetes 和 EKS 的優勢,以及完全受管 ML 服務的優勢。
客戶可以使用 Amazon SageMaker Operators 進行模型訓練、模型超參數最佳化、即時推論,以及批次推論。對於模型訓練,Kubernetes 現在可以在 SageMaker 中利用完全受管的 ML 模型訓練的所有優勢,包括受管 Spot 訓練,可節省 90% 的成本,以及利用散發的訓練擴展至多個 GPU 節點來縮短訓練時間。運算資源僅在請求時佈建,需要時擴展,以及在任務完成時自動關閉,確保近乎 100% 的利用率。對於超參數調校,客戶可以使用 SageMaker 的自動模型調校,節省資料科學家數天、甚至數週改進模型準確度的時間。客戶還可以使用 Spot 執行個體進行自動模型調校。對於推論,客戶可以使用 SageMaker Operators 在 SageMaker 中將訓練的模型部署至完全受管的自動調整規模叢集,跨多個可用性區域分散,以針對即時或批次預測提供高效能和可用性。
Amazon SageMaker Operators for Kubernetes 截止本文撰寫時可在美國東部 (俄亥俄)、美國東部 (維吉尼亞北部)、美國西部 (奧勒岡) 以及歐洲 (愛爾蘭) 區域使用。您可以透過使用者指南和 GitHub 儲存庫中的逐步教學課程開始入門。