如何對啟動 Amazon SageMaker 資源時容量不足的錯誤進行疑難排解?

上次更新日期:2022 年 11 月 16 日

當我嘗試啟動下列其中一個 Amazon SageMaker 資源時,出現容量不足的錯誤訊息:

  • 訓練任務
  • 批次轉換任務
  • 端點
  • 筆記本執行個體
  • SageMaker Studio 應用程式

解決方案

當 AWS 在特定區域或可用區域內的 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體類型沒有足夠的可用隨需容量來完成請求時,就會發生此錯誤。請注意,容量不是靜態的,會因一天中的時間和特定區域或可用區域中的工作負載而有所不同。套用至您帳戶的資源限制不會產生此錯誤。由於容量問題是暫時性的,因此請務必在收到這些錯誤時重試您的請求。

如果您馬上需要執行個體,請執行下列動作:

  • 切換至不同的執行個體類型。切換到同一系列中的不同執行個體大小,或根據您的工作負載使用不同的執行個體系列。不同的執行個體類型可能會有更多容量。
  • 在不同的區域中啟動資源。請務必確認每個區域中可用的 SageMaker 執行個體類型

如果您的請求可能遇到延遲,請稍後嘗試檢查您想要的執行個體是否可用。

根據您嘗試啟動的 SageMaker 資源,您也可以嘗試下列方法:

  • 如果您要啟動 SageMaker Studio 應用程式,最佳實務為使用涵蓋更廣泛可用區域的子網路來啟動 SageMaker Studio 網域。使用跨越多個可用區域的子網路來設定資源,將發生容量問題的可能性降至最低。
  • 如果您要啟動筆記本執行個體或訓練任務,請考慮使用相同的執行個體類型啟動執行個體,同時在不同的可用區域中指定不同的子網路。