張貼日期: Oct 10, 2018
Amazon SageMaker 現在包含改良的管道模式實作,不但可加快從 Amazon Simple Storage Service (S3) 串流資料到 SageMaker 的速度,還能訓練機器學習 (ML) 模型。相較於檔案模式,管道模式的最新實作可提供快上 9 倍的資料串流輸送量。
Amazon SageMaker 支援兩種傳輸訓練資料的方式:檔案模式與管道模式。使用檔案模式時,訓練資料會先下載至連接到訓練執行個體的加密 EBS 磁碟區,然後再開始訓練模型。使用管道模式時,資料則是在執行過程中直接串流到訓練演算法。此種方法不僅可加快訓練任務,需要的磁碟空間也較少,還能降低在 SageMaker 上訓練 ML 模型的整體成本。
您可根據自己的需求和環境,選擇適合本身使用案例的模式。舉例來說,如果您的訓練資料集是記憶體可以容納的規模,而且必須執行多個 epoch,那麼使用檔案模式並將訓練資料集全部載入記憶體可能較為容易。如果您有 I/O 密集型演算法,使用管道模式不僅能提高輸送量,也會連帶減少需要的磁碟區大小。
在所有提供 Amazon SageMaker 的 AWS 區域中,均可支援管道模式最新實作。如需更多詳細資訊,請參閱 Amazon SageMaker 文件。