張貼日期: Jul 17, 2018
Amazon SageMaker 現已支援適用於內建 TensorFlow 容器的管道輸入模式。「管道輸入模式」採用 TensorFlow 資料集建構,可從 Amazon Simple Storage Service (Amazon S3) 直接將資料串流至訓練執行個體上的 TensorFlow 容器。
此功能可加快訓練工作的開始時間、提供更優異的輸送量並且降低磁碟空間用量,因此可針對 Amazon SageMaker 大幅降低模型訓練成本。例如,我們在今年稍早實行的內部基準測試中推出了適用於 Amazon Sagemaker 內建演算法的管道輸入模式,針對 78GB 訓練資料集可縮短 87% 的開始時間,且在部分基準測試中亦展現兩倍快的優異輸送量,可將總計訓練時間縮短 35%。
在推出「管道輸入模式」前,資料都是從 Amazon S3 載入到使用檔案輸入模式之訓練執行個體所附加的 Amazon Elastic Block Store (Amazon EBS) 磁碟區,且必須透過磁碟空間存放您的最終模型成品和完整培訓資料組。若訓練工作執行多個 epoch 且其具有完全佔用記憶體的資料集,則「檔案輸入模式」仍非常實用。所有輸入模式皆可支援各式各樣的廣泛使用案例,從小型實驗性訓練工作到 PB 級的擴展分佈訓練工作皆可輕鬆駕馭。
現在起,適用於 Amazon SageMaker 中 TensorFlow 容器的「管道輸入模式」已於美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、歐洲 (愛爾蘭)、歐洲 (法蘭克福)、亞太區域 (東京)、亞太區域 (首爾) 及亞太區域 (雪梨) 等 AWS 區域推出。如需詳細資訊,請參閱 Amazon SageMaker 文件。