建立

用於編寫模型的受管筆記本

Amazon SageMaker 提供執行 Jupyter notebooks 的全受管執行個體,用於訓練資料探索及預先處理。這些筆記本會預先載入熱門深度學習平台的 CUDA 和 cuDNN 驅動程式、Anaconda 套裝,以及適用於 TensorFlow 和 Apache MXNet 的程式庫。

只要您按一下滑鼠,即可存取使用 Jupyter 開放原始碼筆記本格式的全受管機器學習筆記本環境。

這些筆記本工作空間讓您幾乎可以使用所有熱門的程式庫、架構和界面,來探索及視覺化您的資料,並將您的發現結果記載於可重複使用的工作流程。您可以在筆記本內使用已存放在 Amazon S3 中的資料。此外,您還可以使用 AWS Glue 輕鬆將資料從 Amazon RDS、Amazon DynamoDB 和 Amazon Redshift 移至 S3 進行分析。您可以編寫或匯入自己的筆記本,或使用眾多已預先載入 Amazon SageMaker 的其中一本預先建置的筆記本。預先建置的筆記本可用於所有內建的機器學習演算法。此外,筆記本範本可協助您開始使用常見的 ML 應用程式,以及更進階的 Amazon SageMaker 功能。

常見的 ML 應用程式範本

SageMaker 進階功能的範本

時間序列預測

使用您自己的 TensorFlow 和 MXNet 容器

鎖定目標的直效行銷

使用您自己的 scikit 或 R 演算法或模型

預測客戶流失

分散式訓練中的資料重新碎片

內建的高效能演算法

Amazon SageMaker 提供針對速度、擴展性和準確性優化的高效能可擴展式機器學習演算法。這些演算法可對 PB 級資料集執行訓練,並提供相較於其他實作最多 10 倍的效能。您可以從多種監督式演算法中選擇,這些演算法在訓練時會提供正確答案,而您可以在模型發生錯誤時給予指示。Amazon SageMaker 內含各種監督式演算法,例如如 XGBoost 和線性/邏輯迴歸或分類,以解決建議和時間序列預測問題。Amazon SageMaker 也包括無監督式學習 (也就是演算法必須自行探索正確答案) 的支援,例如 k-means 分群演算法和主成分分析 (PCA),以解決根據購買行為識別客戶分組等問題。

Amazon SageMaker 會自動將 12 種最常用的機器學習演算法提供給您使用。您只要指定資料來源,就能立即開始執行 k-means 分群演算法來進行資料切割、分解機器以獲得建議、時間序列預測、線性迴歸或主成分分析。 

BlazingText Word2Vec BlazingText 實作 Word2Vec 演算法,擴展並加速從大量文件中產生單詞嵌入。
DeepAR 此演算法可透過遞歸神經網路 (RNN) 從許多相關時間序列的學習模式產生準確的預測。
K-Means 分群演算法 最簡單的 ML 習演算法之一,用來在未加上標籤的資料中找出群組。

主成分分析 (PCA)

通常用於預先處理,這種演算法會將有許多特徵的表格或矩陣縮減成只有較少的代表性特徵。

神經主題建模 (NTM) 以神經網路為基礎的一種方法,用於從文字和影像資料集內學習主題。
分解機器 即便使用極少量的資料,也能夠估算特徵之間所有互動的模型。
梯度提升樹 (XGBoost) 全名為「Extreme Gradient Boosting」,XGBoost 是經過優化的分散式梯度提升程式庫。

隱含狄利克雷分布 (LDA)

這種模式非常適合用來自動探索一組文件檔案中的主要主題。

影像分類 (ResNet)

用於開發影像分類系統的熱門神經網路。
Seqence2Sequence 一般用途的文字編碼器兼解碼器,常用於機器翻譯、文字摘要等等。
線性學習程式 (分類) 線性分類會使用物件的特徵來識別其所屬的適當群組。
線性學習程式 (迴歸) 線性迴歸是用於預測兩個變數之間的線性關係。

這些演算法都已經過優化,因此效能最快可高達傳統實作的 10 倍。我們達成此目標的其中一個方法是實作這些演算法,讓它們不需要返回查看已經看過的資料。以往,演算法通常會往返查看資料以參考較舊的資料。這個方法適用於小型資料集,但用於大型資料集時,會明顯降低訓練效能。透過工程設計方式讓演算法只通過資料一次,就能以有效率且經濟實惠的方式在 PB 級資料集上進行訓練。

廣泛的架構支援

Amazon SageMaker 會自動設定及優化 TensorFlow 和 Apache MXNet,因此您不必進行任何設定,即可開始使用這些架構,而且我們預計在未來幾個月內新增其他主要架構。不過,您可以將任何喜愛的架構引入 Amazon SageMaker,只要將架構建置到您存放在 Amazon EC2 Container Registry 中的 Docker 容器即可。

訓練

一鍵式訓練

當您準備好在 Amazon SageMaker 中進行訓練時,只要指定您的資料在 Amazon S3 中的位置,並指出您需要的 EC2 執行個體類型和數量,就能在主控台按一下滑鼠開始進行訓練。Amazon SageMaker 會設定分散式運算叢集、執行訓練、將結果輸出到 Amazon S3,以及在訓練完成時縮減叢集。

使用 Amazon SageMaker 訓練模式非常簡單;只要指定資料在 S3 中的位置,Amazon SageMaker 就會根據您的需求,在與其本身軟體定義網路隔離的訓練叢集上執行您的演算法。您只需選擇適合進行快速高效率訓練的執行個體類型 (包括 P3 GPU 執行個體),Amazon SageMaker 就會在自動調整規模群組中建立您的叢集;將 EBS 磁碟區連接到每個節點;設定資料管道;然後使用您的 TensorFlow 或 MXNet 指令碼、Amazon 自己的演算法,或您的容器所提供的演算法開始進行訓練。訓練完成後,系統會將結果輸出到 S3 並自動縮減叢集。

為了能夠輕鬆執行大規模訓練,我們優化了從 S3 訓練資料串流的程序。您可以透過 API 指定是否要將所有資料傳送到叢集中的每個節點,或是否要讓 Amazon SageMaker 根據您的演算法需求,來管理各節點的資料分佈。

透過結合內建的演算法,使用 Amazon SageMaker 可能獲得的訓練可擴展性可以大幅減少執行訓練的時間和成本。

自動模型調校 (註冊預覽版)

Amazon SageMaker 透過調整數千種不同的演算法參數組合來自動調校您的模型,讓模型得以產生最準確的預測結果。

您調校模型以提高準確性時,有兩大項目必須調整:首先是修改您提供給模型的資料輸入 (例如,使用特定數量的日誌),其次是調整演算法的參數。這些稱為超參數,要想找出正確的值相當困難。通常,您會從隨機值開始下手,之後反覆進行調整,看看有什麼變化。視您的模型有多少超參數而定,這整個過程可能相當漫長。

Amazon SageMaker 能夠在訓練期間提供自動超參數優化 (HPO) 選項,以簡化這個程序。您只需在啟動訓練時透過 API 請求 HPO,Amazon SageMaker 就會確實使用機器學習來微調您的機器學習模型。整個程序包括了解哪些項目會影響模型上的不同資料類型,還有在多個模型副本套用該知識,以快速找出最佳的可能結果。如果您是開發人員或資料科學家,這表示您只須留意對提供給模型的資料想做的調整,如此能大幅減少您在訓練期間必須留意的事項。

啟動優化時,您只要透過 API 指定優化是否應在特定時間過後或在達到預先設定的準確性時停止;Amazon SageMaker 就會完成剩餘的工作。

部署

一鍵式部署

您可以按一下滑鼠就能將模型部署到多個可用區域上的自動調整規模 EC2 執行個體,以獲得高冗餘。只要指定 EC2 執行個體的類型,以及需要的最大和最小數量即可,Amazon SageMaker 將會完成剩餘的工作。它會啟動執行個體、部署您的模型,以及為您的應用程式設定安全的 HTTPS 端點。您的應用程式只須包含這個端點的 API 呼叫,即可達成低延遲/高輸送量推論。因為變更模型時不再需要同時更改應用程式的程式碼,所以這個架構可讓您將新模型整合到應用程式筆記。

自動 A/B 測試

Amazon SageMaker 還能為您管理模型 A/B 測試。您可以設定端點將流量平均分配給最多五個不同模型,以及設定您要每個模型處理的推論呼叫百分比。您可以立即變更所有這些設定,讓您在真實世界中執行實驗及判斷哪個模型能產生最準確結果時有更多彈性。

使用自動調整規模進行全受管託管

Amazon SageMaker 會使用內建的 Amazon CloudWatch 監控和記錄功能代您管理生產運算基礎設施,以執行運作狀態檢查、套用安全性修補程式,以及執行其他例行維護。

進一步了解 Amazon SageMaker 定價

瀏覽定價頁面
準備好開始使用了嗎?
註冊
還有其他問題嗎?
聯絡我們
頁面內容
建立 訓練 部署