使用 Amazon SageMaker 開始建立

Amazon SageMaker 可輕鬆建立大規模的機器學習模型 (ML),並提供您一切所需,以標籤訓練資料、存取和分析筆記,並使用內建演算法和架構,讓它們隨時可供訓練。

功能

協作式筆記本體驗

Amazon SageMaker 筆記本目前為預覽版,提供一鍵式 Jupyter 筆記本,讓您快速啟動彈性運算。筆記本內含一切執行和重新建立機器學習工作流程的所需元件,並已在 Amazon SageMaker Studio 內進行整合。筆記本已預先載入所有常用 CUDA 和 cuDNN 驅動程式、 Anaconda 套件和架構圖書館。

筆記本環境讓您探索和視覺化資料,並將您的結論記錄於可再用的工作流程中。您可在筆記本內使用存放於 Amazon S3 中的專屬資料。此外,您還可以使用 AWS Glue 輕鬆將資料從 Amazon RDS、Amazon DynamoDB 和 Amazon Redshift 移至 S3 進行分析。

筆記本若缺乏檢視、執行或分析筆記的彈性,您就要啟動執行個體去驅動筆記本。如需更多運算能力,您必需啟動新執行個體、傳輸筆記本,以及關閉舊執行個體。再者,由於筆記本通常已耦合至運算執行個體,且通常存在於使用者的工作站內,要以協作的方式分享和重複使用筆記,是不太容易的事。

SageMaker Notebooks 克服這些挑戰。您再也不必浪費時間關閉舊執行個體,再重建新執行個體。如此一來,建立新模型的速度就快得多。

您可寫入或匯入筆記本,或可針對不同的使用案例,使用許多和 SageMaker 搭配使用的預建立筆記本。啟動後,就能在不中斷的情況下,增加或減少運算資源 (包括 GPU 資源)。此外,也會自動儲存您的狀態,下次返回筆記本時就能馬上確切返回最後一次退出的位置。

可在筆記本環境內自動擷取所有代碼相依項,例如:軟體套件、版本等,再也不必手動追蹤相依項。此舉讓您輕鬆與同事分享筆記,好讓他們輕易視覺化和重建您的結果。

筆記本

建立準確的訓練資料組

Amazon SageMaker Ground Truth 使用機器學習,協助您快速建立非常精確的訓練資料組,並可將資料標籤成本減少高達 70%。成功的機器學習模型之訓練方式為:使用已標籤的資料,教導模型如何作出正確的決策。本流程通常需要數個月和大型團隊來完成。SageMaker Ground Truth 提供創新的解決方案來降低成本和複雜度,同時透過結合人力標籤製作和機器學習流程,提高資料標籤的正確度,此流程名為主動學習。

運作方式

大規模的全管理式資料處理

機器學習的資料處理和分析工作負載往往在自我管理的基礎設施上執行,因此難以隨著事業需求的改變而進行分配和擴展。使用不同工具達成此目的是繁瑣的作業、效能不夠理想,同時增加資金和作業支出。透過 SageMaker 的容易作業、擴展性和可靠特性,帶來大規模的全管理式資料處理工作負載的體驗,Amazon SageMaker Processing 因此得以克服此挑戰。SageMaker Processing 讓您連結現有儲存或檔案系統資料來源、啟動執行工作所需的資源、將輸出儲存至持久性儲存中,並提供日誌和指標。也可使用自選的架構,引進個人容器,善用執行資料處理和分析工作負載的優勢。

內建的高效能演算法

Amazon SageMaker 提供高效能、可擴展的機器學習演算法,並佳化其速度、擴展性和準確度,可在 PB 級的資料組內進行訓練。您可以從多種監督式演算法中作出選擇,而這些演算法在訓練時會提供正確答案,而您可以在模型發生錯誤時給予指示。SageMaker 內含各種監督式演算法,例如:XGBoost 和線性/邏輯迴歸或分類,以解決建議和時間序列預測問題。SageMaker 也包括無監督式學習 (也就是演算法必須自行探索正確答案) 的支援,例如 k-means 叢集演算法和主成分分析 (PCA),以解決根據購買行為辨識客戶分組等問題。

SageMaker 自動為您提供最常用的機器學習演算法。只要指定資料來源,就能立即開始執行 k-means 叢集演算法來進行資料區隔、分解機器以取得建議、時間序列預測、線性迴歸或主成分分析,或許多其他可立即就緒使用的演算法。

演算法 描述
BlazingText Word2Vec BlazingText 實作 Word2Vec 演算法,擴展並加速從大量文件中產生單詞嵌入。
DeepAR 此演算法可透過遞歸神經網路 (RNN) 從許多相關時間序列的學習模式產生準確的預測。
分解機 即便使用極少量的資料,也能夠估算特徵之間所有互動的模型
梯度提升樹 (XGBoost) 全名為「Extreme Gradient Boosting」,XGBoost 是經過優化的分散式梯度提升程式庫。
影像分類 (ResNet) 用於開發影像分類系統的熱門神經網路。
IP 深入分析 一種演算法,用來偵測惡意使用者,或學習 IP 地址的使用模式。
K-means 叢集 最簡單的 ML 演算法之一,用以尋找未標籤資料內的群組。
K-Nearest Neighbor (k-NN) 一種索引型演算法,用來解決地址分類和迴歸型問題。
隱含狄利克雷分布 (LDA) 這種模式非常適合用來自動探索一組文件檔案中的主要主題。
線性學習程式 (分類) 線性分類會使用物件的特徵來識別其所屬的適當群組。
線性學習程式 (迴歸) 線性迴歸是用於預測兩個變數之間的線性關係。
神經主題建模 (NTM) 以神經網路為基礎的一種方法,用於從文字和影像資料集內學習主題。
Object2Vec 一種神經內嵌演算法,用來計算最鄰近項和視覺化神經叢集。
物件偵測 偵測、分類,以及將影像中的多個物件放入週框方塊。
主成分分析 (PCA) 通常用於預先處理,這種演算法會將有許多特徵的表格或矩陣縮減成只有較少的代表性特徵。
Random Cut Forest 用來偵測異常的無監督式機器學習演算法。
語義分隔 將標籤指派給影像的個別像素,來分割影像,以辨識感興趣之處。
Sequence2Sequence 一般用途的文字編碼器兼解碼器,常用於機器語言翻譯、文字摘要,以及更多。

進一步了解 »

也可透過 Docker 容器,或從 AWS Marketplace 提供的數百種演算法和預訓練模型中,引進您個人的架構或演算法。 

廣泛的架構支援

Amazon SageMaker 支援許多常用架構,以進行深度學習,例如:TensorFlow、Apache MXNet、PyTorch、Chainer,以及更多。應用程式自動組態和佳化這些架構,以達成最高效能。您無需手動設定這些架構,且可在內建容器中使用它。只要將架構建置到您存放在 Amazon EC2 Container Registry 中的 Docker 容器,就可以將任何架構引進 Amazon SageMaker。

進一步了解 »

本機測試和原型

Github 提供在 Amazon SageMaker 使用的開放原始碼 Apache MXNetTensorFlow Docker 容器。您可將這些容器下載到本機環境,使用 SageMaker Python SDK 測試指令碼,然後再部署到 SageMaker 訓練或託管環境。當您準備好從本機測試移到生產訓練和託管時,只需變更一行程式碼即可。 

強化學習

除了傳統受監督和未受監督的學習外,Amazon SageMaker 還支援強化學習。SageMaker 內建全管理式強化學習演算法,包括:學術文獻中的一些最新和最佳表現。SageMaker 在多個架構 (包括:TensorFlow 和 MXNet) 中,以及針對強化學習,在從頭開始設計的更新架構 (例如:Intel Coach 和 Ray RL) 中支援 RL。支援多個 2D 和 3D 物理模擬環境,包括以開始原始碼 OpenGym 界面為基礎的環境。此外,SageMaker RL 還允許您使用在 Amazon Sumerian 和 Amazon RoboMaker 中建置的虛擬 3D 環境進行訓練。為了協助您開始使用,SageMaker 還提供一系列的範例筆記本和教學課程。

大部分機器學習都落在稱為受監督學習的類別中。這種方法需要許多標記的訓練資料,但是您建置的模型能夠做出複雜的決策。使用電腦視覺、語音和語言模型是常見的方法。另一種常見但很少使用的機器學習類別稱為未受監督學習。在這裡,演算法會嘗試識別未標記資料中隱藏的結構。訓練未受監督模型的門檻低得多,但代價是模型做出的決策較不複雜。未受監督模型通常用來識別資料中的異常狀況,例如溫度的異常波動或網路入侵的跡象。

強化學習(RL)已形成機器學習的第三種補充方法。RL 會採用非常不同的方法來訓練模型。它幾乎不需要標記的訓練資料,但它仍然可以符合 (在某些情況下超過) 人類的複雜程度。RL 的最棒之處在於,它可以學習為一系列複雜行為建立模型,以達到所需的結果,而不是只做出決策而已。RL 今日最常見的其中一個應用是訓練自動駕駛車導航至目的地。

輕鬆了解 RL 運作方式的方式為將它想像成簡單的視訊遊戲,其中角色需要導航迷宫收集旗幟並避開敵人。不是人類自己玩遊戲,而是演算法會控制角色,並玩數百萬種遊戲。開始時只需知道角色可以上下左右移動即可,而且將得到分數的獎勵。然後,演算法將學習如何玩遊戲,以盡可能得到最高分。它將學習提高分數 (例如挑選旗幟或善用分數加倍器),並將懲罰降至最低 (例如被敵人擊中) 的行為。 隨著時間的過去,RL 演算法可以學習進階策略以精通遊戲,例如首先清除迷宮的較簡單部分、如何和何時使用充電,以及如何利用敵人的行為。

RL 可以是傳統機器學習技術的力量倍增器。例如,RL 與受監督學習相結合,在醫療保健中建立個人化治療方案、最佳化製造供應鏈、提高風力渦輪機效能、駕駛自動駕駛汽車、安全操作機器人,甚至為學生建立個人化課程和學習計劃。

資源

建立 ML 模型的逐步指南

了解如何在 Amazon SageMaker 中建立 ML 模型。

Amazon SageMaker 範例筆記本

在 GitHub 存取內容豐富的 Amazon SageMaker 範例筆記本儲存庫。

建立安全的機器學習環境
 
探索 Amazon SageMaker 安全功能