自動資料標記

Amazon SageMaker Ground Truth 使用機器學習技術提供自動資料標記。SageMaker Ground Truth 將先選取一個隨機資料樣本,並將它送給人工進行標記。然後,這些結果將用來訓練標記模型,以嘗試自動標記原始資料的新樣本。當這個模型可以用符合或超過您所設閥值的可信度分數來標記資料時,就會提交這些標籤。當可信度分數低於您的閥值,則會將資料送給人工標籤人員。有些由人工標記的資料會用來產生標記模型的新訓練資料集,而該模型會自動重新訓練以改善準確性。每個需要標記的原始資料樣本會不斷重複進行這個過程。經過重複訓練之後,這個標記模型越來越能自動標記原始資料,而送給人工的資料就越來越少。 

在任用標記工作人員上具有彈性

Amazon SageMaker Ground Truth 支援直接在 SageMaker Ground Truth 主控台中進行人工標記的多種選擇。您可以使用自己專屬的標籤人員團隊進行內部標記工作,尤其是處理組織不能外流的資料。

如果您想要擴展至大量的標籤人員,而且您的資料不含機密或個人識別資訊,則可以利用 Amazon Mechanical Turk,在需要時,全年無休地隨時任用全球超過 50 萬位的獨立承包商。Mechanical Turk 是群眾外包媒合平台,可以為您的標記工作找到分散在世界各地而可以實際執行這些工作的人力。

或者,您也可以使用專門提供資料標記服務的第三方廠商。這些廠商都經過 Amazon 遴選,可提供高品質的標記並可遵循安全流程。這些廠商的標記服務會透過 AWS Marketplace 提供。我們會提供所有相關詳細資料 (包括定價和客戶評價資料),以協助您選擇最符合您需求的廠商。

簡易的人工標記操作說明

透過 Amazon SageMaker Ground Truth,您可以提供標記準則給人工標籤人員,藉此協助確保一致性。這些詳細的操作說明會提供給標記介面內的標籤人員。這些操作說明包括好壞標籤的範例圖片,以協助標籤人員完成高品質和準確的標籤。您隨時可以更新這些操作說明,針對您所見到的部分標籤人員易弄錯的工作,補充更多細節,或是根據需求的改變而調整內容都很簡單。操作說明範例如下所示。 

SamurAI Instructions for Bounding Box

使用工作流程簡化標記作業

Amazon SageMaker Ground Truth 提供內建標記工作流程,指引人工標籤人員逐步完成任務,並提供工具來協助他們達成理想成效。內建的工作流程目前可用於物件偵測、影像分類、文字分類,以及語意區隔標記工作。 

除了內建工作流程,SageMaker Ground Truth 還提供上傳自訂工作流程的選項。自訂工作流程由 HTML 介面和準確性改善演算法所組成,這兩者都由您提供。HTML 介面為人工標籤人員提供他們完成標記工作所需的所有操作說明和工具。準確性改善演算法則是一個由您撰寫的函數,用於告知 SageMaker Ground Truth 應該如何評估人工提供的標籤品質。這個演算法會用於在相同資料提供給多位人工標籤人員時,找出何為「正確」的共識,以及用於識別並且不強調哪些標籤人員容易提供品質不佳的資料。您應使用 SageMaker Ground Truth 主控台上傳 HTML 介面和準確性改善演算法。 

物件偵測

您可以使用週框方塊工作流程來識別及標記影像中的物件。週框方塊是一個圍繞著一或多個影像元素繪製的二維方塊。利用標記的週框方塊從影像中訓練的電腦視覺模型,會學習該方塊內對應指定標籤的像素。這是一種非常快速且便宜的影像標記方式。不過,由於這些方塊通常包含與標籤主題無關的像素,因此可能需要更大量的訓練資料,才能使模型達到高準確性。

下圖顯示週框方塊介面,其包含一個識別指定影像中所有犬隻的範例工作。該介面可讓您指定清楚的好壞週框方塊範例,以協助確保高準確性。此外,也會提供一個可取得完整標示操作說明的連結,以及一個清楚精簡的使用者介面,可用於建立週框方塊。 

Bounding box

影像分類

影像分類需要根據預先定義的一組標籤,對影像進行分類。這項作業與物件偵測不同,因為這會標記整個影像,而不是標記影像中的個別元素。影像分類很適合用於需要考量完整影像脈絡的場景偵測模型。比方說,下圖中的標籤人員被要求識別特定影像中正在進行哪一種運動。 

Image classification

文字分類

文字分類需要根據預先定義的一組標籤,對文字字串進行分類。將文字分類到不同的標籤,通常會用於自然語言處理 (NLP) 模型,以識別諸如主題 (如產品描述、電影評論)、實體 (如名稱、地點、日期) 和情緒之類的項目。 

Text classification

語意區隔

如需進階影像標記作業,您可以使用語意區隔,來標記與模型所需之學習完全符合的影像部分。相較於週框方塊,語意區隔需要更多的時間和技巧。不過,這可以藉由只標記與主題相關聯的像素,而提供非常乾淨的訓練資料。譬如,利用語意區隔,可以完全抓到影像中車輛的不規則形狀,反之,週框方塊無法避免地會將與車輛無關的背景元素也納入,因為方塊只能有四個直邊。

Semantic Segmentation

無縫整合到 Amazon SageMaker 之中

由 SageMaker Ground Truth 所建立的訓練資料集,可以輕易地匯入 Amazon SageMaker 用於模型開發和訓練。 

Amazon SageMaker 可用來輕鬆建立機器學習模型,並提供快速標記訓練資料所需的一切元件,隨時可供訓練,還能針對您的應用程式選擇及最佳化最適合的演算法與架構。Amazon SageMaker 包含託管型 Jupyter 筆記本,方便您探索及視覺化存放在 Amazon S3 的訓練資料。您可直接連接至 S3 上的資料,或使用 AWS Glue 將資料從 Amazon RDS、Amazon DynamoDB 和 Amazon Redshift 轉移到 S3,以在您的筆記本內進行分析。

為幫助您選出演算法,Amazon SageMaker 內含最常見的機器學習演算法,這些演算法已預先安裝並經過最佳化,演算法的效能比起在其他地方執行最高可達 10 倍。Amazon SageMaker 也已預先設定可在 Docker 容器中執行 TensorFlow、Apache MXNet、PyTorch 和 Chainer。您也可以將這些開放原始碼容器下載到本機環境,在使用 Amazon SageMaker 進行訓練或在生產環境中託管模型之前,先使用 Amazon SageMaker Python SDK 在本機模式中測試您的指令碼。您也可選擇使用自己的架構。

輕鬆在 Amazon SageMaker 主控台內按一下滑鼠,便能開始訓練模型。Amazon SageMaker 能為您管理所有底層的基礎設施,還能輕鬆為訓練模型執行 PB 級的擴充。為了加快並簡化訓練程序,Amazon SageMaker 可自動調校模型以達到最高的準確度。

模型經過訓練與調校後,Amazon SageMaker 還能讓模型輕鬆進入生產部署,讓您為即時或批次資料產生預測 (此程序稱為推論)。Amazon SageMaker 會將模型部署在橫跨多個可用區域的 Amazon SageMaker ML 執行個體的自動調整規模叢集上,以提供高效能及高可用性。Amazon SageMaker 也內建 A/B 測試功能,可協助您測試模型,使用不同版本進行實驗,以獲得最好的結果。

Amazon SageMaker 可處理機器學習的繁瑣工作,讓您快速輕鬆建立、訓練及部署機器學習模型。

Product-Page_Standard-Icons_01_Product-Features_SqInk
進一步了解 Amazon SageMaker Ground Truth 定價相關資訊

開始使用 Amazon SageMaker Ground Truth,沒有前期承諾,也不用簽訂長期合約。如需詳細資訊,請參閱 Amazon SageMaker Ground Truth 定價頁面。

Product-Page_Standard-Icons_02_Sign-Up_SqInk
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
Product-Page_Standard-Icons_03_Start-Building_SqInk
開始在主控台進行建置

利用 AWS 管理主控台中的 Amazon SageMaker Ground Truth 開始建置。

登入