一般問題

問:什麼是 Amazon SageMaker Ground Truth?

答:Amazon SageMaker Ground Truth 讓您易於有效且準確地標記訓練機器學習系統所需的資料集。SageMaker Ground Truth 可以根據人類標記員手動完成的標籤來自動標記部分資料集。您可以選擇使用擁有超過 500,000 名標記人員的 Amazon Mechanical Turk 群眾外包人力、您自己的員工,或是名列 AWS Marketplace 經過 Amazon 預先篩選的第三方資料標記服務供應商之一。SageMaker Ground Truth 使用創新的演算法和使用者體驗 (UX) 技術來改善人類標記的準確性。經過一段時間之後,透過從人類建立的標籤不斷學習,模型會變得越來越好,自動標記也會逐漸增加。

問:什麼是自動資料標記?

答:自動資料標記是使用機器學習的資料標記。Amazon SageMaker Ground Truth 將先選取一個隨機資料樣本,並將它送給人類進行標記。然後,這些結果將用來訓練標記模型,以嘗試自動標記原始資料的新樣本。當這個模型可以用符合或超過高閥值的可信度分數來標記資料時,就會提交這些標籤。當可信度分數低於此閥值,則會將資料送給人類標記員。有些由人類標記的資料會用來產生標記模型的新訓練資料集,而該模型會自動重新訓練以改善準確性。每個需要標記的原始資料樣本會不斷重複進行這個過程。經過重複訓練之後,這個標記模型越來越能自動標記原始資料,而送給人類的資料就越來越少。

使用 Amazon SageMaker Ground Truth

問:為何應該使用 Amazon SageMaker Ground Truth?

答:在建立、訓練和部署機器學習模型之前,您需要資料。成功的模型是建立在高品質的訓練資料之上,而訓練資料集的收集和標記需要大量的時間和精力。為了建立訓練資料集,人類標記員需要評估大量影像或其他資料類型,然後識別並標記每種資料類型的特定物件。這些標記任務會分配給許多人類標記員,增加了大幅的額外負荷和成本。如果有不正確的標籤,系統將會從不佳的資訊中學習,並做出不正確的預測。

Amazon SageMaker Ground Truth 透過使用存放在 Amazon S3 中的資料,並結合使用自動資料標記和人類執行的標記,輕鬆且有效率地執行高準確性的資料標記,從而解決了這個問題。

問:如何開始使用 Amazon SageMaker Ground Truth?

答:Amazon SageMaker Ground Truth 提供一種受管體驗,只用幾個步驟就能設定整個資料標記任務。如要開始使用 Amazon SageMaker Ground Truth,請登入 AWS 管理主控台,然後導覽到 SageMaker 主控台。從那裡,在 Ground Truth 之下選取 Labeling jobs。您可以在這裡建立標記任務。首先,做為標記任務建立流程的一部分,您要提供指向 S3 儲存貯體的指標,而該儲存貯體包含您要標記的資料集。Ground Truth 為常見的標記任務提供範本,您只需要按幾個選項,並為如何標記您的資料提供最少指示,就能完成標記。或者,您可以建立自己的自訂範本。做為建立標記任務的最後一個步驟,您要選取下列三個人力選項之一:(1) 公有群眾外包人力、(2) 一組專業的第三方資料標記服務供應商,或 (3) 使用自己的工作者。您還可以選擇啟用自動資料標記。

問:使用 Amazon SageMaker Ground Truth 如何管理我的訓練資料集?

答:Amazon SageMaker Ground Truth 會管理中繼資料、關聯的標籤,還有標籤與資料集的分類。您可以透過 SageMaker Notebook 或 SageMaker 主控台內的 Ground Truth 主控台,輕鬆使用 AWS 開發套件查詢和管理您的資料集和標籤。請瀏覽 Amazon SageMaker Ground Truth 文件以取得詳細資訊。

問:Amazon SageMaker Ground Truth 如何協助增加訓練資料集的準確性?

答:Amazon SageMaker Ground Truth 提供下列功能,協助您提升由人類執行之資料標記的準確性:

(a) 註解整合:這可透過將每個資料物件傳送給多個工作者,然後將他們的回應 (稱為「註解」) 整合成單一標籤,從而抵銷個別工作者的錯誤/偏差。然後取得他們的註解,並使用註解整合演算法進行比較。這個演算法會先偵測被忽略的異常註解。然後執行註解的加權整合,指派較高的權重給較可靠的註解。輸出結果是每個物件的單一標籤。

(b) 註解界面最佳實務:這些是註解界面的各種功能,讓工作者更準確地執行他們的任務。人類工作者容易犯錯和有偏見,而經過良好設計的界面可以改善工作者的準確性。一個最佳實務是在固定的側邊面板中顯示簡短的指示,以及良好和不佳的標籤範例。另一個最佳實務是當工作者在影像周圍畫邊框時,將邊框邊界外的區域變暗。

問:Amazon SageMaker Ground Truth 如何確保我的資料受到保護且安全?

答:按照預設,Amazon SageMaker Ground Truth 會加密靜態和傳輸中的資料。此外,也可以使用 AWS Identity and Access Management (IAM) 控制對資料的存取。Ground Truth 不會在 AWS 環境之外存放資料或製作副本,您的資料仍保持在您的控制之中。此外,Ground Truth 支援各種合規標準,例如一般資料保護規範 (GDPR),並使用 Amazon CloudWatch 和 Amazon CloudTrail 提供廣泛的記錄和稽核功能。請瀏覽 Amazon SageMaker Ground Truth 文件以取得詳細資訊。

問:如何使用 Amazon SageMaker Ground Truth 存取人力?

答:您可以從 SageMaker Ground Truth 三種人力選項中選擇,也就是:(1) 透過 Amazon Mechanical Turk 的公有群眾外包人力;(2) 透過 AWS Marketplace 提供的第三方資料標記服務供應商;以及 (3) 您自己的員工。請瀏覽 Amazon SageMaker Ground Truth 文件以取得詳細資訊。 

使用第三方資料標記服務供應商

問:Amazon SageMaker Ground Truth 資料標記服務供應商是否可以處理機密資料?

答:Amazon SageMaker Ground Truth 資料標記服務供應商可以處理機密資料。AWS 客戶與第三方資料標記服務供應商之間的標準服務協議包含對您機密資訊的一些基本保護。請先檢閱這些條款,然後再與服務供應商共用任何機密資訊。條款位於 AWS Marketplace 上服務供應商的清單頁面。

問:我透過 AWS Marketplace 與第三方的服務供應商合作。我需要留意服務供應商為因應 COVID-19 所作的哪些改變?

答:在 COVID-19 不斷變動的影響下,為了維護員工的健康與安全,部分服務供應商暫時採行遠端作業政策。在這段期間內,包含 SOC 2 合規等安全標準及底下常見問答集中提到的其他安全控制,可能不適用於受影響的服務供應商。為反映此變動,受影響的服務供應商已更新其 AWS Marketplace 清單,且不會於客戶未明確同意下在遠端工作環境中處理客戶的資料。

問:Amazon SageMaker Ground Truth 資料標記服務供應商需要滿足哪些安全標準?

答:資料標記服務供應商每年都需要完成 SOC 2 合規和認證。SOC 2 報告是根據美國會計師協議 (AICPA) 信託服務標準 - 安全性、可用性、處理完整性、機密性及隱私權。

除了 SOC 2,服務供應商還需要維持以下額外的安全控制來協助保護客戶資料的安全。

技術控制:
服務供應商需要利用適當的軟體,來封鎖從其系統下載或複製檔案/資料的任何嘗試和防止未經授權存取其系統。此外,服務供應商還需要禁止其人力儲存或複製客戶工作相關的資料。

網路安全控制:
我們要求服務供應商的網路設計為防止遠端存取客戶的工作相關資料。而且,提供者的網路會封鎖點對點檔案共用軟體,且防火牆應設計為可提供高可用性。

員工控管:
服務供應商需要確保已與員工簽訂保密協議 (NDA)。服務供應商需要採用嚴格的政策,來防止任何資訊泄露和防止員工透過任何方式傳輸資訊:紙張、USB、行動電話或任何其他媒體。

實體存取控制
服務供應商需要維持實體存取控制措施來防止未經授權存取其生產場地。這些可能包括含生物驗證、員工工牌識別的旋轉閘門。

問:AWS 如何協助確保服務供應商滿足這些安全標準?

答:AWS 要求服務供應商在列示於 Marketplace 上之前,必須先提供其 SOC 2 認證報告,並確認:

真實性 (服務供應商的稽核員是否通過 AICPA 認證);

報告期限 (SOC 2 認證有效日期);及

生產場地 (服務供應商將完成 Amazon SageMaker Ground Truth 標記工作的實際場地)。

問:服務供應商安全標準的審查頻率為何?

答:來自每個服務供應商的安全標準需每年審查,以確保其符合強制性規定。

問:AWS 審查是否有任何例外?

答:沒有。如果服務供應商未能達到安全標準,則他們的產品清單將從 AWS Marketplace 上移除。移除清單將在 24 小時內完成,且會透過電子郵件通知所有現行客戶。

問:如果服務供應商透過多個生產場地提供資料標記服務,是否所有場地都需要執行審查程序?

答:是,所有場地都需要滿足必要的安全標準。

問:如果服務供應商生產場地出現資料違規,則會發生什麼情況?

答:服務供應商將在偵測到任何實際或可疑的未經授權的存取、收集、擷取、使用、傳輸、披露、損毀或遺失客戶資訊的情況的 24 小時內,通知 AWS 和受影響的客戶。服務供應商將及時補救每個安全事故,並向 AWS 和受影響的客戶提供有關內部調查的書面詳細資料。

定價和可用性

問:Amazon SageMaker Ground Truth 的成本為何?

答:請參閱 SageMaker Ground Truth 定價頁面以取得目前的定價資訊。

問:哪些 AWS 區域可以使用 Amazon SageMaker Ground Truth?

答:請參考AWS 區域表所列目前提供 Amazon SageMaker Ground Truth 的所有 AWS 區域。

Standard Product Icons (Features) Squid Ink
進一步了解 Amazon SageMaker Ground Truth 定價相關資訊

開始使用 Amazon SageMaker Ground Truth,沒有前期承諾,也不用簽訂長期合約。如需詳細資訊,請參閱 Amazon SageMaker Ground Truth 定價頁面。

Sign up for a free account
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
Standard Product Icons (Start Building) Squid Ink
開始在主控台進行建置

利用 AWS 管理主控台中的 Amazon SageMaker Ground Truth 開始建置。

登入