Amazon SageMaker Ground Truth Plus

一般問題

問:什麼是 Amazon SageMaker Ground Truth Plus?

Amazon SageMaker Ground Truth Plus 可讓您輕鬆建立高品質訓練資料集,而無需建置標記應用程式或自行管理標記人力。您提供資料與標記要求後,SageMaker Ground Truth Plus 會根據您的要求處理設定資料標記工作流程,並代表您對其進行管理。由此,在各種機器學習 (ML) 任務中訓練出來的專家人力會進行資料標記。Ground Truth Plus 會使用機器學習 (ML) 技巧,包括主動學習、預先標記和機器驗證。如此可以提升輸出資料集的品質,並降低資料標記成本。Ground Truth Plus 為標記操作和品質管理提供透明度。藉此,您可以跨多個專案檢閱訓練資料集的進度、追蹤專案指標 (每日輸送量)、檢查品質標籤,並為標記的資料提供意見回饋。Ground Truth Plus 可用於各種使用案例,包括電腦視覺、自然語言處理和語音識別。

問:為何應該使用 Amazon SageMaker Ground Truth Plus?

答:若要訓練機器學習 (ML) 模型,資料科學家需要大型、高品質的已標記資料集。隨著機器學習 (ML) 的普及,標記需要增加。這導致資料科學家花費數週的時間來建置資料標記工作流程和管理資料標記人力。很遺憾,這會減緩創新進度並增加成本。為確保資料科學家可以花費時間建置、訓練和部署機器學習 (ML) 模型,資料科學家通常會向由資料操作經理和程式經理組成的內部團隊指派任務,以產生高品質訓練資料集。但是,這些團隊通常無法存取交付高品質訓練資料集所需的技能,會影響機器學習 (ML) 結果。

Amazon SageMaker Ground Truth Plus 可以讓資料科學家和業務經理 (例如資料操作經理和程式經理) 輕鬆建立高品質訓練資料集,方法是移除與建置資料標記應用程式和管理標記人力相關的無差別繁重工作。所有您需要做的是根據標記要求共享資料,Ground Truth Plus 根據這些要求設定和管理您的資料標記工作流程。由此,在各種機器學習 (ML) 任務中訓練出來的專家人力會執行資料標記。您甚至無需深度的機器學習 (ML) 專業知識或工作流程設計和品質管理知識,便可使用 Ground Truth Plus。

問:如何開始使用 Amazon SageMaker Ground Truth Plus?

答:若要開始使用 Amazon SageMaker Ground Truth Plus,請完成專案要求表單。我們的團隊會聯絡您,以討論您的資料標記專案。

問:Amazon SageMaker Ground Truth Plus 如何協助我管理訓練資料集?

答:Amazon SageMaker Ground Truth Plus 為資料標記操作和品質管理提供增強型透明度。例如,SageMaker Ground Truth Plus 會提供專案檢視,讓您用於監控跨不同專案之訓練資料集的進度。此外,即時指標儀表板還允許您追蹤詳細的專案指標,包括每日輸送量。SageMaker Ground Truth Plus 還會提供使用者介面,讓您檢查標籤品質並提供即時意見回饋。最後,藉由串流模式,您可以為特定工作負載類型取得同日或同時標籤返回。

問:Amazon SageMaker Ground Truth Plus 如何協助增加訓練資料集的準確性?

Ground Truth Plus 會使用多項技術提升訓練資料集的準確度:

  • 機器學習 (ML) 技術:Ground Truth Plus 使用機器學習 (ML) 技術,包括主動學習、預先標記和機器驗證,提升了輸出資料集的品質並降低了資料標記成本。多步驟標記工作流程包括主動學習的機器學習 (ML) 模型,允許 Ground Truth Plus 選取要標記的項目和機器學習 (ML) 模型來預先標記減少人力投入的所需資料,從而降低成本。Ground Truth Plus 使用機器驗證來識別潛在錯誤,而這些錯誤會傳送用於另一輪的人工審查。透過捕捉人工錯誤,很大程度改進了標籤品質。
  • 直覺式標記介面:Ground Truth Plus 使用輔助標記功能,例如 (1) 貼齊,貼齊不完整的 3D 長方體,以緊密覆蓋圍繞物件。(2) 自動區隔,使用四個端點點選完成物件遮罩。

資料隱私權

問:Amazon SageMaker Ground Truth Plus 如何協助我保護資料的安全?

答:預設情況下,Amazon SageMaker Ground Truth Plus 會對存放在 Amazon S3 儲存貯體中的靜態和傳輸中資料進行加密。此外,也可以使用 AWS Identity and Access Management (IAM) 控制對資料的存取。您的資料存放在獨立的 AWS 帳戶中,並為您的專案建立 Amazon S3 儲存貯體。Amazon SageMaker Ground Truth Plus 不會存放或複製為您建立之 AWS 環境以外的資料。AWS 使用 Amazon S3 存取日誌記錄和 AWS CloudTrail 日誌記錄和稽核對您資料的所有存取。

問:哪些人可以存取 Amazon SageMaker Ground Truth Plus 所處理及存放的內容?

答:授權的 AWS 員工和標記您資料的專家人力會存取 Amazon SageMaker Ground Truth Plus 處理的內容。標記您資料的專家人力會透過安全的 SageMaker Ground Truth 工作者入口網站檢視和標記內容。透過工作者入口網站存取可讓工作者僅檢視和標記資料,他們無法修改或刪除您的資料。您的信任、隱私權和安全是我們最關切的事項。我們會實作適用的技術和物理控制項,包括靜態和傳輸中加密,旨在防止對您內容的未授權存取或洩漏。

問:是否會存放 Amazon SageMaker Ground Truth Plus 處理的資料 (影像、文字檔案、影片等) 輸入,AWS 會如何使用?

答:Amazon SageMaker Ground Truth Plus 僅會在專案持續期間存放原始內容和已處理內容,並會在接到請求時刪除與您資料標記專案相關聯的內容。 Amazon SageMaker Ground Truth Plus 會自行使用您的內容提供和維護服務。 Amazon SageMaker Ground Truth Plus 從不為了其他客戶的利益而使用您的內容或在該內容上訓練的任何模型。

問:Amazon SageMaker Ground Truth Plus 處理的內容是否會移出我正在使用 Amazon SageMaker Ground Truth Plus 的 AWS 區域以外?

答:Amazon SageMaker Ground Truth Plus 處理的任何內容會在您正在使用 Amazon SageMaker Ground Truth Plus 的 AWS 區域中靜態加密和存放。除非您透過工作聲明在雙方同意的任何資料當地語系化要求中另行指定,您的內容才會在內容所存放之 AWS 區域以外可存取,用於執行標記服務。

問:是否可以請求刪除 Amazon SageMaker Ground Truth Plus 存放的資料 (影像、文字檔案、影片等)?

答:可以。您可以聯絡 AWS Support,請求刪除與您資料標記相關聯的原始和已處理資料輸入。

問:我是否仍擁有經過 Amazon SageMaker Ground Truth Plus 處理和存放的內容?

答:可以。您會永久保留自己內容的擁有權,而且我們只會在取得同意的情況下,才使用您的內容。

問:是否可以透過 Amazon SageMaker Ground Truth Plus 處理個人健康狀態資訊 (PHI) 資料?

答:不可以。目前 Amazon SageMaker Ground Truth Plus 還不是符合 HIPAA 資格的服務。

人力

問:什麼是 Amazon SageMaker Ground Truth Plus 專家人力?

使用 Ground Truth Plus,標記由技術精湛、多樣和彈性人力完成,他們在機器學習任務上完成了訓練,可協助滿足您的各種需求,包括資料安全、隱私權和合規方面。人力由兩個方案組成,1/Amazon 人力:由 Amazon 僱用和管理的工作者組成,其中 Amazon 會代表您擁有操作、品質和返回時間 SLA。2/廠商人力:由第三方廠商之經策管清單提供的工作者組成,廠商專注於提供資料標記服務,其中 Amazon 代表您擁有品質和返回時間 SLA。

問:誰來決定我的 Amazon SageMaker Ground Truth Plus 專案使用哪個人力方案?

您可以決定專案使用的人力類型。除非您指導我們使用特定人力,我們才可能使用 Amazon 人力、廠商人力或兩種人力結合,以協助滿足專案品質、返回時間和安全要求。

問:我需要留意廠商人力為因應 COVID-19 實作的哪些改變?

答:在 COVID-19 的影響下,為了維護員工的健康與安全,部分服務供應商實作了遠端作業政策。

問:廠商人力必須滿足什麼安全標準?

答:服務供應商必須每年通過有獨立第三方稽核人員進行的 SOC 2 合規或 ISO 27001 認證。

SOC 2 報告是基於美國會計師協議 (AICPA) 信託服務標準 – 安全性、可用性、處理完整性、機密性及隱私權的服務供應商控制環境描述。

ISO 27001 認證基於國際標準組織 (ISO) 和國際電工委員會 (IEC),其中詳述了建立、實作、維護和持續改進資訊安全管理系統 (ISMS) 的要求。

除了獨立取得 SOC 2 或 ISO 27001,服務供應商必須維護其他安全控制項,如下所述,協助您維護資料安全。

技術控制
服務供應商需要利用適當的軟體,來封鎖從其系統下載或複製檔案/資料的任何嘗試和防止未經授權存取其系統。此外,服務供應商還需要禁止其人力儲存或複製客戶工作相關的資料。

網路安全控制
我們要求服務供應商的網路設計為防止遠端存取客戶的工作相關資料。而且,提供者的網路會封鎖點對點檔案共用軟體,且防火牆應設計為可提供高可用性。

員工控管
服務供應商需要確保已與員工簽訂保密協議 (NDA)。服務供應商需要採用嚴格的政策,來防止任何資訊泄露和防止員工透過任何方式傳輸資訊:紙張、USB、行動電話或任何其他媒體。

實體存取控制
服務供應商需要維護實體存取控制措施來防止未經授權存取其生產場地。這些可能包括含生物身分驗證、員工工牌識別的旋轉閘門。

問:AWS 如何協助廠商人力滿足這些安全標準?

答:在成為 Amazon SageMaker Ground Truth Plus 的廠商人力前,AWS 要求該服務提供商提供其 SOC 2 或 ISO 27001 認證報告。AWS SOC 報告和 ISO 認證不涵蓋廠商人力。

Amazon SageMaker Ground Truth

一般問題

問:什麼是 Amazon SageMaker Ground Truth?

答:Amazon SageMaker Ground Truth 讓您易於有效且準確地標記訓練機器學習系統所需的資料集。SageMaker Ground Truth 可以根據人類標記員手動完成的標籤來自動標記部分資料集。您可以選擇使用擁有超過 500,000 名標記人員的 Amazon Mechanical Turk 群眾外包人力、您自己的員工,或是名列 AWS Marketplace 經過 Amazon 預先篩選的第三方資料標記服務供應商之一。SageMaker Ground Truth 使用創新的演算法和使用者體驗 (UX) 技術來改善人類標記的準確性。經過一段時間之後,透過從人類建立的標籤不斷學習,模型會變得越來越好,自動標記也會逐漸增加。

問:什麼是自動資料標記?

答:自動資料標記是使用機器學習的資料標記。Amazon SageMaker Ground Truth 將先選取一個隨機資料樣本,並將它送給人類進行標記。然後,這些結果將用來訓練標記模型,以嘗試自動標記原始資料的新樣本。當這個模型可以用符合或超過高閥值的可信度分數來標記資料時,就會提交這些標籤。當可信度分數低於此閥值,則會將資料送給人類標記員。有些由人類標記的資料會用來產生標記模型的新訓練資料集,而該模型會自動重新訓練以改善準確性。每個需要標記的原始資料樣本會不斷重複進行這個過程。經過重複訓練之後,這個標記模型越來越能自動標記原始資料,而送給人類的資料就越來越少。

使用 Amazon SageMaker Ground Truth

問:為何應該使用 Amazon SageMaker Ground Truth?

答:在建立、訓練和部署機器學習模型之前,您需要資料。成功的模型是建立在高品質的訓練資料之上,而訓練資料集的收集和標記需要大量的時間和精力。為了建立訓練資料集,人類標記員需要評估大量影像或其他資料類型,然後識別並標記每種資料類型的特定物件。這些標記任務會分配給許多人類標記員,增加了大幅的額外負荷和成本。如果有不正確的標籤,系統將會從不佳的資訊中學習,並做出不正確的預測。

Amazon SageMaker Ground Truth 透過使用存放在 Amazon S3 中的資料,並結合使用自動資料標記和人類執行的標記,輕鬆且有效率地執行高準確性的資料標記,從而解決了這個問題。

問:如何開始使用 Amazon SageMaker Ground Truth?

答:Amazon SageMaker Ground Truth 提供一種受管體驗,只用幾個步驟就能設定整個資料標記任務。如要開始使用 Amazon SageMaker Ground Truth,請登入 AWS 管理主控台,然後導覽到 SageMaker 主控台。從那裡,在 Ground Truth 之下選取 Labeling jobs。您可以在這裡建立標記任務。首先,做為標記任務建立流程的一部分,您要提供指向 S3 儲存貯體的指標,而該儲存貯體包含您要標記的資料集。Ground Truth 為常見的標記任務提供範本,您只需要按幾個選項,並為如何標記您的資料提供最少指示,就能完成標記。或者,您可以建立自己的自訂範本。做為建立標記任務的最後一個步驟,您要選取下列三個人力選項之一:(1) 公有群眾外包人力、(2) 一組專業的第三方資料標記服務供應商,或 (3) 使用自己的工作者。您還可以選擇啟用自動資料標記。

問:使用 Amazon SageMaker Ground Truth 如何管理我的訓練資料集?

答:Amazon SageMaker Ground Truth 會管理中繼資料、關聯的標籤,還有標籤與資料集的分類。您可以透過 SageMaker Notebook 或 SageMaker 主控台內的 Ground Truth 主控台,輕鬆使用 AWS 開發套件查詢和管理您的資料集和標籤。請瀏覽 Amazon SageMaker Ground Truth 文件以取得詳細資訊。

問:Amazon SageMaker Ground Truth 如何協助增加訓練資料集的準確性?

答:Amazon SageMaker Ground Truth 提供下列功能,協助您提升由人類執行之資料標記的準確性:

(a) 註解整合:這可透過將每個資料物件傳送給多個工作者,然後將他們的回應 (稱為「註解」) 整合成單一標籤,從而抵銷個別工作者的錯誤/偏差。然後取得他們的註解,並使用註解整合演算法進行比較。這個演算法會先偵測被忽略的異常註解。然後執行註解的加權整合,指派較高的權重給較可靠的註解。輸出結果是每個物件的單一標籤。

(b) 註解界面最佳實務:這些是註解界面的各種功能,讓工作者更準確地執行他們的任務。人類工作者容易犯錯和有偏見,而經過良好設計的界面可以改善工作者的準確性。一個最佳實務是在固定的側邊面板中顯示簡短的指示,以及良好和不佳的標籤範例。另一個最佳實務是當工作者在影像周圍畫邊框時,將邊框邊界外的區域變暗。

問:Amazon SageMaker Ground Truth 如何確保我的資料受到保護且安全?

答:按照預設,Amazon SageMaker Ground Truth 會加密靜態和傳輸中的資料。此外,也可以使用 AWS Identity and Access Management (IAM) 控制對資料的存取。Ground Truth 不會在 AWS 環境之外存放資料或製作副本,您的資料仍保持在您的控制之中。此外,Ground Truth 支援各種合規標準,例如一般資料保護規範 (GDPR),並使用 Amazon CloudWatch 和 Amazon CloudTrail 提供廣泛的記錄和稽核功能。請瀏覽 Amazon SageMaker Ground Truth 文件以取得詳細資訊。

問:如何使用 Amazon SageMaker Ground Truth 存取人力?

答:您可以從 SageMaker Ground Truth 三種人力選項中選擇,也就是:(1) 透過 Amazon Mechanical Turk 的公有群眾外包人力;(2) 透過 AWS Marketplace 提供的第三方資料標記服務供應商;以及 (3) 您自己的員工。請瀏覽 Amazon SageMaker Ground Truth 文件以取得詳細資訊。 

使用第三方資料標記服務供應商

問:Amazon SageMaker Ground Truth 資料標記服務供應商是否可以處理機密資料?

答:Amazon SageMaker Ground Truth 資料標記服務供應商可以處理機密資料。AWS 客戶與第三方資料標記服務供應商之間的標準服務協議包含對您機密資訊的一些基本保護。請先檢閱這些條款,然後再與服務供應商共用任何機密資訊。條款位於 AWS Marketplace 上服務供應商的清單頁面。

問:我透過 AWS Marketplace 與第三方的服務供應商合作。我需要留意服務供應商為因應 COVID-19 所作的哪些改變?

答:在 COVID-19 不斷變動的影響下,為了維護員工的健康與安全,部分服務供應商暫時採行遠端作業政策。在這段期間內,包含 SOC 2 合規等安全標準及底下常見問答集中提到的其他安全控制,可能不適用於受影響的服務供應商。為反映此變動,受影響的服務供應商已更新其 AWS Marketplace 清單,且不會於客戶未明確同意下在遠端工作環境中處理客戶的資料。

問:Amazon SageMaker Ground Truth 資料標記服務供應商需要滿足哪些安全標準?

答:資料標記服務供應商每年都需要完成 SOC 2 合規和認證。SOC 2 報告是根據美國會計師協議 (AICPA) 信託服務標準 - 安全性、可用性、處理完整性、機密性及隱私權。

除了 SOC 2,服務供應商還需要維持以下額外的安全控制來協助保護客戶資料的安全。

技術控制:
服務供應商需要利用適當的軟體,來封鎖從其系統下載或複製檔案/資料的任何嘗試和防止未經授權存取其系統。此外,服務供應商還需要禁止其人力儲存或複製客戶工作相關的資料。

網路安全控制:
我們要求服務供應商的網路設計為防止遠端存取客戶的工作相關資料。而且,提供者的網路會封鎖點對點檔案共用軟體,且防火牆應設計為可提供高可用性。

員工控管:
服務供應商需要確保已與員工簽訂保密協議 (NDA)。服務供應商需要採用嚴格的政策,來防止任何資訊泄露和防止員工透過任何方式傳輸資訊:紙張、USB、行動電話或任何其他媒體。

實體存取控制:
服務供應商需要維持實體存取控制措施來防止未經授權存取其生產場地。這些可能包括含生物驗證、員工工牌識別的旋轉閘門。

問:AWS 如何協助確保服務供應商滿足這些安全標準?

答:AWS 要求服務供應商在列示於 Marketplace 上之前,必須先提供其 SOC 2 認證報告,並確認:

真實性 (服務供應商的稽核員是否通過 AICPA 認證);

報告期限 (SOC 2 認證有效日期);及

生產場地 (服務供應商將完成 Amazon SageMaker Ground Truth 標記工作的實際場地)。

問:服務供應商安全標準的審查頻率為何?

答:來自每個服務供應商的安全標準需每年審查,以確保其符合強制性規定。

問:AWS 審查是否有任何例外?

答:沒有。如果服務供應商未能達到安全標準,則他們的產品清單將從 AWS Marketplace 上移除。移除清單將在 24 小時內完成,且會透過電子郵件通知所有現行客戶。

問:如果服務供應商透過多個生產場地提供資料標記服務,是否所有場地都需要執行審查程序?

答:是,所有場地都需要滿足必要的安全標準。

問:如果服務供應商生產場地出現資料違規,則會發生什麼情況?

答:服務供應商將在偵測到任何實際或可疑的未經授權的存取、收集、擷取、使用、傳輸、披露、損毀或遺失客戶資訊的情況的 24 小時內,通知 AWS 和受影響的客戶。服務供應商將及時補救每個安全事故,並向 AWS 和受影響的客戶提供有關內部調查的書面詳細資料。

定價和可用性

問:Amazon SageMaker Ground Truth 的成本為何?

答:請參閱 SageMaker Ground Truth 定價頁面以取得目前的定價資訊。

問:哪些 AWS 區域可以使用 Amazon SageMaker Ground Truth?

答:請參考AWS 區域表所列目前提供 Amazon SageMaker Ground Truth 的所有 AWS 區域。

Amazon SageMaker Ground Truth 定價
進一步了解 Amazon SageMaker Data Labeling 定價

開始使用 Amazon SageMaker Data Labeling,沒有前期承諾,也不用簽訂長期合約。

進一步了解 
註冊 AWS 帳戶
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
開始在主控台進行建置
開始在主控台進行建置

利用 AWS 管理主控台中的 Amazon SageMaker Data Labeling 開始建置。

登入