AWS推出六項Amazon SageMaker新功能 進一步降低機器學習使用門檻並提升資料工作流程處理效率
o Amazon SageMaker Canvas進一步降低機器學習使用門檻,業務分析師無需編寫程式碼即可透過點擊式介面進行更準確的機器學習預測
o Amazon SageMaker Ground Truth Plus提供全託管資料標記服務,為客戶提供內建工作流程與技能嫻熟的團隊,以更低成本快速交付高品質的機器學習模型訓練資料集
o Amazon SageMaker Studio提供一個可以集中執行資料工程、資料分析和機器學習工作流程的通用型筆記本環境
o Amazon SageMaker Training Compiler透過自動編碼編譯提高效率,幫助客戶提升深度學習模型訓練速度高達50%
o Amazon SageMaker Inference Recommender以最佳性價比,自動推薦執行機器學習推論的最佳AWS運算執行個體
o Amazon SageMaker Serverless Inference為大規模機器學習推論提供無伺服器運算
AWS在2021 re:Invent年度盛會上,宣佈為引領業界的機器學習服務Amazon SageMaker推出六項新功能,讓機器學習更容易上手且更具成本效益。此次發佈的強大新功能包括:無需編寫程式碼即可進行準確的機器學習預測、更精準的資料標記服務、可用於跨領域合作的Amazon SageMaker Studio通用型筆記本體驗、讓編碼更高效的機器學習模型訓練編譯器、為機器學習推論自動推薦運算執行個體,以及用於機器學習推論的無伺服器運算。欲使用Amazon SageMaker,請瀏覽:aws.amazon.com/sagemaker 。
在雲端幾乎無限的產能、爆炸性增長的資料量以及開發人員使用的工具快速進步等多重因素推動下,機器學習已成為各產業的主流。AWS多年來一直致力於降低機器學習的使用門檻,讓更多的客戶運用機器學習技術。Amazon SageMaker是AWS成長速度最快的服務之一,包括阿斯特捷利康(AstraZeneca)、Aurora、Capital One、Cerner、Discovery、現代汽車(Hyundai)、Intuit、路透社(Thomson Reuters)、Tyson和Vanguard等全球數萬家客戶,正使用Amazon SageMaker訓練各種規模的機器學習模型,有些模型甚至包含數十億個參數、每月進行數千億次預測。隨著客戶在Amazon SageMaker上不斷擴展其機器學習模型訓練和推論,AWS也持續擴展服務產能,僅在過去一年就推出60多項Amazon SageMaker的新功能。此次發佈的諸多新功能讓Amazon SageMaker更加強大,能讓用戶更輕鬆地準備和蒐集機器學習資料、更快地訓練模型、優化推論所需的運算類型和數量,以及為更廣泛的受眾拓展機器學習。
Amazon SageMaker Canvas無程式碼機器學習預測
Amazon SageMaker Canvas為業務分析師(支援財務、行銷、營運和人力資源團隊的人員)提供視覺化介面,他們無需任何機器學習經驗,也不必編寫程式碼,即可自行建置更準確的機器學習模型以進行預測。越來越多公司希望透過機器學習重塑業務和顧客體驗,這需要更多來自不同業務領域的員工使用先進的機器學習技術。然而,機器學習通常需要大量專業知識,並且通常需要多年的正規教育或密集培訓以習得該技能,而這些課程的難度高且持續不斷變化。Amazon SageMaker Canvas解決了這項挑戰,它透過提供視覺化、點擊式的使用者介面,讓業務分析師可以輕鬆地產出預測。客戶只要將Amazon SageMaker Canvas連接到他們的資料倉儲(如Amazon Redshift、Amazon S3、Snowflake、本地資料倉儲、本地檔案等),就能運用Amazon SageMaker Canvas的視覺化工具直觀地準備和分析資料。接著,Amazon SageMaker Canvas會使用自動機器學習建置和訓練機器學習模型,客戶無需編寫任何程式碼。為確保模型的準確度和有效性,業務分析師也可以在Amazon SageMaker Canvas的控制台中查看和評估模型。Amazon SageMaker Canvas還支援客戶將模型匯出到Amazon SageMaker Studio,與資料科學家共用並進一步驗證和改善模型。
Amazon SageMaker Ground Truth Plus專業資料標記
Amazon SageMaker Ground Truth Plus是一項完全託管的資料標記服務,以內建資料標記工作流程的專家團隊,在無需編寫程式碼的狀況下,以更低成本快速交付高品質的訓練資料集來訓練機器學習模型。為了訓練更準確的模型並規模化機器學習部署,客戶需要的正確標記資料集越來越大。然而,要生成大型資料集可能需要數週到數年的時間,並且通常需要公司聘僱員工並打造工作流程來管理標記資料的過程。2018年,AWS推出了Amazon SageMaker Ground Truth,透過使用來自Amazon Mechanical Turk、第三方供應商或以自有團隊的人工資料標記方式,幫助客戶更輕鬆地生成標記資料。Amazon SageMaker Ground Truth Plus進一步拓展這項功能,透過專業團隊為客戶提供高度準確的資料標記。這些專業團隊不但擁有特定領域和產業專業知識,同時具有可滿足客戶對資料安全、隱私與合規等要求的專業技能。Amazon SageMaker Ground Truth Plus具有多步驟標記工作流程功能,可縮短標記資料集所需的時間,並降低採購高品質標記資料的成本,該功能包括機器學習模型預先標記、檢測人工標記的錯誤和低品質標記,以及輔助標記功能(例如3D立體捕捉、去除2D中的失真圖像、影片標記中的預測和自動分割工具)。客戶只需先將Amazon SageMaker Ground Truth Plus導向他們在Amazon Simple Storage Service(Amazon S3)中的資料來源,並提供特定的標記需求(例如,醫學專家應如何標記肺部放射影像中的異常情況的指示)。Amazon SageMaker Ground Truth Plus隨後打造資料標記工作流程並提供儀表板,讓客戶能追蹤資料標記進度、檢查已完成標記的樣本品質,並為生成高品質資料提供回饋;該功能讓客戶可以更快地建置、訓練和部署高準確度的機器學習模型。
Amazon SageMaker Studio 通用型筆記本
Amazon SageMaker Studio的通用型筆記本(業界首個完整的機器學習整合式開發環境)提供一個統一的整合環境來執行資料工程、資料分析和機器學習。如今,來自不同資料領域的團隊希望使用一系列涵蓋資料工程、資料分析和機器學習的工作流程展開合作。這些領域的從業人員通常來自資料工程、資料分析和資料科學等不同領域,他們希望無需切換資料工具,就能跨足各種工作流程。而當客戶準備整合資料分析和機器學習的資料時,通常需要處理多種工具和筆記本,這個過程繁瑣、耗時且容易出錯。Amazon SageMaker Studio現支援客戶在一個通用型筆記本中,為實現多種目的而進行的對話模式存取、轉換和分析各種資料。Amazon SageMaker Studio與在Amazon EMR叢集上執行的Spark、Hive和Presto,以及在Amazon S3上執行的資料湖皆已整合,客戶無需切換服務即可使用Amazon SageMaker Studio存取和操作通用型筆記本中的資料。客戶除了可以使用喜歡的框架(例如TensorFlow、PyTorch或MXNet)開發機器學習模型,並在Amazon SageMaker Studio中建置、訓練和部署機器學習模型外;客戶無需離開Amazon SageMaker Studio通用型筆記本,就能一站式瀏覽和查詢資料來源、探索中繼資料和綱要,並處理資料分析或機器學習工作流程相關的工作負載。
適用於機器學習模型的Amazon SageMaker Training Compiler
Amazon SageMaker Training Compiler是一種新的機器學習模型編譯器,可自動優化編碼提高運算資源的使用效率,並縮短訓練模型時間多達50%。先進的深度學習模型通常是龐大而複雜的,訓練單一模型可能耗費數千小時的GPU運算時間,為此它們需要專門的運算執行個體來加速訓練。為了進一步縮短訓練時間,資料科學家會嘗試增加訓練資料或調整超參數(控制機器學習訓練過程的變數),找到效能最佳且資源消耗最少的模型版本。這項工作的技術複雜度導致資料科學家沒有時間優化在GPU上執行訓練模型所需的框架。Amazon SageMaker Training Compiler與Amazon SageMaker中的TensorFlow和PyTorch版本整合,這些版本經過優化可在雲端更高效地執行,因此資料科學家可以使用他們喜歡的框架,更有效率地使用GPU訓練機器學習模型。只需點擊一下,Amazon SageMaker Training Compiler就會自動優化並編譯訓練好的模型,提高訓練執行速度多達50%。
Amazon SageMaker Inference Recommender自動選擇執行個體
Amazon SageMaker Inference Recommender幫助客戶自動選擇最佳的運算執行個體和配置(例如執行個體數量、容器參數和模型優化),執行其特定的機器學習模型推論。為常用於處理自然語言或電腦視覺的大型機器學習模型選擇具最佳性價比的運算執行個體,是一個複雜的反覆運算過程,可能需要數週的實驗時間。Amazon SageMaker Inference Recommender消弭了執行模型應選擇哪種執行個體的不確定性和複雜度,透過自動推薦適合的運算執行個體配置,可將部署時間從數週縮短至數小時。資料科學家使用Amazon SageMaker Inference Recommender可將模型部署到推薦的運算執行個體上,或者使用該服務在一系列特定的運算執行個體上執行效能基準測試模擬。客戶可以在Amazon SageMaker Studio中查看基準測試結果,並評估不同配置在延遲、傳輸量、成本、運算和記憶體等方面的利弊。
適用於機器學習模型的 Amazon SageMaker Serverless Inference
使用Amazon SageMaker Serverless Inference,客戶僅需為生產中部署的機器學習模型推論按使用量付費。客戶使用機器學習時希望能優化成本,這對具有間歇性流量模式和長時間空閒的應用尤其重要。諸如基於消費者購買的個人化推薦、接聽來電的聊天機器人以及基於即時交易的需求預測等應用,可能會受天氣狀況、促銷的產品或節日與假日等外部影響而出現用量高低峰。為機器學習推論提供合適的運算容量是一項艱難且需要權衡多方面因素的工作。客戶有時為滿足峰值需求而過度配置容量,雖然實現一致的效能,但在沒有流量時會浪費成本。有時,客戶為控制成本而未部署足夠的運算容量,在條件變化時卻無法提供足夠的產能來執行推論。為了適應不斷變化的條件,一些客戶嘗試動態地手動調整運算資源,這是繁瑣且耗費精力的工作。用於機器學習的Amazon SageMaker Serverless Inference會根據推論請求的數量自動預先設定、擴展和關閉運算容量。當客戶將機器學習模型部署到生產中,只需在Amazon SageMaker中選擇無伺服器部署選項,Amazon SageMaker Serverless Inference就會管理運算資源並提供所需的精確運算量。透過Amazon SageMaker Serverless Inference,客戶無需管理底層基礎設施,且只需為每個請求使用的產能和處理的資料量付費。
AWS機器學習副總裁Bratin Saha表示:「各個產業和各種規模的客戶都積極借助Amazon SageMaker擴大機器學習的使用範圍,機器學習已經成為很多企業營運的核心,幫助客戶發明新產品、提供創新的服務和體驗。我們很高興為更多客戶拓展引領業界的機器學習服務,幫助更多企業推動業務創新,解決具挑戰性的問題。這些Amazon SageMaker的新功能將觸及更廣泛的客戶,同時為現有客戶提供額外的功能,幫助他們在運用機器學習的過程中,更輕鬆地將資料轉化為有價值的洞察,加快部署速度,提升效能並節省成本。」
Amazon SageMaker廣獲各產業客戶好評
BMW集團總部位於德國慕尼黑,是一家全球豪華汽車與機車製造商,品牌涵蓋BMW、BMW Motorrad、MINI和勞斯萊斯(Rolls-Royce)等;同時也提供優質的金融和行動服務。BMW集團人工智慧平台產品負責人Marc Neumann表示:「將人工智慧作為關鍵技術使用是BMW集團數位轉型過程中的重要環節。我們在整個價值鏈中已經採用人工智慧,為客戶、產品、員工和流程創造附加價值。過去幾年裡,我們已經將BMW集團中許多具有商業價值影響的頂級實用案例產業化。我們認為Amazon SageMaker Canvas將幫助我們把人工智慧及機器學習拓展至整個BMW集團。透過SageMaker Canvas,企業用戶可以輕鬆地探索和建置機器學習模型,無需編寫程式碼即可做出準確預測。SageMaker還支援我們的核心資料科學團隊合作,並在投入生產環境前,為企業用戶建置的模型進行評估。」
西門子能源(Siemens Energy)正為社會注入活力,環境、社會和企業治理(ESG)是其策略重點,他們的創新正為合作夥伴和員工創造不一樣的未來。西門子能源工業應用資料科學團隊負責人Davood Naderi表示:「西門子能源資料科學策略的核心是將機器學習的力量帶給所有企業用戶,讓他們能夠在不需要資料科學專家的情況下試驗不同的資料來源和機器學習框架。這將加快西門子能源解決方案(例如調度優化器和診斷服務)的創新和數位化速度。Amazon SageMaker Canvas支援企業用戶展開實驗,為西門子能源機器學習工具組合加分。同時,還可以與資料科學團隊共用與合作,這種合作非常重要,不但幫助我們將更多機器學習模型投入生產,同時也確保所有模型都符合我們的品質標準和政策。」
Airbnb是全球最大的特色民宿預定平台之一,提供超過700萬個住宿選擇和40,000個由當地房東組織的手作活動。Airbnb China資料科學家羅偉表示:「Airbnb持續將機器學習整合到越來越多的業務層面。為了訓練和測試機器學習模型,我們的團隊始終需要生成和維護高品質的資料。為了提供客戶更好的服務並減少對客服團隊的依賴,我們一直在尋找方法,希望將內容涵蓋十萬個中文段落的客戶服務日誌生成高品質文字分類資料結果。透過Amazon SageMaker Ground Truth Plus,AWS團隊為我們打造客製化資料標記工作流程,其中包括能實現99%分類準確率的自訂機器學習模型。」
關於Amazon Web Services
AWS在超過15年以來,一直以技術創新、服務多元、應用廣泛而享譽業界。AWS一直不斷擴展其服務以支援幾乎所有雲端工作負載,目前提供超過200項功能完善的服務,涵蓋運算、儲存、資料庫、網路、資料分析、機器學習與人工智慧、物聯網、行動、安全、混合雲、虛擬實境與擴增實境、媒體,以及應用開發、部署與管理等方面;基礎設施遍及25個地理區域內的81個可用區域(Availability Zone),並已公佈預計在澳洲、加拿大、印度、印尼、以色列、紐西蘭、西班牙、瑞士和阿拉伯聯合大公國新建9個區域及27個可用區域。包括發展迅速的新創公司、大型企業和政府機構在內,全球數百萬客戶都信賴AWS,透過AWS的服務支撐其基礎設施、提高營運敏捷度並降低成本。欲瞭解更多資訊,請瀏覽:aws.amazon.com。