一鍵部署高效應對 IoT 裝置突發故障的解決方案

物聯網廠商管理大量裝置同時上線,當用戶端出現故障,傳統的裝置維運方式往往是被動的,用戶需要透過聯繫客服反映問題,再由產品經理分配給維運人員,這種被動的故障處理模式,造成用戶體驗不佳,同時也浪費了大量資源。

為了快速發現、應對裝置的突發故障和常見問題,我們可以利用Amazon Web Services (AWS) 提供的解決方案。這包括建構能收集和分析裝置資訊的系統,用於蒐集裝置的日誌以及來自應用程序等各種來源的日誌資訊,進行故障分析歸類並集中儲存管理。 透過完善的日誌分析管理,企業能夠更輕鬆地快速找出問題並修正故障。

利用 Amazon Connect 和 Amazon Lex 服務,我們可以充分發揮技術的力量,利用機器人給出的最準確的答案,協助維運人員提高工作效率。 這有助於減少處理故障的被動維運模式,提升用戶透明度,並贏得用戶信任,從而提供最佳的客戶體驗。

方案解決的問題與痛點

現今的物聯網裝置都需要定期透過 Over The Air (OTA) 軟體更新來部署新功能或是修復安全性漏洞,而新的程式碼通常需要大量的內部測試來保證產品穩定性,但因OTA更新失敗導致全公司出現緊急情況並不罕見。

產品維運經理需要一套能儘早偵測此類事件的方法,同時還需要足夠的裝置資訊來深入了解問題,才能有效地做出回應。

測試工程師仰賴自動化測試也顯現出一個常見問題,這些自動化測試被設計為驗證特定單一功能,而部份隨機問題在這類型的測試中無法被發現。

客服經理同樣面臨著讓團隊接受最新培訓的挑戰。當產品軟體頻繁更新時,客服經理經常面臨沒有時間能安排人員做培訓。所以客服經理需要一套工具來讓團隊在日常工作中,從開發團隊獲取新的知識,減少對培訓的依賴,能夠立即為客戶解決問題。

方案架構

1. 物聯網裝置可透過MQTT協定將裝置隨機出現的嚴重問題,例如裝置當機,程序中止,設備過熱重啟等,以及裝置常見的錯誤碼,自動上報給AWS IoT Core
   

     1.a 裝置隨機出現的嚴重問題透過 AWS IoT rule 呼叫 Amazon Lambda 函數

    1.b 裝置常見的錯誤碼透過 AWS IoT 規則將 MQTT 訊息寫入 Amazon Timestream

2. 物聯網裝置也可透過HTTP協定將裝置的錯誤日誌直接上傳至Amazon S3,呼叫指定的 Amazon Lambda 函數

3. Amazon Lambda 函數作為接口,當接收到請求時,驅動Amazon Step Functions 工作流程來執行一連串任務

4. Amazon Step Functions 依照 Task DefinitionDB 關聯的裝置類型,將建置任務提交給對應的運算服務以滿足各種需求

    4.a Amazon CodeBuild - 在容器中執行建置任務,完成後丟棄容器。 Amazon CodeBuild可以並發運行各個建置任務,建置任務不會在佇列中等待

    4.b Amazon Lambda - 無伺服器服務回應事件 ,大規模快速處理數據

5. 使用Amazon Timestream 收集分析結果。 透過Amazon Managed Grafana 將Amazon Timestream新增為資料來源,即時分析資料以協助識別裝置故障趨勢

    5.a 裝置隨機出現的嚴重問題資料來源

    5.b 裝置常見的錯誤碼資料來源CrashBoard作為視覺化平台為產品維運團隊、測試人員等不同角色提供維運監控、裝置故障分析等跨資料來源統一看板

  1. 用戶可透過手機app登錄智慧客服系統,從Amazon Lex取得AI客服機器人的即時回應
  2. 使用Amazon Lambda作為 Amazon Lex 的程式碼執行函數,傳回給用戶端後使用者應執行的操作
  3. Bot Fulfillment訪問Log Analysis模組取得裝置異常報錯的詳細資訊,並立即返回裝置異常的處理方法給手機端用戶
  4. 若AI客服機器人無法解決用戶問題,用戶可經由手機app連線,向Amazon Connect取得人工客服的立即協助
  5. 客服人員可經由登入HelpDesk工作台,利用Amazon Connect 自動移交談話到人工座席,確保裝置使用者對話的完整性,提升人工作業效率與顧客滿意度
  6. 客服人員查詢Knowledge Base模組,根據用戶所提供的裝置訊息進行搜索,並取得裝置關鍵錯誤碼與詳細的裝置資訊。 透過研發工程團隊提供的解決方案,精準的回應用戶裝置故障的原因與解決對策,降低聯絡中心的成本
  7. Log Analysis模組呼叫Amazon Timestream取得裝置關鍵錯誤碼,搜尋Knowledge Base DB取得關鍵錯誤碼對應之業務決策,回饋給客服人員
  8. 若客服人員無法在Knowledge Base模組內搜尋出對應答案,可透過HelpDesk單一搜尋介面提交新的錯誤碼,儲存於Amazon DynamoDB,經由管理者批准,研發工程團隊立即分析裝置問題並提供業務決策所 需的見解,然後豐富客服人員搜索
  9. Amazon Connect Contact Lens提供客戶對話轉錄為文字並儲存於Amazon S3,發現客戶互動中最常見的意圖和相關訊息,可透過Lex Chatbot Designer,從對話記錄中自動設計AI客服機器人

方案成果

裝置維運的可視化圖表

產品維運經理可以使用 CrashBoard 的可視化圖表,以直觀的方式獲得最重要的資訊。 例如,當設備機群收到 OTA 更新時,方案會立即接收到由軟體錯誤引起的問題,後台會自動將每個問題分類到 S3 儲存桶,每個儲存桶都有唯一的signature。用戶可以在 CrashBoard 上以圖表和排序清單的形式查看故障及錯誤碼的分類,顯示問題發生的次數、在多少台裝置上等。

如果 OTA 軟體更新包含導致系統當機的新錯誤,詳細資訊頁面將顯示中止程序的 call stack。 這讓維運經理能夠快速地創建新的ticket,附帶上此類錯誤的詳細資訊。 工程師擁有call stack 詳細信息,相當於擁有進行問題分析所需的資訊。

舉下圖為例,kvsappli.c 的第360行 (KvsGetFrameFromEncoder函数) 出現了不當存取記憶體的錯誤。維運經理與開發團隊能立即判斷KVS Producer程序中止將會導致錄影中斷大約10秒,考慮到大量的裝置受影響,意識到問題的嚴重性,維運經理立即做了兩件事,一是開最高優先級的ticket給工程團隊去解決,二是使用方案提供的聊天機器人模版快速創建了一個專門針對這個特定問題的機器人。 因為方案的協助,這件事情大概只需幾個小時問答機器人就能上線服務用戶。

同樣地,測試工程師在軟體開發的快速迭代過程中。 每當將新版本的軟體部署到測試設備時,也可透過查看 CrashBoard 來識別新問題,並使用此方案所收集的資訊來建立 ticket。

裝置維運機器人

在大規模的設備更新中,特定的軟體錯誤可能會引起許多客戶投訴,給客服部門帶來沉重的壓力。 方案提供了聊天機器人的範本實現,用於自動回應已知的特定問題。 聊天機器人使用維運經理和工程師在分類和分析時所獲得的資訊。 例如,當維運經理發現一系列智慧攝影機上的「VideoRecorder」應用程式發生特定程序中止時,可以預期許多客戶將遇到錄影中斷的問題。 維運經理可以立即使用方案提供的模板創建一個聊天機器人,用於處理特定的投訴,例如「錄製影片中缺少片段」、「錄影中斷」等。這利用了亞馬遜的自然語言處理 (NLP) 功能, Amazon Lex 專為聊天機器人打造的服務。 聊天機器人也已經與 Amazon Connect 高度集成,因此聊天機器人無法處理的任何問題都可以轉接到真人客服。

真人客服的使用場景

在客服人員與客戶交談時,他們可以使用方案提供的 Knowledge Base User Interface (KBX, 知識庫使用者介面)來深入了解客戶的裝置。 KBX 顯示客戶擁有的所有設備,客服人員只需點擊任意設備即可搜尋其軟體日誌。 KBX 不僅顯示日誌,還會從知識庫中找到的與特定錯誤相符的相關資訊。 舉例而言,若客戶抱怨將SD卡插入智慧型攝影機後未看到卡上有錄影檔案,客服人員可搜尋日誌,發現記錄「2023-10-30 07:49:12 / 0x0003 / SD 卡不相容/請為客戶提供 amazon.com 上此 URL 上出售的替換卡」等相關資訊。  

最後,當客服人員在使用 KBX 服務客戶的過程中學到的新知識,他們有機會將這些知識貢獻回知識庫。 舉例而言,客服人員發現某設備的SD卡上未出現任何檔案。 儘管搜尋軟體日誌找到了與SD卡相關的錯誤代碼,卻未找到SD卡和儲存檔案之間可能存在的相關線索。在成功解決客戶問題後,客服人員可使用 KBX 提供的表格創建新的項目。 維運經理則定期使用KBX審查所有新的項目,驗證其正確性,然後將新知識提供給每個客服人員做使用。

台灣客戶案例

「我們與 AWS IoT Lab 合作物聯網設備健康監控平台,快速發現設備故障和異常問題, 並導入 Amazon Lex 和 Amazon Kendra 搭建智能客服,快速構建虛擬客服,以精確、迅速回答客戶問題,並透過大語言模型(LLM)做事件處理的預警與回應。」WiFigarden Inc | ULTRON 創辦人 闕正豪 Aaron

作者

Blake Lai, Sr. Technical Program Manager, AWS

Blake Lai 是任職於台灣 AWS 的項目管理經理。 專精於專案計畫,商業策略分析,協助客戶溝通與互動,與IoT Lab相關的產品開發管理。

Blake Lai is a Sr. Technical Program Manager at Amazon Web Services (AWS) in Taiwan. He focuses on roadmap planning, business analysis, customer engagement and product management of AWS IoT Lab.

Jeff Chen, Solutions Architect, AWS

Jeff Chen 是任職於台灣 AWS 的解決方案架構師。 專精於 IoT 與物聯網架構的實踐,並致力於通過 AWS 上基於 IoT 的解決方案幫助客戶實現其業務目標。

Jeff Chen is a Solutions Architect at AWS based in Taiwan. Specializes in IoT and connected product practices and work closely with customers to achieve their strategic business goals with IoT solutions on AWS.

 免費註冊 AWS 帳號

新戶註冊即享 AWS 免費方案,可探索超過 100 種 AWS 的產品與服務,還能加碼領取獨家贈品!

 與我們聯絡

若欲尋求技術、帳單帳戶、登入存取支援,或希望與 AWS 的雲端業務聯絡,都竭誠歡迎您與我們聯繫!

 探索台灣資源中心

集結研討會精采回顧雲端主題白皮書開始上雲系列等免費資源,進一步豐富您的雲端之旅。