PBS 透過 Amazon Personalize 為觀眾提供量身打造的體驗

公共廣播服務 (PBS) 想建立智慧推薦引擎 (SRE),以便根據多種因素向觀眾提供高品質的推薦。

為了確保成功,PBS 決定與具備人工智慧 (AI) 和機器學習 (ML) 專業知識,以及深入了解 Amazon Web Services (AWS) 平台的雲端諮詢公司合作。

ClearScaleAWS 核心級服務合作夥伴,具備 11 項 AWS 能力 (包括機器學習、非盈利和資料和分析),是 PBS 的絕佳選項,可為非盈利組織提供在串流時代大幅增強觀眾體驗所需的一切。

PBS 產品管理總監 Mikey Centrella 表示:「我們與 ClearScale 合作,來建立和設定初始解決方案和資料管道。「我們需要更快運用洞察力,並在幾個月而不是幾年內推出產品。這些專家為使用 Amazon Personalize 設定了 AWS 雲端組態和相關服務,讓我們節省了大量精力和數千小時的工程時數。」

PBS 是總部位於維吉尼亞州阿林頓的非營利組織,成立於 1969 年,向全美超過 1 億電視觀眾和超過 3200 萬線上用戶播放教育、新聞和娛樂節目。PBS 目前擁有約 330 個成員電視台,將最高品質的內容播送給美國 50 個州、波多黎各、美屬維爾京群島、關島和美屬薩摩亞。

挑戰

如同許多當今領先的媒體和串流媒體平台,PBS 希望將整體使用者體驗提升到更高水準。該組織希望根據眾多因素 (節目之間的深層連、目前熱門趨勢、使用者行為模式等) 為觀眾提供更精準的應用程式內節目推薦,以提高參與度和長期忠誠度。

乍看之下,建立這種推薦引擎似乎很複雜。然而事實上,建置這種引擎無須具備資料科學專業知識或熟稔 AI/ML。公司只需要找到適當的雲端原生工具和服務組合,然後提供資料即可。有了正確的工具組,就不需要花費數年的時間來開發這些服務。

幸運的是,AWS 提供受管 AI/ML 解決方案,可讓工程師利用預先建立的模型,自動化大部分的建立、訓練和微調工作。困難在於了解如何充分發揮雲端提供的功能,尤其是需要考慮實際情況變化的速度。

這就是為何 PBS 找上 MLOps 領域的領導者 ClearScale,這正是 PBS 建置理想推薦系統並隨時間維持所需的技術專業知識類型。PBS 和 ClearScale 一起決定在 Amazon Personalize 之上推進採用 AWS 驅動的解決方案。

圖 1 – 主架構圖。

若要讓 PBS 建置真正差異化的推薦系統,除了專家實作指導之外,該公司還需要最新、最傑出的雲端技術。

ClearScale 提出了解決 PBS 推薦系統專案的詳細藍圖,其中包括資料營運、機器學習營運和示範使用者介面。

資料營運

首先,ClearScale 和 PBS 一起決定將哪些資料來源饋送到未來的機器學習模型:

PBS 媒體管理員
PBS 使用者設定檔
Google Analytics (分析) 中繼資料

PBS 媒體管理員是一個內容管理系統,PBS 成員台用於在不同平台上發佈和分享節目。媒體管理員也包含豐富的中繼資料,例如產品的發行日期、標籤和作者,並附有規則,可協助您決定在搜尋結果中向觀眾顯示的內容。

例如,媒體管理員在提出推薦之前,會先將觀眾的年齡或地點納入考量。如此一來,幼童就不會意外看到不適合年齡的節目,系統也不會推薦其他地區的新聞節目給特定地區觀眾。

PBS 使用者設定檔包含個別觀眾的寶貴詳細資訊,例如他們之前與 PBS 應用程式的互動、觀看清單、觀看時間和觀看歷史記錄。因此,使用者設定檔包含一些人們喜歡觀看內容最明顯的證據。

ClearScale 和 PBS 還決定納入 Google Analytics (分析) 的上下文資訊,以便更全面了解收看 PBS 內容的對象及地點。Google Analytics (分析) 具有人員的相關非敏感資料,這在推導觀看偏好時非常實用。

該平台還可以查看大家用來觀看內容的裝置類型,這些裝置可作為推薦系統考慮的另一個資料點。例如,觀眾可能在通勤列車上使用手機觀看 PBS 新聞。但回到家中後,就會和孩子一起觀看電視節目。

為了整合前兩個來源的資料,ClearScale 為 Amazon Aurora for PostgreSQL 關聯式資料庫設定了原型環境。資料庫與 PBS 製片系統完全隔離,以確保擷取、轉換、載入 (ETL) 程序的最大彈性。Google Analytics (分析) 資料是透過導入管道擷取,並儲存在 Amazon Simple Storage Service (Amazon S3) 中。

接著,ClearScale 從 AWS Glue 開始實作資料管道,這是一種可編目、驗證和轉換不同來源資料的無伺服器雲端原生解決方案。ClearScale 同時設定 AWS Glue,將資料格式化到 Parquet 然後卸載到資料湖,讓資料可供使用。以上步驟全部使用 AWS Step Functions 協調處理,讓 PBS 受益於自動狀態流程管理和例外狀況處理。

AWS Lake FormationAWS Glue Data Catalog 對於保護 PBS 的資料湖以及將其他雲端服務指向正確的資料存放區至關重要。湖中的資料可以使用標準 SQL 以兩種方式來存取:

當成本是最優先考量時,Amazon Athena 的無伺服器分析最適合臨時探索任務。
位於 Amazon Redshift 之上的強大資料倉儲,適用於具有嚴格 SLA 要求的定期、明確定義查詢。

備妥適用於資料操作的基礎架構後,ClearScale 就能用於解決專案的 MLOps 方面。

機器學習營運

ClearScale 協助 PBS 建立機器學習生命週期的四個主要階段:

  • 模型開發
  • 訓練
  • 推導
  • 評估

幸運的是,AWS 讓公司能夠在這四個階段利用資料科學和機器學習的力量,而不必從頭開始建立模型。

ClearScale 資料工程師根據 Amazon Personalize 建立了初始版本的智慧推薦引擎,同時也考慮到 PBS 工程師最終將取得完整擁有權。ClearScale 使用 Amazon FSx for Lustre,讓資料可供系統載入時使用。該團隊也整合了 Amazon SageMaker Studio,做為機器學習工程師用來維護模型的開發環境。

模型預先生產工作的中心則是 AWS Lambda、Amazon Athena 和 AWS Step Functions。ClearScale 將這些服務與 Amazon Personalize 連接起來,以擷取資料、載入變更和訓練模型。

有了這些服務,ClearScale 為 PBS 的智慧推薦引擎選擇了核心配方 (即針對特定使用案例微調的 Amazon Personalize 演算法),並根據每個推薦輸入和輸出的不同需求建置了四個模型:

  • 人氣計數機器學習模型:根據主流受歡迎程度推薦電視節目。這是討論範圍內最簡單的模型,但也很重要。其他模型會深入研究過去的資料,因此會推薦與使用者相關但分佈在整個歷史中的節目。

    在媒體和娛樂業,目標是推廣最近的節目,此模式可協助其他模式不要失去重點。將納入考慮的資料範圍限制在前一週,可以辨別最近的趨勢並透過其他模型的預測來增強。為了保持最新趨勢,這個模型每天都會重新訓練。
  • 項目關係機器學習模型:根據協作篩選推薦電視節目,以便推薦與觀眾之前互動過節目最相似的節目。此配方 (SIMS) 深入挖掘以揭示節目之間的關係,包括以人力智慧乍看之下不明顯的關係,以及非傳統的線性和統計演算法。
  • 互動歷史機器學習模型:根據使用主動學習的使用者行為模式來推薦電視節目。使用主動學習時,會將提供推薦之同一工作階段中的使用者活動提供給模型。這可讓模型在幾秒鐘內找出新規則,而無需經過需時數小時的完整重新訓練。
  • 個人化排名機器學習模型:根據明顯的使用者喜好,對電視節目進行排名。此演算法不是擷取特定項目,而是採用 PBS 提供的項目 (例如「最佳聖誕節節目」摘要),並按照可反映使用者偏好設定的順序傳回節目。
機器學習模型比較 
標準   人氣計數  項目關係  互動歷史  個人化排名
模式  人氣  相似性  行為  行為 
維度  千  萬  十萬  萬 
效能  最好  較好  好  較好 
涵蓋範圍  低  中  高  中 
準確性  好  較好  最好  較好 
重新訓練  每週  每週  線上
每月 
每週 
配方  人氣計數  SIMS  使用者個人化  個人化排名 

ClearScale 在 Amazon Personalize 的統一 REST API (由 Amazon API Gateway 支援) 部署這些模型,以便將 PBS 推薦引擎的發現項目提供給支援公司串流應用程式的許多平台使用。存取控制是根據 Amazon CognitoAWS Identity and Access Management (IAM),確保觀眾只能存取自己的資料。

每個模型的 API 都包含四個緊密連線的微服務:

即時推薦 API接收使用者資訊,並在幾秒鐘內提供接下來可吸引和娛樂觀眾的精彩節目推薦。
個人化通知 API:執行與上一個微服務相同的操作,並與工作階段外的行銷通道 (例如簡訊、電子郵件或推播通知) 搭配使用。
意見回饋迴圈 API:以「喜歡」或「不喜歡」形式處理觀眾的意見回饋,用以判斷觀眾對推薦的滿意度,並藉以判斷正確性。
組態管理 API:允許 PBS 管理員即時微調推薦引擎,而無需重新部署任何系統組件。

這個世界不會止步不前,機器學習也一樣。隨著環境不斷發展,訓練好的模型運作效能也會不如一開始部署時那樣良好。在絕大部分案例中,模型會隨時間而退化,降低商業價值以及使用者滿意度。例如,項目目錄會收到模型從未看過的新節目。

在最好的情況下,模型會拒絕推薦節目,引入偏見。而在最壞的情況下,模型會提供不正確的預測,導致錯誤的決策。為了確保模型不會就地凍結,必須在最新的資料上持續重新訓練模型,並偶爾改變變數以符合新的遊戲規則。

我們在 Amazon CloudWatch 之上新增了自訂模型監視器,用於測量精確度指標,表示系統能夠向觀眾提供良好推薦的能力。除了監控指標,還可以根據指標進行自動化決策。例如,系統會在模型接近特定臨界值時重新訓練模型,讓指標值永遠不會低於該臨界值,讓觀眾感到滿意。

ClearScale 針對 PBS 的概念驗證 (PoC) 可產生 0.0706 的「10 的精確度」指標。這個數字代表了每推薦 10 個節目,至少有一個節目會以 71% 機率受到使用者喜愛。值得一提的是,許多其他推薦系統只能達到 0.03 的結果。

示範使用者介面

專案的最後一個階段是建立使用者介面 (UI) 原型,可讓 PBS 觀眾以簡單的吸睛方式將其帳戶個人化。ClearScale 建立了一個示範 Web 應用程式,可重複使用現有的商務邏輯,並利用新的推薦引擎。

示範應用程式由 TypeScript、ReactJS 和 Sass 提供 UI,以及使用 Effector (用戶端) 和 React-Query (API 整合) 的資料管理提供支援。在將此項作為功能原型提供服務的同時,也運用樣式和品牌指南來反映 PBS 的獨特性。考量回應能力,原生繼承了 Material-UI,示範應用程式在桌上型電腦、平板電腦和手機上都能運作良好。

示範使用者介面包括以下元件:

「虛擬主機」將示範應用程式提供給觀眾,無論使用哪種平台都能存取。
「統一驗證」可讓 PBS 觀眾使用現有憑證登入,並自動將其觀看歷史記錄、偏好設定和其他個人化資料提供給 SRE。
「節目卡」功能在人員將游標停留在目錄中的節目上方時會顯示詳細資料,以及指示節目與使用者相關程度的評分。
「內容播放器」可讓觀眾在示範應用程式中檢視推薦。
「專為 {User} 精心打造」會根據即時推薦 API 及其互動歷史機器學習模型,向觀眾顯示個人化清單。
「意見回饋循環」可讓觀眾判斷系統所提供推薦的相關性,並即時了解其對所提供內容的影響。
「上週前{K}」根據人氣計數機器學習模型,顯示 PBS 全體觀眾中最近的熱門節目。

優勢

如今,PBS 擁有有效的 MLOps 平台和推薦系統,可視未來發展繼續建置。ClearScale 建立的資料管道會清理、驗證和豐富 PBS 已累積 50 年的原始資料。流入組織推薦系統的資料是一致、準確且完整的,使其成為目前和未來 AI 驅動努力的單一事實來源。

新的推薦引擎也讓 PBS 能夠根據多種因素,為觀眾提供更加個人化的體驗。ClearScale 建置的四個模型納入主流人氣、節目間關係和使用者行為等變數,以達到最可能讓觀眾滿意的推薦。

最後,為 PBS 開發的示範網頁應用程式 ClearScale,在易用介面中展示了新推薦引擎的強大功能。它讓人們有機會快速找到自己喜歡的節目並分享對特定推薦的意見回饋,使 PBS 能夠微調觀眾的體驗。

在大型廣播公司爭奪眾多串流應用程式的收視率時,ClearScale 協助 PBS 建立了自己的機器學習解決方案,來運用 AWS 強大的雲端原生工具。PBS 現在擁有可擴展的 MLOps 平台,每天可為數百萬觀眾提供更好的體驗。

免費註冊 AWS 帳號

新戶註冊即享 AWS 免費方案,可探索超過 100 種 AWS 的產品與服務,還能加碼領取 3C 獨家贈品!

與我們聯絡

若欲尋求技術、帳單帳戶、登入存取支援,或希望與 AWS 的雲端業務聯絡,都竭誠歡迎您與我們聯繫!

探索台灣資源中心

集結研討會精采回顧雲端主題白皮書開始上雲系列等免費資源,進一步豐富您的雲端之旅。