透過深度學習,Disney 得以對大量的內容進行分類

在 1957 年的電視劇迪士尼樂園中,Walt Disney 帶領觀眾深入了解他的 Burbank 動畫工作室。他在談到地下圖書館時說道:「在資料室中,這些架子、桌子和檔案櫃保存了我們作為電影製片工作室的所有歷史。」


早在其他動畫工作室之前,Disney 就堅持可能需要參考或啟發的編劇和插畫師存取其封存。圖紙、概念圖稿以及 Dumbo 和 Peter Pan 等最愛影片的物品都被小心地珍藏在這個保險庫中。從那時起,Disney 一直致力於保存這些物品。

Disney 擁有近一個世紀的內容,數位化內容日益增多,Disney 必須比以往任何時候都更加謹慎地整理其圖書館。Disney 直接面向消費者和國際 (DTCI) 技術團隊中的一小隊研發工程師和資訊科學家負責確保 (虛擬) 堆疊間的有序且整潔。DTCI 成立於 2018 年,在一定程度上彙集了 The Walt Disney Company 的技術專家和專業知識,並整合技術以便為 Disney 的大量獨特內容和業務需求提供支援。

組織系統的基礎是中繼資料:Disney 節目和電影中故事、場景和角色的相關資訊。例如,Bambi 具有中繼資料標籤,不僅可識別兔子 Thumper 或Faline (Bambi 的小鹿朋友) 等角色,還可識別動物的類型、動物之間的關係,以及每種動物所描繪的角色原型。自然風光等事物 (具體到所描繪的特定類型花朵)、故事的音樂、情感和語調也具有特定的標籤。因此,使用適當的中繼資料正確標記所有這些內容,使其能夠正確分類極具挑戰性,特別是考慮到 Disney 快速的發展步伐︰

團隊的技術負責人 Miquel Farré 說道:「我們在電視劇中採用了新角色,足球運動員更換了球隊,超級英雄使用了新武器,並且播出了新的電視劇。」所有這些都需要大量新的中繼資料。

在 AWS 服務的協助下,他和他的團隊將建置機器學習和深度學習工具,以使用描述性中繼資料自動標記此內容,使封存程序更加高效。因此,編劇和動畫師可以快速搜尋並熟悉從 Mickey Mouse 到 Modern Family’s Phil Dunphy 中的每個人。

disney-composition

由 Disney 友情提供

中繼資料有何神奇之處?

負責這項工作的團隊最初成立於 2012 年,隸屬於 Disney & ABC Television Group。多年來,它不斷發展壯大,現在屬於 Disney 的 DTCI 技術小組,已經成為 Disney 王國風格和慣例的索引和知識庫 (例如,Bambithe 動物對話、Snow White)。為了使其機器學習工具產生能準確描述創意內容的中繼資料,團隊依靠作家和動畫師來詮釋讓每個作品與眾不同的風格特徵。

這些富有創造力的團隊成員將從他們的合作中獲益。使用準確的中繼資料標記內容後,他們可以透過搜尋界面快速找到所需內容。例如,為避免重複,Grey’s Anatomy 的編劇可能需要知道一集中發生過幾次 Whipple 手術的情況。與此同時,美工將為在海底發生的新動畫片繪製水下生活,可能想在 The Little Mermaidor Finding Nemo 中尋找特的角色的姿勢或姿勢以尋求靈感。

但是,使用正確的中繼資料標記所有內容很快會產生人工問題:即使手動標記是該程序的重要組成部分,DTCI 技術團隊仍沒有時間手動對每個畫面進行分類。正因為如此,Farré 的團隊將機器學習及最近的深度學習用於產生中繼資料。目的是建立深度學習演算法,可自動標記場景的組成部分,並與 Disney 的其他知識庫保持一致。人們仍需核准演算法的標籤,但該專案正在有意義地減少整理 Disney 圖書館的工作,從而提高在其中進行搜尋的準確性。

更重要的是,這一進展讓工程師可以騰出更多精力來使用 AWS (Amazon Web Services) 開發深度學習模型。因此,其在不同 Disney 內容間自動建立中繼資料的工作將不斷取得進展。


disney-screenshot

由 Disney 友情提供

深度學習賦予動畫身份

其中最成功的深度學習/中繼資料專案之一就是解決動畫識別帶來的問題。

在真人電影或電視劇中,對於機器而言,將角色與周圍環境分開相對簡單。但動畫讓事情變得更加複雜。例如,在一個動畫場景中,角色既出現在畫面,又出現在海報中 (即角色是罪犯,並且通緝標誌已張貼在整個城鎮)。「對於演算法而言,這非常複雜」Farré 說道。

去年,Farré 的團隊開發了一種深度學習方法,可以將動畫角色與其靜態角色區別開來,能夠在混雜的分身中進行識別 (例如在DuckTales 中,其中很多角色幾乎相同),並在場景中對其進行識別 (在 Alice in Wonderland 中,Alice 首次遇到柴郡貓時,他咧嘴一笑)。確定內容後,該演算法可以使用適當的中繼資料標記場景。

但該模型的真正強大之處在於可以套用至任何動畫內容。也就是說,團隊無需為 Goofy、Hercules 和 Elsa 等建立新模型,而只需使用其通用模型,只要稍作調整,即可用於任何電視劇或電影中的任何角色。

在今年之前,該團隊正在研究更傳統的機器學習演算法,這不僅比深度學習方法所需資料更少,而且結果更有限、靈活性更低。資料輸入越少,傳統演算法表現越出色。但是,當您擁有成倍的資料時,深度學習將帶來巨大的改變。

Farré 說道,現在深度學習模型可從經過訓練的網路中獲益,並且能夠針對特定使用案例進行微調。在動畫角色的特定案例中,Disney 對神經網路進行了微調,其中包含成千上萬張影像,以確保其了解「動畫角色」的概念。 然後,對於每個特定電視劇,僅使用幾集中的幾百幅影像重新調整神經網路,以了解在特定電視劇中應如何偵測和闡述「動畫角色」。

在 Disney 從傳統機器學習到深度學習的過渡中,AWS 一直是重要的合作夥伴,尤其是在實驗方面。彈性雲端運算 EC2 執行個體讓團隊能夠快速測試新版模型。(對於動畫識別專案,Disney 正在將 PyTorch 框架與預先訓練的模型配合使用。) 由於在深度學習方面開展了大量研究,因此該團隊正不斷嘗試新的方法。

中繼資料研究非常成功,在 Disney 各部門深受歡迎。Farré 表示,他的團隊最近與 ESPN 的個人化團隊合作,提供有關產業領先數位應用程式和網站上所有文章和影片的詳細中繼資料。若產品知道您是 Los Angeles Dodgers、Steph Curry、Minnesota Vikings 和 Manchester United 球迷,則每篇文章中包含的中繼資料越多,就越能確保根據您的偏好提供最適合的內容。此外,機器學習演算法及其提供的中繼資料可支援更進階的 AI,隨時間推移進一步推動隱含個人化 (根據資料關係和行為)。

正如 Farré 所見,中繼資料的應用層出不窮,在考慮到 Disney 龐大且日益增長的獨特內容、角色和產品庫時尤其如此。他說道:「我想我們不會感到無聊。」

Coinbase 使用 ML 建立安全的加密虛擬貨幣交易方式

進一步了解 »

Capital One 使用 ML 更好地保護客戶遠離詐欺

進一步了解 »

Zendesk 使用 ML 協助許多公司提供更快的客戶服務

進一步了解 »

T-Mobil 使用 ML 讓客戶服務更加人性化

進一步了解 »