跳至主要内容
AWS 机器学习

借助深度学习,Disney 整理了大量内容

在电视连续剧《迪士尼乐园》1957 年的一集中,Walt Disney 带领观众深度参观了他的伯班克动画工作室。“在我们的资料室,”他说,指的是地下图书馆,“这些架子、桌子和档案柜保存着我们这间动画工作室的所有历史。”

在电视连续剧《迪士尼乐园》1957 年的一集中,Walt Disney 带领观众深度参观了他的伯班克动画工作室。“在我们的资料室,”他说,指的是地下图书馆,“这些架子、桌子和档案柜保存着我们这间动画工作室的所有历史。”

Disney 坚持其档案对编剧和插画家开放,以便他们进行参考或从中汲取灵感,他们贯彻这一做法的时间远早于其他动画工作室。小飞象和小飞侠等最受欢迎的作品的图纸、概念图等都被小心翼翼地藏在这个地下室。而在此后的岁月里,Disney 一直致力于保存这些资料。

Disney 已经拥有近一个世纪的内容,其中的数字化内容越来越多,因此必须比以往任何时候都更仔细地整理其图书馆。负责保持(虚拟)堆栈的秩序和整洁的是 Disney 直接面向消费者和国际 (DTCI) 技术团队中一个由研发工程师和信息科学家组成的小团队。DTCI 成立于 2018 年,组建该团队的部分原因是为了汇聚整个 Walt Disney 公司的技术专家和专业知识,并调整技术以支持 Disney 的大量独特内容和业务需求。

组织系统的基础是元数据:关于 Disney 节目和电影中的故事、场景和角色的信息。例如,《小鹿斑比》会有一些元数据标签,不仅可以识别小兔子 Thumper 或 Faline(斑比的小鹿朋友)等角色,还可以识别动物的类型、动物之间的关系以及每个动物所描绘的人物原型。自然风光(具体到所描绘花朵的类型)、音乐、情感和故事的基调等内容也具有特定的标签。因此,用正确的元数据对所有这些内容进行适当的标记,使其能够正确地进行分类是一项充满挑战的工作,考虑到 Disney 的飞速发展,这项工作更是困难重重。

“我们的电视节目中会出现新的角色、足球运动员要更换球队、超级英雄的新武器、新节目,”该团队的技术负责人 Miquel Farré 说,所有这些都需要一大堆新鲜的元数据。

在 AWS 服务的帮助下,他和他的团队正在构建机器学习和深度学习工具,通过描述性元数据来自动标记这些内容,以提高存档流程的效率。因此,编剧和动画师可以快速搜索并熟悉从《米老鼠》到《摩登家庭》中的 Phil Dunphy 的每个角色。

元数据有什么神奇之处?

图片由迪士尼提供

负责这项工作的团队最初成立于 2012 年,隶属于 Disney & ABC Television Group。经过多年的发展,它已成为 Disney’s DTCI Technology Group 的一部分,同时也是 Disney 宇宙风格和惯例的索引和知识库(例如,在《小鹿斑比》中,动物会说话,而在《白雪公主》中则不会)。为了让他们的机器学习工具能够生成准确描述创意内容的元数据,该团队依靠编剧和动画师来解释每个节目独一无二的风格特征。

这些创意团队成员从彼此的合作中获益。一旦内容被贴上准确的元数据标签,他们就可以通过搜索界面快速找到自己需要的内容。以《实习医生格蕾》的编剧为例,为了避免冗余,可能需要知道一集中出现了多少次惠普尔手术。同时,为一部发生在海底的新动画片绘制水下生物的艺术家可能会想在《小美人鱼》、《海底总动员》中查找特定人物的姿势或定位来寻找灵感。

但是,给所有的东西都加上正确的元数据标签很快就会带来一个人力问题:即使人工标记是这个过程中的重要部分,但 DTCI 技术团队并没有时间对每一帧画面进行人工分类。这就是 Farré 的团队通过机器学习(以及最近的深度学习)来生成元数据的原因。我们的目标是建立深度学习算法,能够以与 Disney 知识库其他部分一致的方式自动标记场景的组成部分。算法标签的审批仍然需要人工操作,但这个项目正在以富有意义的方式减少整理 Disney 知识库所需的工作,从而提高库内搜索的准确性。

更重要的是,这一进展为工程师们腾出了更多时间,让他们可以专注于使用 AWS (Amazon Web Services) 开发深度学习模型。因此,他们从未停止为在不同种类的 Disney 内容中自动创建元数据所做的努力。

A composition featuring various Disney animated characters from different shows with green face detection boxes drawn around their faces. The central image includes characters from 'Star Wars Rebels,' while the side images show characters from other Disney animated series such as LEGO and animal-based adventures.

深度学习为动画赋予身份

图片由迪士尼提供

最成功的深度学习/元数据项目之一是解决动画识别所带来的问题。

在真人电影或电视节目中,对于机器来说,将一个角色从她的周围环境中分离出来是相对简单的。但动画让事情变得更加复杂。举个例子,拍摄一个动画场景,在这个场景中,一个角色既是真人,又出现在海报中(比如说这个角色是个罪犯,全城都贴了他的通缉令)。“对于一个算法来说,这是极其复杂的”,Farré 说。

去年,Farré 的团队开发了一种深度学习方法,可以将动画角色与静态角色区分开来,在一群面貌相似的角色中识别出他们(比如在《唐老鸭俱乐部》中,很多角色都是差不多的),并在灯光昏暗的场景中识别出他们(在《爱丽丝梦游仙境》中,当爱丽丝第一次见到柴郡猫时,后者只显露出露齿的笑容)。在确定什么是什么之后,算法就可以用相应的元数据来标记场景。

但该模型真正的厉害之处在于,它可以应用于任何一段动画内容。也就是说,团队不需要为每一个高飞、大力士和艾尔莎创建新的模型,只需要在他们的通用模型的基础上稍作调整,就可以适用于任何节目或电影中的任何角色。

在今年之前,该团队使用的是更为传统的机器学习算法,与深度学习方法相比,这种算法需要的数据更少,但生成的结果也更有限、不够灵活。在数据输入较少的情况下,传统算法表现良好。但当您的数据成倍增加时,就是深度学习大显身手的时候了。

Farré 说,现在,深度学习模型可以从经过训练的网络中获益,并针对具体使用案例进行微调。在具体的动画角色案例中,Disney 使用数千张图片微调了一个神经网络,以确保它能理解“动画角色”的概念。 然后,对于每个具体的节目,神经网络只需要使用几集中的几百张图像进行重新调整,让它学习如何在具体的节目中检测和解释“动画角色”。

在 Disney 从传统的机器学习向深度学习转型的过程中,AWS 一直是重要的合作伙伴,尤其是在实验方面。弹性云计算 EC2 实例使团队能够快速测试模型的新版本。(对于动画识别项目,Disney 使用的是 PyTorch 框架与经过预先训练的模型。) 由于关于深度学习的研究非常多,因此团队在不断尝试新颖的方法。

元数据的研究非常成功,以至于 Disney 各个部门都闻风而动。Farré 表示,他的团队最近与 ESPN 的个性化团队合作,为业界领先的数字应用和网站提供所有文章和视频的详细元数据。如果产品知道您是洛杉矶道奇队、Steph Curry、明尼苏达维京人队和曼联队的球迷,它掌握的关于每篇文章的元数据就越多,进而可确保您获得最符合喜好的内容。此外,机器学习算法以及它们提供的元数据可以为更先进的人工智能 (AI) 提供支持,并随着时间的推移,推动进一步的隐式个性化(基于数据关系和行为)。

正如 Farré 的看法,元数据的应用层出不穷,尤其是考虑到 Disney 庞大且不断增长的独特内容、角色和产品库。“我不认为我们会感到厌烦”,他说。

Screenshot of the MAP3 annotation tool displaying a scene from the Disney series MECH-X4 (Season 1, Episode 6: 'Let's Get Our Robot Back!'). The interface shows a video timeline, character labeling, and worker assignments for annotating characters Ryan Walker, Harris Harris Jr., and Spyder (MECH-X4) in the episode.

相关案例

Coinbase 使用 ML 创建安全的加密货币交易

Missing alt text value 了解更多 »

Capital One 利用机器学习更好地保护客户免遭欺诈

The Oracle logo in blue with a red swoosh above, set on a transparent background. 了解更多 »

Zendesk 帮助诸多公司使用机器学习,为终端客户提供更快速的服务

Missing alt text value 了解更多 »

T-Mobile 使用机器学习实现人性化客户服务

Missing alt text value 了解更多 »