Facebook 家用摄像头“Portal”:向好莱坞学习
编者按:Facebook的Portal系列从好莱坞最好的摄影师那里学了很多拍摄技巧,虽然Portal最终可能没那么火,但其背后的AI技术和与艺术结合的方式,必将引领一股潮流。本文译自Fastcompany原标题为" Facebook’s Portal learned its video skills from some of Hollywood’s best cameramen"的文章,希望对您有所启发。
Facebook的Portal系列家用摄像头虽然隐私问题饱受诟病,但不可否认,它有一个功能确实炫酷:它能够实现画面的智能拍摄,并在视频通话时跟踪房间内的动作。与智能手机视频通话相比,这是一个巨大的进步。在智能手机视频通话中,摄像头的位置完全由两端的人来决定,所以画面经常会不停地抖动、有时不得不看着对方的鼻孔或者大脑门儿,有时画面里还会突然就找不到人了。而Portal更像是一个独立的人像摄影师,精心地构图,流畅的切换场景,可以对镜头前的人们进行追踪,使画面看起来相当自然。
Portal运用了很多先进的计算机视觉AI技术来才创造出这种体验,其中很多都是在最近几年开发出来的。很多以往的经验和专业知识都被用于训练运行Portal摄像头的人工智能,其神经网络层中嵌入了大量的电影行业知识。例如,它知道什么是“牛仔镜头”(从大腿中部向上的镜头,不仅能看到拍摄对象的脸,还能看到他在枪套里装的东西),它知道何时以及如何关注镜头前的人们,并且忽略他们周围的环境。我与Facebook的三位工程师进行了交谈,这三个人都密切参与了Portal的开发,这是Facebook作为一个社交网络公司首次涉足硬件领域。
Portal的关键创新是一种轻量级的计算机视觉模型,它不仅能识别人脸,还能识别人体行为。
在消费者技术中,头部和面部检测司空见惯。例如,消费级相机使用计算机视觉来检测人脸或头部以实现自动对焦,但是这些简单的系统并不能收集到很多关于人的身体姿势的信息。
Portal系列的工程师埃里克·黄(Eric Hwang)说:“如果我们只知道你在哪里,而不知道你的身体方向,比方说,如果你躺在沙发上,我们几乎不可能找到一个好的镜头或者特写位置。”工程师们需要一种计算机视觉模型,能够可靠地识别人的头部、身体和四肢,能够将在厨房做饭的人和另一群围坐在桌前的人加以区分,以不同的方式构图并进行跟踪拍摄。
Facebook的人工智能研究团队已经在2017年4月开发出了一种名为Mask R-CNN(简称“区域卷积神经网络”)的计算机视觉模型,可以识别人体运动的二维图像。但该模型是为在桌面视觉处理器(GPU)上运行而设计的,而Facebook希望能在设备内的一个较小的移动芯片上运行Portal的计算机视觉模型。有想法认为,这种方式必须不断地调用运行该模型的云服务器,肯定会造成视频通话中的延时状况。
在Portal系列两年关键的开发周期中,大幅度缩小R-CNN模型成为工程师们必须克服的最大挑战。来自Facebook的人工智能团队也参与进来,最终找到了一个解决方案。整个过程经过了不断地精简、优化和权衡。最终的成果是一个叫做Mask R-CNN2Go的新模型。它只有几兆字节大小,小到足以在高通的骁龙神经处理引擎上运行。Facebook的工程师说,为了优化R-CNN2Go的处理器,他们将与高通进行密切的合作。 在实践中,Portal的微型计算机视觉模型不断地分析摄像机每秒拍摄的30帧中的镜头,以寻找任何可能成为视频拍摄对象的内容。它输出头部、身体和四肢的点数据,然后报告视频镜头的构图。这个模型最主要的工作之一是知道什么时候该忽略无关紧要的对象,例如挂在墙上的相框里的一张人脸。它必须知道如何忽略一个突然离开房间的人,或者把注意力集中在前方说话的人身上,而忽略那个从后面路过的人。 所有这些细节都会让你的照片看起来更加自然直观。“所以当你在视频电话中四处走动时,对方会觉得你就在他们身边,”工程师埃里克·黄(Eric Hwang)说。 Portal摄像头背后的计算机视觉模型经过了数百万个开放源代码图像的训练,以教会它识别各种人和姿势。Facebook还提供了一些自己的培训数据,因为开放源代码材料中没有足够的家庭(视频通话经常发生的地方)场景图像。 但即使是Facebook工程师教会Portal根据2D姿势数据进行缩放、平移和跟踪相关主题,它仍然不太正确。在谈到早期原型时,他们表示,这款相机可以以一种合乎逻辑的方式拍摄周围的人,但它的动作仍然感觉“又僵硬又机械”。工程师们知道他们必须在科学中加入一些艺术,于是打电话给好莱坞。 Facebook的工程师请来了摄像师、电影摄影师和纪录片制片人,学习专业人士在拍摄和跟踪动作时使用的可靠技术。除了这些咨询,Facebook的工程师们还做了一系列实验,来了解摄像头操作者将如何应对Portal在家庭环境中实时拍摄时面临的一些特殊挑战。他们要求操作者从奇怪或尴尬的位置随机拍摄一些场景,看看他们是如何处理的——他们关注的是什么,以及他们是如何移动相机的。Facebook的工作人员随后将他们看到的摄像方法归结为一系列可以引入Portal算法的技术。 “人们倾向于在传统的一对一的头部和躯干拍摄的基础上构建大量的框架。” Facebook硬件副总裁拉法·卡马戈(Rafa Camargo)说,“我认为团队能够让相机以复杂的方式运行,这需要大量的技术,以及理解人类跟踪拍摄时的行为方式,并在同一时间进行平移和缩放……”卡马戈是谷歌ATAP集团的工程主管,2016年8月,他被招募接管 Facebook 的Portal团队。 这些技术可能是合理的,也是更复杂的,但它们之所以赏心悦目,部分原因可能是它们产生了一种似曾相识的效果。“这感觉很自然,因为你习惯在电视或电影中看到的框架实际上就是这样做的,随着时间的推移,我们已经知道,这对人类大脑的影响很大,”卡马戈告诉我。 Facebook提供了一个基本的款的Portal(199美元),只能在横向模式下拍摄,而更昂贵的Portal Plus(349美元)可以在横向和纵向模式下拍摄。Portal Plus的竖屏模式旨在用于更紧密的一对一视频对话。工程师们意识到,这是一种与景观截然不同的体验,需要一套不同的摄像技术。照相馆的工作人员通常采用室内模式拍摄,电影摄影师通常采用景观模式,但Facebook要求他们拍摄各种人像模式的场景,看看他们做出了什么样的选择。例如,他们发现在人像模式下,操作者的构图是基于镜头前的人,而不是背景。这些经验教训也被整合到Portal Plus的纵向模式操作算法中。 他们告诉我,工程师们仍然需要对如何拍摄某些场景做出一些判断。比如一家人正在和奶奶打视频电话,一个孩子从妈妈的腿上跳起来,迅速跑到房间的一个小角落。此时摄像头应该跟随孩子还是加宽镜头以保持孩子在画面中? “在决定智能相机应该做什么时,实际上有相当多的主观性。” 黄哲伦告诉我,“有些人会说,如果孩子动作太快,也许你不想让他出现在镜头里,但我们的研究表明,人们(尤其是奶奶们)用视频聊天大多都只为了见见镜头另一边的人,尤其是孩子。”所以Portal 团队为用户留下了手动控制权,他们既可以用自动模式,跟拍所有进入镜头的人,也可以选择专注在特定人身上,忽略其他人。 谷歌、Facebook和亚马逊等大型科技公司都知道,摄像头将在未来的计算领域发挥巨大的作用,每家公司都在该领域大力投资布局。继个人电脑(PC)和智能手机增强现实(AR)或者是相机视图中数字内容与现实世界内容的混合之后,这款相机将成为下一个伟大的计算机界面的核心。目前,这种相机镜头主要用在手机上,但当AR开始向其他设备(如眼镜或者像Portal这样的家用摄像机)转移时,它将变得有趣得多。Facebook已经将自己的Spark AR平台使用到Portal的故事时间,为互动阅读功能添加了AR效果。 AR最酷的应用程序可能还没有被想到,但高效、准确的面部和身体跟踪可能是其中的重要组成部分。Facebook目前正在手机上测试Mask R-CNN2Go模型,这可能会为一些有趣的体验铺平道路。用户可以将自己身体的移动图像投射到增强现实空间中,甚至可以将其装扮成数字配件,或者用一个数字面具遮住脸,人工智能可以让用户通过身体动作来控制手机游戏。 在短期内,Facebook的智能相机技术将开始在其他领域出现。目前它只在Facebook Messenger(桌面窗口客户端)上运行,但工程师们已经在开发WhatsApp上运行的版本。Portal硬件可能最终不会大受欢迎,但其内部的人工智能可能有很大的应用前景。