票房预测背后的黑盒子:算法通过《战狼2》预测《哪吒》必火无疑
以预测《哪吒》票房为例,猫眼在前期参考其类型、评分因素,以《大圣归来》为参考影片,后期《哪吒》的票房走势出来后,猫眼发现他与《战狼2》的走势相像,参考《战狼2》的走势调整接下来的票房预测。
《哪吒》上映已经一个多月,这样一部国产动画电影的火爆程度超出了很多人的预料。
8月7日,猫眼预测,《哪吒》总票房会达到46.8亿,超过《流浪地球》。二十多天后的8月31日,猫眼数据显示,《哪吒》票房正式超过《流浪地球》,成为中国影史票房排名第二的电影。
在《哪吒》刷屏的背后,很多人也会产生疑问:票房预测的基本原理是什么?对此,腾讯科技联合知乎平台,并采访猫眼数据专家,揭秘票房预测背后的黑盒子。
据知乎答主“DataHunter”介绍,目针对电影票房的预测主要有以下三种思路:
第一种思路可以形象的理解为“照猫画虎”,其原理在于:目前市场上已经上映了大量的影片,并积累了海量的票房变动数据,深度神经网络模型可以依据某一部影片的大量用户行为数据,在定档影片上映前一个月就可以给出该片的首日票房预测。
同时,系统自动筛选出与之最相似的电影,描绘出待映电影的未来票房走势图,进而预测出这部影片在上映期间的每日票房以及最终的总票房。
谷歌所采用的预测模型只选取了三种维度:电影预告片的搜索量、同系列电影前几部的票房表现、档期的季节性特征,最终获得94%的预测准确率。
谷歌建立的票房预测线性回归模型
这种方式的优点在于简单直接,更接近传统大数据分析“只反映趋势,不深究因果”的理念,上映时间越长,其预测的数据就越为精准,往往适用于掌握了大量票房数据的企业。但缺点在于,其无法将电影上映过程中众多的复杂因素考虑进来,所以经常会出现预测波动大、与实际偏离值较高等缺陷。
第二种思路则较为复杂,而且会将更多的因子纳入到考量因素中来。其先根据历史票房变化预测出某一个档期的总票房,然后根据社交媒体讨论数量、不同导演与演员的历史电影质量、点映用户的评价、票房情况、SEO情况等预测出各电影票房占比,之后综合预测出各电影的实际票房。
这种方式优点在于更多的将“电影评价”这一个重要因子纳入到考量范围内,通过电影导演表现、上映前反馈等等因素来判断出电影的流行趋势,因此预测精准性方面有更好的效果。
第三种思路则综合了大数据分析与人工决策,即先使用大数据分析来对于影片的票房进行一个事先的预测,并输出可视化的数据图表。
与此同时,专家会对具体的电影进行分析,找出其潜在的爆点或是隐患,并评估其可能带来的影响,并以加权的方式纳入到模型之中进行修正。这种方式在预测爆品方面有更好的表现。
在和猫眼的对话中,腾讯科技了解到,猫眼有一套比较完整的票房预测工具,包括实时票房(含未来预售票房)、天级票房预测(未来3天每日大盘票房预测)和总票房预测(单片总票房)等算法。
由于猫眼的大数据优势(积累了多年的实时票房详细数据、电影天级票房和总票房样本、以及猫眼平台的交易数据),这些算法可以达到非常好的预测效果,如实时票房准确度度可以达到99%以上,次日天级票房预测准确度可以达到90%左右。
此外,除了算法工具,猫眼也有票房预测的专家,会根据经验提供一些建议,对算法产出的数据会做一定的审核和校对,但总体上以算法产出为主,人的干预比例很小。
这套算法的基本逻辑就是:根据相似电影的票房规律预测新电影的票房,相似电影的选取会有若干条件(如类型、评分、所处档期、票房体量、近期走势等),然后基于这些相似电影,构建预测天级票房或总票房的机器学习模型。
以预测《哪吒》票房为例,猫眼在前期参考其类型、评分因素,以《大圣归来》为参考影片,后期《哪吒》的票房走势出来后,猫眼发现他与《战狼2》的走势相像,参考《战狼2》的走势调整接下来的票房预测。在《哪吒》上映期间,根据多部上映影片的表现情况实时调整其预测票房。
在国外,谷歌也有一套自己的算法预测模型。谷歌的算法模型主要利用搜索、广告点击数据以及院线排片来预测票房。2013年,谷歌就宣布其模型预测票房与真实票房的吻合程度达到了94%。
与此同时,谷歌通过分析自身的数据还发现,在上映前四周时,大部分电影的预告片都是这个时间发布并开始密集的投放广告,因此,这个阶段的用户搜索信息与票房的相关性会更加紧密。
DataHunter也提到了算法大数据预测票房的难点所在:很多大数据分析工具并不考虑因果性,只考虑相关性,经常会带来“虚假相关”的问题,也就是无法对于数据变化的真正原因进行归因。在大多数场景下,这样的预测并没有什么问题,但是在特定的场景下,偏离预测的情况仍有可能会发生。
此外不成熟的市场环境,以及潜在的风险因素,也会对票房预测产生关键影响。比如影片档期选择、宣发策略的一招失误,就可能导致整个影片的票房成几倍的误差。而某个关键演员的负面新闻也同样会带来不可预期的影响,例如某位主演丑闻,导致《情圣2》撤档。
因此,这又引出了下一个问题:如何提高算法预测的准确性?
DataHunter认为,大数据分析与人工决策相结合的方式,其核心原理就是利用人工思维的主观能动性与创造性,发掘电影票房中潜在、但关键的影响因子,最终来得出结论。
对此,猫眼提出的解决方案是:目前算法都是实时训练和预测的,就是针对一个新的待预测电影,实时选取相似电影,并训练模型以及预测,模型的超参数是提前训练好的,短期不会变化,算法的精度随着样本的积累或越来越好。当新样本积累到一定程度,猫眼会对模型重新优化(模型的选择,超参数的优化)。
参考资料:
知乎答主DataHunter
https://www.zhihu.com/question/26742562/answer/602573406
知乎专栏作者Fan ink
https://zhuanlan.zhihu.com/p/20750165