新西蘭
繁體中文(台灣)
分享

豆瓣电影评分,公不公平?

生活作者: DT财经
豆瓣电影评分,公不公平?
摘要随着粉丝战斗力越来越卓越,每有热门电影和剧集上映,豆瓣总是很容易躺枪。

最大争议在于,大家怀疑由于评分机制不合理、受到水军影响等原因,豆瓣评分很容易高估或者低估了一部电影,不能真正反映群众的观影评价。

DT君找来了美国的主流电影评价网站IMDb与豆瓣进行对比,它们同采用十分制,也都来源于大众打分,存在较强的可比性。

同一部电影在两家网站上的表现差异有多大呢?2014年至2019年在中国大陆上映的电影,有1128部在两个网站上都获评了有效分数,我们对它们进行了比对。

hougarden

以豆瓣评分为横坐标,IMDb评分为纵坐标制图,每个圆点都代表一部电影,大致看去,豆瓣评分越高的电影,IMDb评分也越高。

我们进一步利用最小二乘法对两组数据进行了相关性检验,相关系数为0.65,说明同一部电影的豆瓣评分和IMDb评分存在65%左右的高度相关。

我们查看了那些偏离回归线较远的电影点,发现在豆瓣和IMDb上表现差别最大的电影可以分为以下两大类:

而大多数电影,在两家网站上的表现比较一致。在DT君选取的样本中,IMDb有44部电影评分在8分以上,这其中近7成在豆瓣也获得了8分好评。

放眼全宇宙,好的电影一般都会拿个好分数,各地群众眼睛是一样雪亮的。

接下来的问题是,粉丝们如此在意豆瓣评分,难道TA真的跟电影总票房挂钩吗?

考虑到影响电影票房的因素很多,除了影片的口碑和质量,还有知名度和关注量等。因此,DT君在计算时,除了把电影豆瓣评分作为影片口碑的指代指标,并且加入了为该部电影评分的人数作为影响力的指代指标。

同时拥有票房和得分的有效数据共有1533组,为了所有变量在同一个数量级,我们在计算时电影票房以万元为单位,将其和豆瓣打分人数取自然对数。

假定关系是:In(票房)= 系数1*豆瓣评分 + 系数2*In(打分人数)+ 常数C

当我们用多元线性回归模型对这些数据进行拟合之后,有了“惊人”的发现:精确度R2说明豆瓣评分和打分人数可以在72.4%的程度上解释电影的最终票房,并且三组参数都通过了假设检验,较为可信。但是,为什么豆瓣评分前面的系数为- 0.24呢?票房和评分负相关,难道代表着电影评分越高,票房反而越低吗?

hougarden

这显然崩塌了我们的常识。于是DT君(ID:DTcaijing)分别对两个因素做回归分析,又有了新发现。

在单独分析时,豆瓣电影评分对于电影总票房有较为明显的正相关关系,并且还有22.6%的精确度。而如果引入了热度数据,原本应该是正相关关系的豆瓣电影评分与电影总票房,却变为了负相关(尽管负得不明显)。

也就是说,热度对于票房的影响,显著大于豆瓣评分的作用。当然,一个电影的最终票房还会与包括宣发、排片、票补等多种因素有关,这些因素都会对结果产生干扰。但得承认一点,豆瓣评分高低和最终票房的关系,真的没有人气等其他因素作用那么大。

DT君简单统计了一下这1500多部自2014年内地上映的院线电影们,豆瓣平均得分是5.26分,明显是个不及格的分数。其中,低于合格分6分的电影达6成,贡献了超过3成的票房。

虽说评分绝对值对于电影总票房的影响有限,但是上映期间,豆瓣评分的变动是不是会对票房产生影响呢?

为了避免节假日因素的影响,DT君收集了2018-2019年春节档和国庆档的电影豆瓣评分、票房每日变化——样本太少,不太适合进行统计分析,但DT君大致总结出了一些趋势。

随着上映,大多数电影的豆瓣评分会呈现一定下滑。这也可以理解,随着参与评价的人数变多,由粉圈走向大众,口碑会出现分化。而电影每日斩获的票房一般也会有一定程度的下降。

hougarden

有一些没随大流走向的电影,最后在媒体报道中往往都伴随着“黑马”这样的关键词。

《无双》、《红海行动》和《流浪地球》是极少数上映几天后日票房能大幅提升的电影。如果仔细比较他们的豆瓣评分,《无双》与《红海行动》的豆瓣评分确实略有上升,而《流浪地球》的豆瓣得分一路下滑,在一众电影中属于下滑幅度较大的——但TA也是这三部逆袭电影中,日票房上涨幅度最大的。

这么一番比较,粉丝对于豆瓣评分影响《流浪地球》票房的指摘,多少显得有些过度反应了——至少从节日档期来看,豆瓣得分的下滑,并没有发挥出多大威力。

手痒的DT君明知不太适合,还是在此处还尝试着做了个局限性很大、仅提供非常有限参考的分析,就着这20余部电影的数据,将豆瓣日评分作为唯一自变量,将日电影票房取对数作为因变量,在回归模型中加入时间固定效应进行分析。结果显示,豆瓣日评分的变动和票房的关系不是很大,日评分变动1分,日票房会同向变化0.759%。如果说日票房是一个亿,那么豆瓣评分掉了1分,对票房的影响也就是75.9万元(再次强调,仅提供非常有限参考)。

虽然豆瓣评分的作用没有我们想象的那么大,但是众多日常参照豆瓣的电影爱好者,还是比较关心豆瓣评分到底可以如何参考。

现在最大的干扰项恐怕在于水军和黑子的涌入影响了大家对于评分的正常判断,那五星党/差评党会对电影评分造成多大程度的干扰呢?

DT君在这里仿照了知乎网友“数据冰山”之前的研究方法(特此鸣谢),使用标准差作为衡量一部电影评分争议性的标准:

hougarden

对豆瓣星级按照1星对应2分,2星对应4分,5星对应10分的方式进行赋值;

Avg为该电影豆瓣得分,P2、P4…P10为评分中1-5颗星所占的比例。

根据每部电影的豆瓣评分与评分标准差,我们对1714部电影进行了聚类,表现相似的电影在下图中属于同一颜色。

hougarden

可以发现,低分电影和高分电影口碑分化都挺小,这意味着,对于绝对的好片与绝对的烂片,大家都没有太大争议。而中间段位的电影则是幺蛾子爆发区域,不管是由于水军/黑子/粉丝的影响,还是观众本身对这部电影就有较大的审美偏差,总之,这个分段的电影往往争议性较大,评分的普适参考性就小了些。

也有一些办法来排除掉那些标准差/争议性明显过大的电影。DT君参照“数据冰山”的方法,取各个分段聚类中心点作为该分段的标准分型。

hougarden

票型就是豆瓣右侧显示的,各星段打分人数占比的条形形状。一般低分电影都趋近L或b型,分数越高,5星4星打分人数越多,这个形状越趋近于F型。正常说来,电影都应该属于以上5种评分类型。如果出现C或者其他票型的电影,就需要考量下是否靠谱了。

比如这部《幸福中转栈》,2658个人打分,但是只有43条短评和2条长评,且绝大多数为1星或2星,高达25.9%的5分率,参考意义怎么看都不是特别大。

hougarden

而引发争议的《流浪地球》,评分票型是P型, 1分的人数占到所有人数的2.1%,标准差为1.9,相对适中。水军对《流浪地球》评分的影响,可能还没有“球粉”们给豆瓣打一分的影响大。

hougarden

但是,豆瓣评分机制就没有缺陷了呢?显然不是。

DT君整理了豆瓣、IMDb、烂番茄和Metacritic的评分机制。其中豆瓣和IMDb机制类似,为人熟知。Metacritic作为专业打分网站,会收集专业影评人分数、由影评内容换算评分,也因此在四个网站中最为严格。烂番茄的最终结果则比较特别,“新鲜度”并不是评分,而是按评分3.5分为界计算出的“推荐”和“不推荐”的比例,并不能真实说明影片质量。

hougarden

对比了一圈,DT君发现,豆瓣评分最大的缺陷在于评分颗粒度。其评分区分度只有5档,是以上所有评分网站里区分度最差的。要知道,4星和5星换算成对应的豆瓣8分或者10分,差异相当巨大。同样5星制,烂番茄就有0.5星的设置,相对可以更好反映观影者的评价。

而网友们呼吁的提高影票审核机制则有欠考虑,毕竟,电影的观众远不只院线电影上映期间买票入场的那一群。而且不仅仅是豆瓣,包括Metacritic在内的四个网站全部采纳了大众用户的评分,且不需要晒出票根。只不过豆瓣和IMDb都是普通用户打分,烂番茄和Metacritic则将专业影评人的分数和大众打分区别开,成为两个独立的结果。

说了这么多,豆瓣评分这回事,你还较啥真呢?

分数再高也不代表好票房,反而,能出圈的国民人气值,比豆瓣评分重要多了。


转载声明转载声明:本文系后花园转载发布,仅代表原作者或原平台态度,不代表我方观点。后花园仅提供信息发布平台,文章或有适当删改。对转载有异议和删稿要求的原著方,可联络[email protected]