豆瓣电影评分,公不公平?
最大争议在于,大家怀疑由于评分机制不合理、受到水军影响等原因,豆瓣评分很容易高估或者低估了一部电影,不能真正反映群众的观影评价。
DT君找来了美国的主流电影评价网站IMDb与豆瓣进行对比,它们同采用十分制,也都来源于大众打分,存在较强的可比性。
同一部电影在两家网站上的表现差异有多大呢?2014年至2019年在中国大陆上映的电影,有1128部在两个网站上都获评了有效分数,我们对它们进行了比对。
以豆瓣评分为横坐标,IMDb评分为纵坐标制图,每个圆点都代表一部电影,大致看去,豆瓣评分越高的电影,IMDb评分也越高。
我们进一步利用最小二乘法对两组数据进行了相关性检验,相关系数为0.65,说明同一部电影的豆瓣评分和IMDb评分存在65%左右的高度相关。
我们查看了那些偏离回归线较远的电影点,发现在豆瓣和IMDb上表现差别最大的电影可以分为以下两大类:
而大多数电影,在两家网站上的表现比较一致。在DT君选取的样本中,IMDb有44部电影评分在8分以上,这其中近7成在豆瓣也获得了8分好评。
放眼全宇宙,好的电影一般都会拿个好分数,各地群众眼睛是一样雪亮的。
接下来的问题是,粉丝们如此在意豆瓣评分,难道TA真的跟电影总票房挂钩吗?
考虑到影响电影票房的因素很多,除了影片的口碑和质量,还有知名度和关注量等。因此,DT君在计算时,除了把电影豆瓣评分作为影片口碑的指代指标,并且加入了为该部电影评分的人数作为影响力的指代指标。
同时拥有票房和得分的有效数据共有1533组,为了所有变量在同一个数量级,我们在计算时电影票房以万元为单位,将其和豆瓣打分人数取自然对数。
假定关系是:In(票房)= 系数1*豆瓣评分 + 系数2*In(打分人数)+ 常数C
这显然崩塌了我们的常识。于是DT君(ID:DTcaijing)分别对两个因素做回归分析,又有了新发现。
在单独分析时,豆瓣电影评分对于电影总票房有较为明显的正相关关系,并且还有22.6%的精确度。而如果引入了热度数据,原本应该是正相关关系的豆瓣电影评分与电影总票房,却变为了负相关(尽管负得不明显)。
DT君简单统计了一下这1500多部自2014年内地上映的院线电影们,豆瓣平均得分是5.26分,明显是个不及格的分数。其中,低于合格分6分的电影达6成,贡献了超过3成的票房。
虽说评分绝对值对于电影总票房的影响有限,但是上映期间,豆瓣评分的变动是不是会对票房产生影响呢?
为了避免节假日因素的影响,DT君收集了2018-2019年春节档和国庆档的电影豆瓣评分、票房每日变化——样本太少,不太适合进行统计分析,但DT君大致总结出了一些趋势。
随着上映,大多数电影的豆瓣评分会呈现一定下滑。这也可以理解,随着参与评价的人数变多,由粉圈走向大众,口碑会出现分化。而电影每日斩获的票房一般也会有一定程度的下降。
有一些没随大流走向的电影,最后在媒体报道中往往都伴随着“黑马”这样的关键词。
这么一番比较,粉丝对于豆瓣评分影响《流浪地球》票房的指摘,多少显得有些过度反应了——至少从节日档期来看,豆瓣得分的下滑,并没有发挥出多大威力。
虽然豆瓣评分的作用没有我们想象的那么大,但是众多日常参照豆瓣的电影爱好者,还是比较关心豆瓣评分到底可以如何参考。
现在最大的干扰项恐怕在于水军和黑子的涌入影响了大家对于评分的正常判断,那五星党/差评党会对电影评分造成多大程度的干扰呢?
DT君在这里仿照了知乎网友“数据冰山”之前的研究方法(特此鸣谢),使用标准差作为衡量一部电影评分争议性的标准:
对豆瓣星级按照1星对应2分,2星对应4分,5星对应10分的方式进行赋值;
Avg为该电影豆瓣得分,P2、P4…P10为评分中1-5颗星所占的比例。
根据每部电影的豆瓣评分与评分标准差,我们对1714部电影进行了聚类,表现相似的电影在下图中属于同一颜色。
也有一些办法来排除掉那些标准差/争议性明显过大的电影。DT君参照“数据冰山”的方法,取各个分段聚类中心点作为该分段的标准分型。
比如这部《幸福中转栈》,2658个人打分,但是只有43条短评和2条长评,且绝大多数为1星或2星,高达25.9%的5分率,参考意义怎么看都不是特别大。
而引发争议的《流浪地球》,评分票型是P型, 1分的人数占到所有人数的2.1%,标准差为1.9,相对适中。水军对《流浪地球》评分的影响,可能还没有“球粉”们给豆瓣打一分的影响大。
分数再高也不代表好票房,反而,能出圈的国民人气值,比豆瓣评分重要多了。