面对“刷差评”,Steam 自身是如何回应的?

作者 Esther   编辑 Lost   2017-09-25 12:14:13

改变查阅评测的方式,比改变评测本身更为有效。

  Steam 平台的“刷差评”现象已经日渐频繁。

  6月15日,《GTA5》母公司 Rockstar 禁止民间 MOD 工具被玩家刷差评;

  8月28日,Valve 在《Dota2》国际邀请赛上发表了卡牌新作而非《半条命3》引得粉丝刷差评;

  9月11日,《防火员》开发商因 PewDiePie 在直播中发表不当言论而禁止他发布前者的相关视频,因此被 PewDiePie 粉丝刷差评……  

  而 Steam 自身似乎也意识到了情况的严重。因此在9月20日,Steam 对评测系统再次做出了改动

  这是​一次令人惊喜的改动,甚至可以说是这一年半来评测系统唯一一次让几乎所有人都能信服的改革。  

“刷差评”的官方回应

  评测恶意轰炸是指玩家在非常短的时间内发布大量评测,目的是降低某个游戏的测评分数。与此同时,他们给彼此的评测点赞推荐,而对其他玩家的评测踩低……一方面,进行轰炸的玩家达成了用户评测的目的:他们发表了自己的意见,告诉大家为什么不应该购买这个游戏。但我们也注意到玩家关注的问题常常与游戏无关。

  以近期刚刚撞枪口的《防火员》为例,事情经过大致是知名主播 PewDiePie 在直播时说了“Nigger”(效果大概跟国内玩家联机时对方说了“支那垃圾”差不多)而在网络上引起轩然大波。《防火员》开发团队为此愤愤不平,他们以版权之名(DMCA)要求 PewDiePie 下架后者所有《防火员》相关视频,此举引发 PewDiePie 一众粉丝前来给《防火员》刷差评。除了近期评价成为“褒贬不一”外,《防火员》的总体评价已经被拉到只有83%好评率(这次事件前,《防火员》总体好评率为90%)。

  还记得我们曾经说过“Steam 曾经的评测体系无法防御任何外部冲击”吗?"刷差评"的行为在官方来说其实是难以直接制约的,因为玩家买了游戏当然有权利评价,而当时的 Steam 也一直没有针对“刷差评”的问题发表自己的观点,我们甚至不知道 Steam 官方是否愿意削弱此类评价的权重;而对普通玩家来说,面对对“刷差评”的行为我们也只能在道德层面进行谴责,并没有什么有效抑制“刷差评”的手段。  

  就这样过去了大半年,我们终于迎来了官方的回应:

  我们可以改变评测分数的计算方法,将重点放在最近的数据上。评测恶意轰炸能在相当长的一段时间内歪曲某个游戏的评测分数的一个原因是,最近评测是基于 30 天内的评测,总体评测是基于所有时间的评测。但改变计算方法有可能会导致所有游戏——而不仅仅是评测恶意轰炸所针对的游戏——分数出现更大波动,准确性降低。

  最终,我们决定不改变玩家评测游戏的方式,而着重于改变潜在购买者查阅评测数据的方式。从今天开始,每个游戏页面都会包含游戏整体总计时间内好评或差评的比例柱状图,点击该柱状图的任何部分即可查看该时间段内的评测样本。这样潜在购买者就易于看到评测中发生的暂时性歪曲,调查歪曲发生的原因,并自行决定是否受其影响。这个方法的好处在于任何人提交评测时不会受到阻碍,而潜在购买者则需要多花一点功夫来了解产生评测的原因。  

  而对我而言,Steam 此举最大的改革是——终于不再由认真写评测的人为错误买单。

评测系统平衡的回归

  Steam 评测系统此次更新后,新增的图表兼顾了效率和公平:直接让玩家可以选择只看30天内非正常波动期内评测”/“去掉非正常期后的评测,也算弥补30天机制牺牲了旧评测曝光的问题,我们可以在新图表中看到完整的过往评测走势——尽管这只是一种间接曝光,但它是目前系统中唯一直接提醒玩家别忘了首页显示的只有最近30天的评测哦,想了解全貌的话之前还有一大段评测历史呢的热心小贴士。

  当然,了解一项机制好不好不能光看它能发挥出的上限,也要看看下限。在此要特别鸣谢《绝地求生》,这款游戏火到随时都可以抓它出来当例子,样本足够丰富……

对于吃鸡来说正常的评测波动被计算为了非正常​
这是选择“只看非正常波段”的结果​

  改版后的最大潜在问题有两点:

  一、柱状图“30天内的非正常波动判断是否精确?

  二、柱状图能够直观显示30天以前的“刷差评”?

  对于第一个问题,我们可以看一个新游戏作为样本:《奇异人生:风暴前夕》。

  尽管 Steam 官方并没有公开关于“非正常波动”的算法,但通过《防火员》(短期内出现了非正常差评轰炸)、《绝地求生》(正常波动被判定为非正常)、《奇异人生:风暴前夕》(首发几天出现了密集评测,因此差评也相对较多),我们可以推测该算法特征如下:

  出现黄框的前提仅为30天内出现了密集评测,不单计算差评,且密集程度会跟游戏发售初期比较;

  出现黄框并且提示为非正常差评波动,不仅仅需要差评占比为短期内最高、还需要差评数量够高(因为吃鸡卖得太好导致两者都满足,才会出现误判)。

  个人而言,这种误判是可以接受的,相对谨慎的判定方法降低了冷门游戏被误判的几率,从而保证玩家评测的合理曝光,偶有《绝地求生》这种误判例子……它本身就是现象级游戏,才会出现极端情况,相信愿意买它的人也不会在意一两次误判。


  而对于第二个问题,我们可以再看一个例子,《收获日2》:

可以看到2015年10月有一个密度极高的差评轰炸​

  诚然,超过30天的差评轰炸已经没办法筛选掉,但是短时间的评测扭曲是可以在柱状图中直观呈现的,这不但能表明游戏的总体好评率可能被“刷过差评”而拉低,还会提醒那些真的很犹豫要不要入手的玩家去了解被“刷差评”的原因——比如《收获日2》的一天一万篇差评,原因是开发商 OverKill 违背了发售初期“绝无内购”的承诺,为游戏加入了开箱的氪金机制而导致的。

  而这也是我认为新机制保证了公平的原因之一:它不但降低了差评轰炸对游戏的冲击,相应的,游戏的黑历史也将垂名千古。

长远而深刻的参考价值

  仅靠上述合理性,Steam 这一改革也只能算而不能令人,但官方博客中这段话则真正展现了 Steam 对评测系统的关注和研究:

  (此次改动的)另外一个好处就是可以了解游戏评测长期以来发生的变化,这对于作为服务来运行的游戏来说是非常好的。一开始并不明显的一个细微之处是,大部分游戏即便没有进行任何更改,长期而言也会呈现缓慢下降的趋势。一般而言,早期购买游戏的玩家比起后来的玩家更有可能喜欢这个游戏,我们认为如果您能意识到这一点会有帮助。对游戏感兴趣的玩家群体中,更相信自己会喜欢这个游戏的玩家会先进行购买,因此随着时间的流逝,剩下的潜在购买者会越来越不确定自己是否喜欢这个游戏。因此如果您看到某个游戏的评测随时间走高,这有可能是一个更强有力的说明,说明游戏开发者的游戏开发质量之高。  

  划重点:口碑降低是常态,游戏改动后引起的变化是另外一种影响​

  对玩家来说,这段话分清了很多层关系,帮助我们更全面地看待游戏评测:

  1. 忠实玩家更倾向于尽早购买游戏,使得游戏刚发售时的口碑存在虚高的可能
  2. 评测系统是有动态平衡机制的,如果早期口碑虚高,使得原本观望的玩家抱持过高期待购买了游戏,差评比重会在之后的时间里逐渐平衡
  3. 这意味着,在游戏没有改动(排除打折会更严谨)的情况下,口碑在长时间中缓慢降低是常态,如果没有降低,那说明这款游戏是真的好;
  4. 在游戏没有改动时不降反升的,不是神作就是发售初期出了一些“意外”
  5. 游戏每次改动都有可能引起评测数量和口碑的变化,如果玩家真的想了解最真实的游戏口碑,或者说游戏是在越改越好还是越改越差,不妨结合游戏的更新通知来对比
无论是评测数还是好评数都瞬间反弹的《神界:原罪2》,创造今年 CRPG 的销量奇迹也不奇怪了​

  除开玩家,这段话还值得开发商、发行商们细细品味,开放了这个柱状图的意义远远不止曝光30天内的差评轰炸,随便举几个例子:

  1. 评测数量的波动可以侧面反映游戏销量;
  2. 评测数量占销量比的差别可以反映什么样的元素更吸引玩家写评测;
  3. 评测波动可以反映什么样的游戏改动更受玩家欢迎;
  4. 除了游戏改动以外,运营工作又能如何影响游戏的口碑,宣传工作又能如何影响游戏的评测热度;
  5.  “运作出来的口碑能持续多久;
  6. 等等等等……
“上下竖跳”的《极黑地牢》

  我相信还有很多此次改动的潜在意义没有被发掘出来,不过蕴藏的可能性又证明了此次改动的另一特征:妥善。高明的改革不在于能影响多少问题,而在通过很小的改动就能影响多少问题。

  Steam 一度的不作为让我之前的态度有些悲观,但在这次改革后,我想评测系统大概是要开始越来越好了吧。

| (27) 赞(30)
Esther VGTIME用户

关注

评论(27

跟帖规范
您还未,不能参与发言哦~
按热度 按时间