微软研究院是如何利用数据挖掘预测奥斯卡的?利用动态数据提高预测准确度

奥斯卡获奖名单甫一公布,兴奋的除了影迷们,恐怕还有微软亚洲研究院。他们的官微称,微软研究院的“David Rothschild带领的团队通过对入围影片相关数据分析预测出今年各项奥斯卡大奖的最终归属”,“除最佳导演外,其他各项奥斯卡大奖预测全部命中。”

微软亚洲研究院可能得兴奋过头了,实际情况是,David团队对所有24个奖项都做出了预测,其中19项预测正确,有5项错误,出错的除去最佳导演外,还包括最佳男配角、最佳化妆、最佳纪录短片和最佳艺术指导这几个奖项。

当然,即使这样,也不得不说他们做出的预测结果准确率已经非常高。David在微软研究院的博客中介绍了他们是如何通过对数据进行挖掘,建立预测模型来得出这一结果的:

“预测奥斯卡的方法同我预测其他东西的方法一致,包括政治。”David说,”我关注最有效的数据,然后创建一个不受任何特别年份结果干扰的统计模型。所有模型都根据历史数据进行检测和校正,确保模型能够正确预测样本结果。这些模型能够预测未来,而不只是验证过去发生的结果。

“我关注四种不同类型的数据:投票数据、预测市场数据和基础数据和用户生成数据( user generated data )。

对于大选来说,基础数据,比如说过去的选举结果、现任者和经济指数等,更为重要。在整个预测周期中,会通过基础数据建立一个基准,当预测市场数据和投票数据所含信息越来越丰富之后,再把重点转向后者。预测2012年总统大选时,我运用了少量的用户生成数据,但是Xbox LIVE的数据对于提供大事件的实时分析非常关键。

但是奥斯卡的预测缺少投票数据,而且票房回报和电影评分等数据在统计学上并不是那么地有效。所以我更多地把注意力放在预测市场数据上,再加入部分用户生成数据,这可以帮助我了解电影内部和不同类别之间关联度,比如《林肯》会赢得多少个项奖项。

只要我关注一个新的领域,我就会去思考对于一项有意义的预测来说,有哪些关键的事情:

首先,我会确定什么是最相关的预测。比如说,奥斯卡我会关注24个类别可能的赢家,也会思考某部电影的获奖总数;

其次,所有的预测会进行实时更新。从研究的角度看,了解从做出预测和最终结果之间所发生事件的价值很关键。对于奥斯卡来说,这些事件就是其他奖项(如金球奖等)的颁奖结果;

最后,我会利用这个领域的历史数据来建立这个模型,然后不断更新以确保模型的准确度。我想强调的是,我们做的每件事都是针对独立领域的,来保证它能扩展到很多问题上。如果这项研究能推演出更有效率的预测模型,能应用到更多领域来解决更多问题,那它对于微软、对于学术界和这个世界来说都将有很大的价值。”

David和他的团队开设了PredictWise网站,专门刊登对于各项重大事件的预测结果。他称,奥斯卡预测的难度非常大,因为它涉及到24个类别(通常只有6个),而且随着奥斯卡之前其他奖项的不断颁出,整个结果会不断地产生变化。

为了解决这个问题,David加大了动态数据在整个预测模型里的比重。

“实时预测是非常重要的。因为实时预测可以随时提供最新的预测结果,而动态数据的挖掘表明整个预测结果正在不断纳入新信息。此外,它可以提供一个更细的追踪记录,来展示什么时候/为什么发生了变化,是哪个部分影响了最后的结果。”

以最佳影片奖的动态数据为例,大热门电影《林肯》的胜率就在《逃离德黑兰》陆续获得多个奖项之后迅速滑坡——在奥斯卡提名刚公布的时候,《逃离德黑兰》仅有8%的可能性获奖,但是后期的奖项让它的获胜率迅速增长到了93%。

除了要考虑时间上的动态变化,还要注意数据之间的相互影响。David的模型指出,最佳影片奖和最佳改编剧本奖之间有着强烈的相关性,所以《林肯》和《逃离德黑兰》在这两个奖项里波动趋向基本一致,只是幅度略有差异。《林肯》最初有70%的可能性获得最佳改编剧本奖,但在它获得最佳影片奖的可能性一路走低后,《逃离德黑兰》的得奖率反超到了57%。

为了更好的实现动态数据的挖掘,David还和微软的Office部门一起合作,发布了一款名为“Oscars Ballot Predictor”的Excel App,可以实时更新预测情况。

Oscars Ballots

不过,和David更多的是挖掘预测市场数据和基础数据不同,分析机构BranWatch选择的是利用社交数据建立自己的预测模型。它从各大社交网络中找出演员、导演和电影被提及的次数,通过计算所获得的积极评价数来预测他们获奖的几率。而Twitter占到了BrandWatch取样内容的约40%。

BrandWatch的做法并不新鲜,但是以往的分析数据有一点不同的是,它把专业人士的评论和普通大众的评论区分开来统计,而且只收集积极评价的数量。这里面就涉及到了两个变量,一是提及次数,还有一个就是背后的态度。BrandWatch认为,这样就确保可以过滤掉一定的无效数据,比如,大量Helen Hunt在红地毯上的穿着的评价,就不会作为主要数据纳入到统计中。

此外,因利用统计学成功预测去年美国总统大选的Nate Silver,也给出了他自己的预测结果和模型,我们就不再赘述,有兴趣的可以点击他在《纽约时报》的专栏

订阅更多文章