Twitter向科学家开放所有推文数据,你的碎碎念正在成为研究的一部分

shutterstock_145850153

你或许意识不到,自己在Twitter上的吐槽、抱怨和心情分享正在成为科学研究的一部分。

人们在Twitter上每天能够发布总数达5亿条的推文,这其中有大部分是关于个人生活的细节的,比如他们对某件事的吐槽,与朋友的互动,或是只是告诉大家自己身体不舒服。而这些碎片化的信息,事实上都可以被科学家用来进行数据分析,指导科学研究。此前,微软的研究人员就通过研究Twitter上的孕妇的推文中透露出的情绪,开发了一种新的算法,来对产后抑郁症进行预测。

Twitter官方当然也意识到了这些研究的价值,并有意识地鼓励科学家把自己平台上的数据作为科研工具之一。根据ScientificAmerican的报道,Twitter宣布,将向科研人员开放从2006年起Twitter上的全部推文数据,而在此之前,研究人员只能通过Twitter开放的API接口获取这些数据,但它们能够获取到的推文只有总量的1%。而在得到Twitter官方的许可之后,研究人员将能够获得存储在Twitter平台上的所有推文。这将大大地扩充待挖掘和研究的数据量,当然也会提高数据研究的精度。

像微软研究人员对产后抑郁症的预测那样,Twitter上的推文已经为不少科学研究做出了贡献。去年,就有美国的计算机科学研究人员对Twitter用户所发布的与流感有关的信息进行汇总分析,以此预测出可能爆发流感的地区,为相关部门的预案提供研究支持。这与Google在2008年上线的流感趋势网站非常相似,Google的做法是通过人们对流感相关信息的搜索来进行统计,以此对流感进行分析、做出预测;而在Twitter上,研究对象就不再是搜索请求了,而是人们发布的推文。研究人员把这些关于流感的推文打上地理标签,以此绘制出了一张“流感地图”,通过这张地图以及研究人员据此建立的动态模型,流感病毒的爆发、转移就能够被大致观测到了。

相似的方法被斯坦福大学的地震研究员使用,研究地震的强度,以及扩散效果。

不过,把自己平台上的用户数据开放给其他人,Twitter也相应地承担了道德风险,因为这关乎隐私——并不是每个人都喜欢让自己说的话暴露在哪怕是科学研究的场景中。而针对这种情况,弗吉尼亚理工大学计算机流行病学家Caitlin Rivers和Bryan Lewis在今年2月份的时候针对Twitter数据的使用方式发布了一个道德规范:他们建议科学家不要披露相关用户的名称,也不要公布研究目的,以此来保护有可能出现的隐私和道德问题。他们认为,科学家需要将保护隐私作为Twitter数据研究的基本原则。

注:题图来自ShutterStock

订阅更多文章