Twitter向科学家开放所有推文数据，你的碎碎念正在成为研究的一部分-品玩

你或许意识不到，自己在Twitter上的吐槽、抱怨和心情分享正在成为科学研究的一部分。

人们在Twitter上每天能够发布总数达5亿条的推文，这其中有大部分是关于个人生活的细节的，比如他们对某件事的吐槽，与朋友的互动，或是只是告诉大家自己身体不舒服。而这些碎片化的信息，事实上都可以被科学家用来进行数据分析，指导科学研究。此前，微软的研究人员就通过研究Twitter上的孕妇的推文中透露出的情绪，开发了一种新的算法，来对产后抑郁症进行预测。

Twitter官方当然也意识到了这些研究的价值，并有意识地鼓励科学家把自己平台上的数据作为科研工具之一。根据ScientificAmerican的报道，Twitter宣布，将向科研人员开放从2006年起Twitter上的全部推文数据，而在此之前，研究人员只能通过Twitter开放的API接口获取这些数据，但它们能够获取到的推文只有总量的1%。而在得到Twitter官方的许可之后，研究人员将能够获得存储在Twitter平台上的所有推文。这将大大地扩充待挖掘和研究的数据量，当然也会提高数据研究的精度。

像微软研究人员对产后抑郁症的预测那样，Twitter上的推文已经为不少科学研究做出了贡献。去年，就有美国的计算机科学研究人员对Twitter用户所发布的与流感有关的信息进行汇总分析，以此预测出可能爆发流感的地区，为相关部门的预案提供研究支持。这与Google在2008年上线的流感趋势网站非常相似，Google的做法是通过人们对流感相关信息的搜索来进行统计，以此对流感进行分析、做出预测；而在Twitter上，研究对象就不再是搜索请求了，而是人们发布的推文。研究人员把这些关于流感的推文打上地理标签，以此绘制出了一张“流感地图”，通过这张地图以及研究人员据此建立的动态模型，流感病毒的爆发、转移就能够被大致观测到了。

相似的方法被斯坦福大学的地震研究员使用，研究地震的强度，以及扩散效果。

不过，把自己平台上的用户数据开放给其他人，Twitter也相应地承担了道德风险，因为这关乎隐私——并不是每个人都喜欢让自己说的话暴露在哪怕是科学研究的场景中。而针对这种情况，弗吉尼亚理工大学计算机流行病学家Caitlin Rivers和Bryan Lewis在今年2月份的时候针对Twitter数据的使用方式发布了一个道德规范：他们建议科学家不要披露相关用户的名称，也不要公布研究目的，以此来保护有可能出现的隐私和道德问题。他们认为，科学家需要将保护隐私作为Twitter数据研究的基本原则。

注：题图来自ShutterStock