泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的?

toutiao

我认为,任何不做好个性化推荐系统的新闻类阅读产品都是没有前途的,任何不讲清楚推荐体系的相关报道都是耍流氓。上周我写了一篇《文本挖掘算法、热度识别体系:美味爱读是如何搭建个性化阅读架构的》,在文章中介绍了由AVOS公司的四位中国工程师通过文本挖掘算法筛选关键词,根据传播热度识别体系对文章进行筛选、排序,打磨出的新型个性化阅读产品——美味爱读。随后,一个创业团队向我推荐他们的阅读产品——今日头条,并非常有自信地表示他们也有非常棒的推荐体系。美味爱读目前是一个垂直于科技领域的,包含中英文内容的阅读产品(用户可选择是否接收英文内容),而今日头条是一个中文的泛阅读产品。这样一款产品面对更多的信息源,那他们是怎么做个性化推荐的呢?

我们知道,冷启动是个性化推荐中非常重要的一环,即当产品链接新用户后,需要一定的时间去收集用户行为数据。在此之前,如何做出较为精准的推荐呢?美味爱读的做法是在用户接入时建立颗粒较细的兴趣标签系统,而今日头条则选择了另一种解决方案——通过对用户微博账号的分析建立一个“兴趣图谱”,即根据用户在微博上发布的内容及其所属类别、用户自标签、社交关系、社交行为、参与的群组、机型、使用时间等来数据源来推断出用户的兴趣点有哪些。社交关系、社交行为即用户和用户之间的交流状况,可以根据二者间的共同好友数、相互评论熟、@数等来做度量。其实新浪微博内部也在利用多种技术建立每个用户的的兴趣模型。

举个例子,拿我的微博ID接入今日头条后,系统后台便会对我的兴趣作出分析,建立初始的DNA数据,并根据这些兴趣的权重来进行推荐。当然,因为这只是第一步,所以我们称之为冷启动。

mine

在冷启动后,今日头条会根据初始的兴趣模型从三个维度呈现内容:第一个是“推荐”,即会从抓取到的每条信息(包括图片信息)中提取几十个到几百个高维特征,并进行降维、相似计算、聚类、分类等处理,然后根据用户的兴趣模型进行推荐的内容,团队创始人张一鸣告诉我,他们每天会采用Visual-based抓取技术处理超过100万个网页, 以保证内容来源足够准确;第二个是“热门”,即互联网和社交网站上出现最多的内容;第三个是好友动态中,可查看好友的评论、转发、收藏动作。

当然,与现在大部分新闻类阅读产品相似,你也可以根据自己的喜欢对文章进行“顶”、“踩”、转发、收藏等操作,这些用户行为数据会实时性地被传送到后台,在用户每次操作后的30秒内,系统就会对用户模型进行更新。所以,在冷启动的基础上,随着用户行为数据的积累,系统为每个用户建立的兴趣模型就越精确,你会感觉到这款产品越来越懂你,这也是所有个性化推荐系统的基本原理。

张一鸣认为,除了推送文章内容本身,精彩的评论也是不可或缺的一部分,所以在产品中,用户不仅可以自己对文章做评论,还可以看到互联网上对于相同内容的评论,它们将依照用户的社交关系、评论人的影响力等条件进行排序。

我们看到,目前个性化推荐主要面临的挑战来自于对海量数据的筛选、处理、冷启动、在产品上如何更好地收集用户数据、对用户数据的挖掘和利用……如今越来越多的阅读类产品开始涉足这一领域,他们在利用不同的方式在尝试解决这些问题,谁是最后的佼佼者?我们拭目以待。

订阅更多文章