泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的？-品玩

我认为，任何不做好个性化推荐系统的新闻类阅读产品都是没有前途的，任何不讲清楚推荐体系的相关报道都是耍流氓。上周我写了一篇《文本挖掘算法、热度识别体系：美味爱读是如何搭建个性化阅读架构的》，在文章中介绍了由AVOS公司的四位中国工程师通过文本挖掘算法筛选关键词，根据传播热度识别体系对文章进行筛选、排序，打磨出的新型个性化阅读产品——美味爱读。随后，一个创业团队向我推荐他们的阅读产品——今日头条，并非常有自信地表示他们也有非常棒的推荐体系。美味爱读目前是一个垂直于科技领域的，包含中英文内容的阅读产品（用户可选择是否接收英文内容），而今日头条是一个中文的泛阅读产品。这样一款产品面对更多的信息源，那他们是怎么做个性化推荐的呢？

我们知道，冷启动是个性化推荐中非常重要的一环，即当产品链接新用户后，需要一定的时间去收集用户行为数据。在此之前，如何做出较为精准的推荐呢？美味爱读的做法是在用户接入时建立颗粒较细的兴趣标签系统，而今日头条则选择了另一种解决方案——通过对用户微博账号的分析建立一个“兴趣图谱”，即根据用户在微博上发布的内容及其所属类别、用户自标签、社交关系、社交行为、参与的群组、机型、使用时间等来数据源来推断出用户的兴趣点有哪些。社交关系、社交行为即用户和用户之间的交流状况，可以根据二者间的共同好友数、相互评论熟、@数等来做度量。其实新浪微博内部也在利用多种技术建立每个用户的的兴趣模型。

举个例子，拿我的微博ID接入今日头条后，系统后台便会对我的兴趣作出分析，建立初始的DNA数据，并根据这些兴趣的权重来进行推荐。当然，因为这只是第一步，所以我们称之为冷启动。

在冷启动后，今日头条会根据初始的兴趣模型从三个维度呈现内容：第一个是“推荐”，即会从抓取到的每条信息（包括图片信息）中提取几十个到几百个高维特征，并进行降维、相似计算、聚类、分类等处理，然后根据用户的兴趣模型进行推荐的内容，团队创始人张一鸣告诉我，他们每天会采用Visual-based抓取技术处理超过100万个网页, 以保证内容来源足够准确；第二个是“热门”，即互联网和社交网站上出现最多的内容；第三个是好友动态中，可查看好友的评论、转发、收藏动作。

当然，与现在大部分新闻类阅读产品相似，你也可以根据自己的喜欢对文章进行“顶”、“踩”、转发、收藏等操作，这些用户行为数据会实时性地被传送到后台，在用户每次操作后的30秒内，系统就会对用户模型进行更新。所以，在冷启动的基础上，随着用户行为数据的积累，系统为每个用户建立的兴趣模型就越精确，你会感觉到这款产品越来越懂你，这也是所有个性化推荐系统的基本原理。

张一鸣认为，除了推送文章内容本身，精彩的评论也是不可或缺的一部分，所以在产品中，用户不仅可以自己对文章做评论，还可以看到互联网上对于相同内容的评论，它们将依照用户的社交关系、评论人的影响力等条件进行排序。

我们看到，目前个性化推荐主要面临的挑战来自于对海量数据的筛选、处理、冷启动、在产品上如何更好地收集用户数据、对用户数据的挖掘和利用……如今越来越多的阅读类产品开始涉足这一领域，他们在利用不同的方式在尝试解决这些问题，谁是最后的佼佼者？我们拭目以待。