新型演算技术:通过数据分析将社交网络联系人自动划分圈子

社交网络的一个重要特征就是将联系人进行分类,形成许多个小组或圈子,传统的分类标准有:家庭成员,大学同学,同事等。创建并维持这些社交圈子是一个非常耗时的工程。因此一个能分析用户联系人列表并自动将其归类的演算技术会是一个非常得力的助手。

来自斯坦福大学的 Julian McAuley和Jure Leskovec称他们研发出了一种演算技术,该技术不需要用户输入信息就能将用户的联系人归入不同的社交圈子,并能将新加的好友自动归入对应的圈子组别。

该演算技术能够自动分析用户联系人的简介信息,例如在Facebook上,这些信息一般包括姓名,性别,年龄,所在地,公司,公司所在地,教育背景等。

然后它能找出这些联系人彼此之间的关联,同处一个关系圈的人可能上了同一所大学或者在同家公司工作亦或者姓氏相同。

接着它分析联系人和用户之间的关联,是同事亦或是高中校友等。提取了同个圈子里不同联系人的共同特征后,它还能自己寻找具备相同特征的其他人。

McAuley和Leskovec声称这种演算技术的最重要特征是它能将联系人归到不同的圈子中,而且不同的社交圈会出现交集或相互包含。例如:一个大圈子是大学校友,一个小圈子是大学同班同学,那么这个小圈子就完全包含在大圈子里。

后来,McAuley 和Leskovec找了十个Facebook用户,让他们用26个标签将联系人进行分类,然后画出不同的社交圈,并给每个圈子标上标签。十个用户的共4039名联系人被分成了193个社交圈,也就是说平均每个用户拥有19个圈子,每个圈子有22个联系人。

最后,他们利用演算技术分析原始数据,看看它是否能找到用户自己划分的社交圈。

结果还不错,不过也存在着一些问题。如:该演算技术为每个用户划分的社交圈都不超过十个,和人工划分的结果有所偏差。不过,McAuley 和 Leskovec说他们的演算技术和其他类似的技术比起来还是略胜一筹。

这种技术对联系人的分类准确性依赖于联系人信息是否丰富,比如Facebook上的联系人信息比Twitter上联系人的信息要丰富很多,相应的准确度就比较高。

通过演算来归类好友绝对是个有趣的方法。这种能自动将用户联系人列表分组的技术很有价值,它还能将新加入的联系人自动分类。

然而,该方法在面对繁琐的数据分析时有个明显缺陷,将1000个Facebook联系人分成10组就要花费一个小时的时间,McAuley 和 Leskovec也承认该演算方法不够高效。Facebook有十亿用户,其耗费的时间可想而知。但McAuley 和 Leskovec说如果Facebook上所有的用户联系人都纳入分析范围,就能清楚的看到详细脉络,从而快速找出关联、进行归类。例如:如果我们能在Facebook上找到所有与该用户上过同所大学的人,那么通过其与联系人列表的交集,就能轻松得出该用户的大学校友圈。

将来还有一个重要问题是这些依靠联系人信息自动生成的圈子和现实生活中圈子的匹配度究竟如何,很多圈子划分的理由只有用户自己知道,如果是这种情况,那么通过演算永远也不可能完美地重现这些圈子。

还有一个有趣的用途是去寻找用户及其尚未分组的联系人之间的关系——换句话说就是寻找那些用户尚未意识到或想要掩藏的社交圈。例如:这些圈子可能涉及犯罪活动,亦或是商业机密。这涉及到一些伦理道德问题,比如谁才有权看到这些数据分析的结果。

可以肯定的是,该演算方法的潜力很大,很多社交网络的用户也都意识到了这点,这意味着在不久的将来我们会看到更多此类技术的应用。

Julian McAuley和Jure Leskovec的论文原文:点击下载

via TR

 

 

订阅更多文章