快速搭建一个“今日头条”式的 AI 信息推荐系统?第四范式说任何人都可以

在一个看起来“很像那种思维导读图”的软件框里,将数据源、拆分、逻辑回归以及验证几个模块拖拽并连成线——就是这样简单的操作,一个人工智能的模型就搭建好了。第四范式的产品经理周开拓一进门就向我简单介绍了这个产品的便利性。

这些操作大体上能代表所有使用先知平台人工智能的客户的基础操作流程。周开拓告诉我,稍微有一些定制复杂的客户无非是多了一些模块验证的环节,在数据拆分里多做了一些基础代码的工作。

02

先知平台 图片来自:infoQ

数据拆分工作是根据你所拿到的数据、以及期望的目标结果将数据源标签化,而通过流程中通用模块背后的人工智能算法,就构成了机器学习框架整个流程——针对不同数据源,你只需要编写在数据拆分模块中的基础代码。

先知平台是基于人工智能的生产力工具。“比如炒菜这个事来看,数据源(信息特征)是西红柿、鸡蛋以及盐醋等,通过告诉它正确结果番茄炒蛋,它就可以在我们已经制定好的多步骤通用算法(包括加油、炒、煎、放盐)中理解出一套逻辑,从而我们的平台就能简单的代替厨师做出这道菜。”第四范式 CEO 戴文渊把这个问题讲得更通俗易懂——第四范式先知平台其实就是一个工具。

这就是在提供人工智能机器学习的多种通用工具组件——第四范式给客户提供各种机器学习的模块,这些模块可以打造出实现用户需求的“锅”,也可以通过简单的培训用户可以根据自己的业务知识搭建出新的机器学习模型。

他向我强调——即使是基础的业务人员,在没有任何计算机代码基础的情况下,他们也能在一个月左右的培训时间将人工智能先知平台部署在其业务流程上。

而在面向客户的简单逻辑下正是第四范式所提供的复杂逻辑平台——先知。第四范式提供了一个基于机器学习的 AI 模型平台,第四范式 CEO 戴文渊介绍公司在模型中提供了一系列的基础算法,形成了大规模分布式机器学习框架(GeneralDistributed Brain Technology,GDBT)。根据官方说法,GDBT 是一个由 C++ 编写的,完全分布式的适合于机器学习计算场景的计算框架,可以运行在单机、MPI、Yarn、Mesos 等多个分布式环境。

111

比如直播事件样本特征分为用户、内容以及上下文特征

信息流推荐服务又是一个很典型的例子。周开拓认为,推荐系统不论用什么方法其本质都是基于用户的时间、空间、设备的状态给其推荐,他更可能会有点击、收听、互动、购买….任何业务关注的行为,而信息流推荐服务的目标简单来说就是点击率。

所以训练一个信息推荐模型,需要收集用户的特征信息、内容特征信息、上下文特征;通过收集样本结果(是否点击)让机器学习产生一定的联系,这就制作出了一个推荐模型——比如用户在使用什么品牌手机、每天哪个时间段、关注哪些关键字、有哪些购买行为等特征的情况下点击了哪条拥有哪些特征信息的新闻。当给定了新的信息特征,模型计算出所有候选信息的点击率,把预测点击率最高的信息推荐上去,这就是信息流推荐服务的机器学习模式。

从用户的角度来看使用先知平台只需要做三件事情:第一,确定这个目标是什么;第二,收集这个目标的反馈;第三,点一下让机器解决。

zhangyimign

提升点击率就是优化用户停留时间

而具体到行业应用里我们可以这样理解——每个行业需要端对端的解决问题,而所有的业务逻辑都会是将业务领域专业知识结合数据算法专业知识转化为结果。映射到人工智能服务上,就是将人类的业务知识水平结合到算法科学家的模型中,而通常情况是算法科学家去学习业务知识然后开发模型,而不是制造一个通用人工智能平台帮助业务人员实现智能化。

戴文渊提到,这种端到端的模型能力可以理解为就是各行各业的数据输入,而最后得到就是我们想要的服务——无论行业是否具备差异化,这是通用逻辑。而大公司提供的人工智能开放平台都是为了做大做强,不具备小型的应用环境。

谈到大公司提供的通用人工智能平台,像 TensorFlow 这种人工智能平台,更多的目的都是为了优化公司自己产品所遇到的各种问题,而一些小公司学习使用一个深度学习框架需要很大的成本,而单独开发一套模型又耗费人力、财力、精力。“在 BAT 难做是因为锅也是自己做的,煤气炉也是自己做的,管道也是自己做的,甚至连鸡都是自己养的,我们今天做的事情就是连锅做好,连煤气管道给大家接好,用户只知道自己怎么炒菜就好了。”戴文渊作了这样的比喻。

“比如说大家都知道 iPhone 相机很好用,一按就好,但专业的研究在于其背后图形算法的调校,普通人员并不知道如何去调校,他只知道如何使用 iPhone 拍出好照片就好了。”戴文渊将先知平台的工作定义成背后的调校,是工具属性。

目前先知平台提供了两种服务模式——一种是对客户开放其先知平台,对业务客户进行一两个月时间的基础培训,客户可以制作出适合自己业务流程的算法模型;另外一种是针对大客户进行定制,在第一种模式的基础上对算法进行更专业的调校。

从一家讲“大数据价值挖掘”的公司到一家“人工智能”公司,这经历了两年的发展。“先知平台基本上是一步一步迭代而来,之前我们和客户讲大数据还要解释什么是大数据价值,现在人工智能来了大家反而更理解我们公司。”

在这两年多时间,第四范式已经公开披露公司相继拿到红杉资本和创新工场数千万元人民币的天使轮和 A 轮融资。创新工场李开复坚信人工智能的时代已经到来,密密麻麻布局了包括第四范式的几十家人工智能公司,而红杉资本沈南鹏则将“AI+信息”比作今日头条,而第四范式是“AI+风控”。

第四范式可能并不愿意将自己局限在金融范围内,但金融业的客户非常具有代表性,先知平台可以为银行等金融机构提供反欺诈、风险定价以及精准营销服务。戴文渊透露已经有越来越多的知名银行客户在使用/接触先知平台。“他们用我们的平台对客户理财项目进行更精准的推荐,也会预测客户在贷款方面能否及时还贷。”

戴文渊告诉我,得到以及罗辑思维等金牌内容产品也都是第四范式的客户,第四范式帮助他们对其客户进行更精准的个性化推荐。这大体上代表了第四范式先知平台的项目画像——那些在媒体推荐、用户营销以及电商推荐等场景的项目,都可以使用先知平台。

不过,对于需要数据驱动的人工智能平台而言,第四范式也会遇到很多问题。比如说一些敏感行业客户不可能将一些机密数据放到这个模型中;一些客户本身的数据可能存在问题并不愿意将其公布给第三方等等——这些都是第四范式在实际应用中遇到的阻力。

很多人知道第四范式或许是因为其创始人戴文渊。戴文渊是前百度凤巢的架构师,百度凤巢是一个基于人工智能的广告销售系统,简单来说百度凤巢系统大幅提升了广告点击率并使之形成变现能力。此外,戴文渊此前在百度内部是 T10 级别的科学家,然后他从百度离开后进入了华为,从华为出来后便创立这家第四范式公司。

而这家公司的联合创始人是陈雨强。根据公开资料,陈雨强是深度学习、迁移学习方面的专家。“除去百度凤巢系统,陈雨强也架构了今日头条的人工智能推荐系统。”市场部的一位员工告诉我。

这家公司的首席科学家杨强才是光环的集大成者——杨强教授在人工智能研究领域深耕三十年,是国际公认的人工智能全球顶级学者,ACM 杰出科学家,两届 KDD Cup 冠军。根据机器之心的资料,杨强教授在数据挖掘、人工智能、终身机器学习和智能规划等研究领域都有卓越的贡献,是迁移学习领域的奠基人和开拓者。

迁移学习也是近期人工智能的一个热点,如何将小样本的数据结合到机器学习中去正变成一个新课题。

比如在工业以及医学领域是不会出现大数据的,样本珍贵却数量越少。“我举个例子,比如说一种癌症的图像分析能不能用到另外的癌症图像分析上去?既然你不能获得用于深度学习的大数据,迁移学习也是一个方向。”戴文渊提到。

第四范式的目标是让所有人都能控制 AI,先知平台就是在这样愿景下的一个产品。不过虽然大公司目前都在推 AI 的通用平台,戴文渊认为,“我不觉得我们应该强调大公司在 AI 方面是转型,更多的可能是恐慌。就像几年以前,绝大部分公司都在转型移动互联网,但其实最后都没有想清楚移动互联网时代应该怎么玩,现在的 AI 情况可能也是这样。”

 

题图:左为第四范式 CEO 戴文渊,右为第四范式首席科学家杨强

更多有趣好玩的内容 尽在品玩微信公众号
brand

PingWest品玩移动客户端