骆轶航对谈张一鸣:主编凭什么不能向机器学习?

11 月 4 日, HAY!16 年度大会如期而至。在“智慧”板块,PingWest 品玩创始人骆轶航与今日头条创始人& CEO 张一鸣进行了一次关于人工编辑和机器学习之间的主题对谈。

“主编不懂的,为什么机器能懂?”媒体出身的骆轶航和技术背景的张一鸣一块儿探讨了这个最近在内容创业领域颇为热点的话题。

以机器学习闻名的今日头条公司里到底有没有主编?有没有人工干预?

除了文字,今日头条怎么精准判断和推送图片和视频信息?

机器写作到底能写什么?随着机器学习的发展,作者们会失业吗?

这三种问题基本算是当下内容领域里最受关注的技术相关话题,而今日头条作为业界第一的数据挖掘类推荐引擎产品首当其冲。传统的写作者们对其又爱又恨,受益于今日头条能增加并精准匹配内容作品传播渠道的同时,又时刻担心着自己的饭碗会不会有一天也被机器抢走;而那些对人工智能和机器学习寄予厚望的技术论者,则反复引用今日头条的成功案例,希望借此布道最新的技术,从而影响未来生活的方方面面。

废话不多说,以下是本次活动的对谈实录。


张一鸣、骆轶航

张一鸣、骆轶航

“主编”到底还有什么用?

骆轶航:我很好奇,“今日头条”作为一个新闻客户端,有“主编”吗?如果没有,咱们就进入下一个问题,如果有,你必须得交代一下“今日头条”的主编是干什么的。

张一鸣:首先我说一下,我觉得主编还是很懂的,我经常向他们请教很多东西。

问我这个问题,我可以说有也可以说没有。有的话,是因为我们有这个 Title,但我们的主编和传统意义上的主编做不一样的事情,而且他们之间本身也非常不一样。比方说有做内容合作的,邀请各种内容创作者,鼓励内容创作;有做内容管理的,不允许标题党,怎样的内容不可以;当然也有做数据解读的,因为我们上面有很多作者、读者,有很多统计数据,我们叫“头条算数”,跟大众、跟作者解释数据;还有做公益的,我们上面有个副主编,他的主要工作是“头条寻人”,今年他通过这个平台找到了 400 多个失踪的人,但不存在你说的那个每天早上挑选内容的主编,这是没有的。

骆轶航:没人盯着写稿编稿挑稿。这个意义上就是没有主编。你找的人做内容、做公益、做数据分析,这些人都不是干主编的活儿,为什么你还要给他们主编或副主编的 Title,是某种情结吗?

张一鸣:主要是不给他们 Title,他们出来你不理人家。

骆轶航:这两天关于主编这事儿又可以讨论了。对不起,身为一个做过主编的人,并且现在还会有人误认为我是 PingWest 的主编,我还是得黑一黑“主编”这个词。两年前我们好像都“死”了,那会儿到处都是这样的标题,“新媒体崛起,主编已死”;但最近我发现我们都活过来了,很多新媒体又开始招总编辑,招主编,最近还有人说“机器的算法绝对不能离开人工干预”。学过辩证法的人其实对这个句式非常熟悉,比如“没有绝对的自由”,你怎么看这句话?怎么看待这种说法?

张一鸣:我觉得很多人在讨论这个问题的时候,讨论一个东西肯定要了解它。有人把它非常对立地看,但我们要看什么叫人工干预?用户的行为算不算人工干预?用户的举报算不算人工干预?根据用户的行为和满意度调整算法,算不算人工干预?

骆轶航:刚刚你说的都是读者。

张一鸣:但我们这一点不太一样,我们希望人工干预,但我们希望非常普遍地吸取人的智慧,而不是一个人的智慧。一个主编也好、五个主编也好、七个主编也好,我们认为都是狭隘的。比如在我们平台上养蜜蜂的、种发财树的内容其实很受欢迎,但对这部分我觉得大部分主编是想不到的。所以在我看来,不能仅仅是机器和数据,需要人的行为。国外有个词“集体智慧”,本质上它也是人之间的联网,你从人的行为中吸取智慧。可能理解不一样,如果非得由人去干预某条具体内容,非常容易带上个人强烈的印记。

toutiao1

骆轶航:说白了有一种干预方式是我个人有一个 Ego,我认为这个东西重要,我认为这个东西很有情怀,我把它放上去;我认为这个东西很垃圾,我把它放下来,它对其它事情没有影响,这是一种干预。另外一种干预是我通过我的举报、通过我的点赞行为,无数个我的这样的行为形成了一种干预。第二种干预是不是本质上也是机器学习?

张一鸣:本质上也是机器学习,这么多人之后你就不能开主编会了,不能靠人了。但我补充一下,作为非常有特点的媒体品牌这是可以的,你有你强烈的态度和观点,但作为一个平台,我觉得必须是“集体智慧”。

骆轶航:因为你自己不生产内容,你的内容是给大众的。“今日头条”现在已经有几亿用户了,是给几亿人看的,你的意志到底有多强烈,你的意志强烈之后大家还会不会看,这很有意思。

我也特别想跟你交流,作为媒体,我们自己生产内容,我们是小众媒体,因为我们的用户规模就是百万,但我偶尔会跟我们的内容团队开会,我们不叫“编辑部”,叫“内容团队”,我们不叫“主编”或“总编辑”,而是叫“内容总监”,这样会更产品化一点点。

张一鸣:有段时间互联网公司也改叫软件公司,后来又改回去。

骆轶航:差不多,但我们坚持这样做,不叫总编辑、也不叫编辑部,我们更多是产品思维。但后来我们发现其实我们自己是在模仿,用人脑模仿机器思维。比如我们选微信公众号每天推什么头条,我们会觉得如果推苹果,因为加上“苹果”两个字,阅读量会由一万多提升到五六万,我们还会苹果加上什么其它的,可能又是5 万+,苹果加上“苹果大学”,可能几千都不到。谈到 Google 和中国,别人可能会关心它进来了还是出去了,话题很热;谈到 Google 和人工智能,话题就差一点;谈到 Google 国内不太用得到的产品,量会很低

我们做了各种各样的排列组合,最后决定把什么东西放上去,后来发现我们自己被机器化了,被异化了,过去我们自己判断这事儿重要,小米发布了新的机器,很重要;网约车新政对滴滴影响很大,很重要,过去我们会放头条,但现在我们被异化了,被机器化了。

有没有媒体同行指责你这一点,或就这个问题跟你交流?以后对这事儿有没有什么帮助?

张一鸣:话题稍微宽泛一点,人的很多愉悦来自控制感。比如写毛笔字、玩航模,以前很多工作需要控制感,但变化在很多行业都发生了,比如医生原来望闻问切就行了,现在都是看化验报告,很大一部分是机器给出的诊断;天气也越来越多靠机器给出预测,看概率分布。你会感觉更多时候事情交给机器了,现在下棋也是,很多人已经开始评判 AlphaGo 这个棋手的棋风。

AlphaGo VS 李世石

AlphaGo VS 李世石

我觉得主编这个行业也是,刚才你说的典型属于统计的工作,统计哪些组合是用户感兴趣的,确实机器可能做得更多更好,人也是参照机器的。我觉得不仅在这个行业,可能是未来各行各业的普遍现象,以后医生看病他会看机器提示大概有哪些种组合的分布,哪些概率大,他再根据组合仔细研究。

骆轶航:所以你的意思是,说白了就是一句话,编辑行业和媒体行业、主编行业进化比较晚,进化速度比较慢,医生行业从望闻问切早就进化到需要看片子、看数据,看过往几十个、几百个数据库里的数据治病了。天气预报早就由诸葛亮求风发展到靠气象数据来预测了;现在就连围棋国手们,AlphaGo 下棋不会从其中看到山川河流,它看不到,但它就是能够赢那些从棋中看到山川河流看到“道”的国手们,国手现在要反过来研究 AlphaGo 的下法,向 AlphaGo 学习,意思就是说,你们这些不智能化的编辑和主编们,为什么不向机器学习?

张一鸣:这不是我的意思。

骆轶航:但确实有一个问题,机器和数据会影响更多行业人们的决断。

张一鸣:人工智能是今天的主题,现在我们在很多非常垂直的行业中已经看到了,我觉得在各行各业中都会看到。

14

擅长机器学习的今日头条都能计算什么?

骆轶航:人工智能、海量数据、机器会影响人们的思考方式和决策方式。但这里有没有机器做不到的事情?我作为“今日头条”的用户,但我觉得我不是很典型,你知道,非常不要脸的说一句,我的阅读量应该是常人的 100 倍,不敢说几百倍……

张一鸣:我一般都在朋友圈读你的文章。

骆轶航:谢谢谢谢。我不是典型用户,但作为“今日头条”的普通用户,其实我会有一个感觉,头条真的知道我要什么。除了有一些必须要推送的党和国家的重大时政新闻之外,其它头条推送给我的都不是外面最热门的话题。一般我会收到头条推送给我小米开发布会、Google 开发布会、乐视开发布会,美国大选又发生了什么,台湾时政新闻等。我读的时候发现这些是我感兴趣的话题,但内容未必是我感兴趣的内容,因为不同文章背后有不同立场、价值观,它未必是我感兴趣的东西。比如说我不喜欢特朗普,我更倾向希拉里,但有一些东西读起来我会觉得很怪,这种情况之下我发现头条能判断我的爱好。

包括如果你搜什么“林志玲 黑丝”,它也会给你一个“刘嘉玲 长裙”。它知道我的大概判断,知道我喜欢什么话题,但不知道我喜欢什么具体内容,它没法儿判断我的立场、价值观、品味和情趣,你觉得机器未来能不能解决这个问题,在“今日头条”内部。

张一鸣:对,你说的其实有这种情况,之前有个新媒体,内容非常文艺。

骆轶航:我知道是谁了(笑)。

张一鸣:内容确实也挺好,但有次我们工程师开会,说推荐不好,分发量不够,不如我们期望的,我们去估算我们的用户中有多少读者,但总是到不了那个量,机器总是不能抵达它该到的用户。

所以我们的工程师去读那个内容,他自己看,我发现他们也看不懂。机器毕竟是统计非常大的数据,如果是非常小众的人群、文字非常隐晦,甚至是反面的意思,机器确实难以突破。但如果有 100 万的 Thomas,机器也能识别出来。

骆轶航:因为只有一个人在说“我们终将改变潮水的方向”,说这话的人不太多,所以机器不知道潮水的方向究竟是什么东西。

张一鸣:机器每天看一百篇文章,突然有一个人是这样的风格,它就愣住了。比如你看 AlphaGo 下棋,它也会突然来一个傻。

骆轶航:它会比常见的国手傻很多,因为它没有见过这个东西。这个问题有望解决吗?是不是我们非得造出一百个有望改变潮水方向的人才可以,有没有别的方法让机器识别情趣这个事情更容易一点?

张一鸣:还在研究当中。我们可能对外说得少一点,很多大家关心的问题,我们也在积极改进,花了很多时间,或者说也已经有不少改进。

骆轶航:我再问一个你必须要面对的问题。经常有人会说,头条的内容,我装了几天还是忍不了,最后卸载了,我不能忍受这么低俗的内容出现在我的新闻客户端上。当时我想到两件事儿,如果你用了三四天之后才发现低俗内容,那你最好想想你做了什么。

5

张一鸣:我和 Thomas 都不低俗。

骆轶航:我这里真的没有低俗的东西,我一会儿可以截屏发出来。但如果新用户上来看到的就是这样的东西,是不是意味着一件事情,目前中文网优质信息还不够多,而机器只能够从这些不够优质的信息当中做机器学习、分析判断、推送千人千面,每人喜欢什么东西,而这个东西可能事实或客观上造成了有一些所谓低俗的东西会在头条客户端上出现,如果会的话,有没有办法解决?

张一鸣:它原本是会的。其实对这部分我们是做了一些工作的,我们还是希望用户自上而下,不要用最大众、最容易吸引眼球的那种,所以我们是牺牲了不少点击率来平衡的,特别是在新用户上,新用户演化之后我们就不做这个事情了。

刚才你说了两个问题,第一,还需要更多优质内容;第二,社会总体真实信息分布,实际上需要我们真实客观地看待,不论是在任何介质,分布可能和大家想的不一样。

作为头条而言,那个作者讲了两个观点,一个是关于用户时间的问题,一个是内容的问题。其实关于内容问题我们做了不少事情;第二个关于用户时间的问题我们也想说,你要对比他干什么。我觉得我们在对广大用户获取信息的满足以及满足信息效率提升上还是做了很多工作。

骆轶航:满足人们快速获取信息的要求以及基本的安全性,安全性在于,我该知道时你得让我知道,前提还得是我感兴趣的。

张一鸣:对。不仅是文字,包括图片、视频。

骆轶航:图片和视频现在怎么能够做到精准判断和识别?我们知道文字通过语意分析、语意处理,通过看标题、看文章,能够知道放到哪个分类里,视频怎么做到精准推算?也是通过文字的方式吗?

张一鸣:首先要解释一下,外行看内行会觉得他们就是这么干的,其实很多时候不是这么干的。对于推荐而言,最主要的不是文字、视频的特征,而是通过用户行为识别。

骆轶航:他都没有看这个视频,但因为我看了,张一鸣看了,它就跟科技相关;如果我看了,“改变潮水的方向”那位看了,那它就和文学相关、文艺相关。

张一鸣:如果机器能理解内容,它可以满足冷启动,没有人看之前我就知道它和科技、和创业相关。我们会识别关键帧,也会解析音频,但最终效果的天花板还是用户行为,这是最最重要的。

骆轶航:有一个人看了,然后分析这个人的画像和图谱,识别这是什么内容。

张一鸣:可能很多人脑子里会想有个机器人,它去理解视频,其实是用户行为为主。会有更多关联人看了才会识别为科技内容。所以你们要持续提高品位,帮助机器提高判断力。

13

今日头条能帮助主编写新闻稿吗?

骆轶航:“今日头条”如何通过人工智能和机器学习去挖掘数据,去判断已经在互联网上存在的内容属性、类别、价值观,它可能会被什么样的人感兴许,它可能有什么样的问题。但本身在内容生产方面,我们的话题是机器写作,这一点你们内部有没有做什么尝试?坦率地说,我们计划做一些小的尝试,但我们毕竟不是技术驱动的公司,或者目前还不是技术驱动的公司,我们可能也会希望借助一些数据支持,如果你们做了,某种程度上你们就变成了生产平台。但我判断你们应该是擅长做这件事的,因为你们可能会对于机器写什么更有判断,你们怎么看这个事?

张一鸣:我们确实做了这个事情,奥运期间我们有一个实验室,他们做了“体育报道机器人”,奥运期间它大概发了 500 篇报道内容。除了体育之外,财经也合适,所以我自己总结,所有基于数据的财报解读,从把财务数据变成系列化的内容,包括从社交网站上摘引评论,这是机器能够做,而且做得还可以的。基本上那些报道两秒就生成了,准确,数字不会错,比如财报,不会有基本的金融知识错误。但是在其他创造性内容上我觉得是不行的。

xiaomingzhang

在此之外有一点很有意思,一个叫机器直接创作,一个叫机器辅助创作,在设计领域已经比较多了。CAD,机器辅助创作,创作更复杂的内容。文章还好,但电影比文章复杂,游戏比电影复杂,因为情节会变化,机器辅助创作,讲那么多人物设定你怎么记得住呢?所以机器能够做到辅助创作,甚至在写到某情节时它会说“这种情节下一般有几种走向”,可能帮你预测读者对走向的喜好。

我知道起点的主编会教作者,“你千万不能让主角死了”,或者“你千万不能让主角改嫁”,这样你的读者就会下降。这部分可以让机器辅助。

骆轶航:机器可以创作最简单的事实和数据类;机器可能会创作一些复杂情节的、有故事性的剧本。

张一鸣:刚才你说统计用户兴趣词组,其实我们可以反观。

骆轶航:我们还在做社交图谱和社交热词的预测,现在都在做。

张一鸣:你可以反观,人脑活动在创造复杂事情时是非常复杂的,这种程度现在机器还是到不了的。

骆轶航:最后两件事,第一,我还得问你两个问题,“今日头条”作为机器学习的工具,现在有 AI 驱动,机器判断人懂什么的阅读工具,它能不能满足你所有的阅读需求?

张一鸣:对我自己而言,头条可能是我非常重要的阅读渠道,但我的信息来源其实还是比较多样的,有些因为是英文内容,中文世界里没有。还有一些非常深的技术文章,机器也不懂。所以我有其它渠道。

骆轶航:过去四年里你敢不敢保证从来都做到了一点,就是你遏制住了你自己看到之后拍大腿觉得“这东西真好,我要让机器把它的权重抬得高一点”,过去四年你是不是一次都没有做过?

张一鸣:我真的一次都没有做过,我经常在上面会看到骂我的。我给你举个例子,原来我们有个同事负责产品,2012 年时三星某一款手机发布了,我突然看到在推荐时推给我了,我说这个造假,说好不会推给我啊,我不是三星的粉丝啊,后来我去查。公司说这个同事改了。

我很生气,找他谈,他说这个事情很重大,是科技界非常重大的事情。但我说,在我来说,这一点都不重要。

骆轶航:找了有编辑思维的人做运营。

张一鸣:所以我非常强调,经常提醒自己也提醒同事,一定不要把我们的喜好偏好放在上面,也不要把公司的 PR、竞争放在上面。如果你很随性的话,你会很爽快,但对用户是很损害的。

骆轶航:而且会干扰机器的判断。

张一鸣:这种事情是你一旦开了头,就会纷纷效仿,公司的风气也会不好。

骆轶航:最后作为一个对内容和媒体很感兴趣的人,你可不可以问我一个问题?

张一鸣:我问你,上次建议你写的书什么时候开始写?

骆轶航:上次建议我写的书是吧……写书对我来说太痛苦了,因为我是拖延症患者。

张一鸣:昨天晚上还没有沟通今天要聊什么。

骆轶航:应该是昨天晚上才沟通的今天要聊什么(笑)。我觉得应该未来两年以内会写吧,因为我确实很想写,先卖个关子,特别不科技的一个事儿,跟人工智能都特别没有关系的事儿,但还是蛮有品的事儿。Ok,谢谢大家的时间,谢谢一鸣。

订阅更多文章