人工智能领域的“刷分”该结束了

对于那些在人工智能领域的一些跑分测试上「刷分」的公司来说,到了算总账的时候了。

从 2014 年开始,人工智能领域突然成为了基于科研能力的科技初创公司和大公司竞相发力的热门领域。国内外各公司频繁发布图像、语音识别等相关人工智能领域的研究成果和学术论文。以百度为首,以及另外一群华裔教授离职创业的初创公司为主力军的公司对这口尤为喜爱,他们的 paper 发的特别多,在 ImageNet、LFW 或者其他图像和语音识别题库上,个个都奔着 100% 的正确率飞速进发。

百度无疑是当中成绩最卓越的那一家。百度深度学习研究院(IDL)在人脸识 LFW 数据库的测试中取得了 99.62% 准确率,比第二名 Facebook 的成绩高出了整整 2%,甚至比斯坦福大学用真人来做比对测试的成绩 99.2% 还要高;上个月中旬又有新的好消息传出:ImageNet 图像识别测试的错误率低至 4.58%——依旧比第二名的 Google,以及真人练习测试的成绩都高;更早前,百度首席科学家 Andrew Ng 亲自带队发布了自研的语音识别系统 Deep Speech 的成绩论文,号称远超 Google 和苹果等对手的系统。

接着,连一个月不到,百度在 ImageNet 上作弊的消息就传出来了。

先不谈作弊事件本身。借助一些识别类题库的规则打擦边球,提高自己的成绩,已经不是第一次了。在这些具体事例背后,我们看到的是一个频繁发 paper 在学界刷存在感,急于给自己打上人工智能标签的百度。

作为国内可能是首个开始关注人工智能行业刷分乱象的大众媒体记者,几个月以前我明确报道过以下这些情况:

1)人工智能领域刷分的情况已经太过严重

强调技术牵头人/团队创始人是海归大师学术泰斗,强调天使或 pre-A 就获得世界知名基金数千万美元投资,经常出席各类场合陈词滥调人工智能,千篇一律预测人工智能发展未来——这恐怕是整个互联网创业圈的通病。人工智能公司怎样证明自己?在没有足够简单,足够黑科技,能被大众理解的产品出现之前,刷分是最好的方法。分数高,就是厉害——饱受应试教育摧残的中国人一定明白这个道理。

人工智能公司为什么要通过刷分的方式证明自己,逻辑其实也很好理解:对于大公司来说,招聘了世界顶级的研究人才,在公司上下 99% 的其他员工不理解的方向上做着研究,花费着公司主营业务收入赋予的大量研究经费,就算没有特别能应用到核心产品里的结果产出,到了年底总得交点 KPI 上来吧?对于初创公司来说,产品无论卖给 B 端还是 C 端用户,人工智能根本就是个 to VC 的行业,是资本密集型产业,总得让做出点成绩让 VC 老爷们看吧?

2)在学术的测试上跑出过高的分数,对于实际商业化和应用到生活当中并无太多意义

刷分就像应试教育,大家都以为谁分数高就一定厉害。然而,对人工智能领域刷分乱象解释地最好的一句话就是:不看广告看疗效。商业化对于人工智能的研究尤为重要,直接决定了重金投入的研究到底有没有实质性的作用。没有商业化的产品落地,没有得到比实验室测试数据量更大的大规模用户数据的填充和反哺,就根本说明不了一颗人工智能的大脑有多聪明。

我曾经采访过的一位人工智能研究者对我讲出了真话:现阶段聪明的人工智能差异根本不在于多会思考,大家的「智能」水平都差不多。更聪明的大脑单纯只是有更多的数据,也就是知识储备。博览群书的人大多出口成章下笔如有神,这个逻辑其实放在人工智能领域一样有效。

人脸识别技术公司 Face++曾经做过一个实验:专门架设了一个新的针对 LFW(人脸识别题库)优化的深度学习模型,在 LFW 里得到 99.5% 准确率,然后拿去一个样本量更多的实际场景测试集里,得到的成绩连万分之一误识率 70% 通过率都不到。LFW 的样本量是 6000 个,想要取得更高成绩的直接方法就是熟记题库然后做优化,这就是大部分公司刷分的公司分数越来越高的最直接原因。

bank

这个高分有没有用?在现实情况中,样本量根本不是 6000 个,假如支付宝钱包使用的是这个跑分超高的人脸验证系统,需要识别的量达到三个亿,刚才那个万分之一误识率 70% 通过率的成绩,就意味着一万个人里面至少有 1 个会被认错,而所有认对的人里面还有 30% 无法通过——意思就是说,一万个登陆支付宝钱包的用户里面就会有一个人被认成另外的人,登陆到错误的账号里;而其他里面高达 30% 比例的用户无法登陆,因为系统根本识别不了他们到底是对是错。如果这个跑分超高的系统被实装,结果就是严重(1/10k)的安全隐患+严重的用户体验降低。

所以你问我跑分有意义吗?对于学界之外的大部分人来说,根本没有任何意义。

3)更何况还是在作弊的前提下跑出这个分数。

根据组织方的记录,百度在过去的 6 个月内通过 30 个账号提交了大约 200 次测试结果,仅在 3 月份的 5 天里就突击提交了逾 40 次测试结果。而根据 ImageNet 的官方规则,测试参与者每周只能向测试服务器提交 2 次结果。这意味着,百度在 6 个月的时间里,比制定的最高可参与次数多了 150 次之多。想象一下:如果让你知道高考的固定题目,然后再半个学期里多参加 150 次考试,拿个 749 分岂不是比踩死一只蚂蚁还容易?

半年前,百度使用自研的 Deep Speech 双向循环神经网络语音识别系统达到了非常低的识别错误率。由于论文中 Deep Speech 被研究者和苹果的听写系统、必应的对话系统以及 Google 的语音 API 拿来作对比,Deep Speech 错误率比前面几个不知道低到哪去了。这使得当时一部分国外媒体给出了百度语音识别准确度远超 Google 苹果的标题或小标题。

speech1

然而,Google 和苹果的语音 API 已经在很长时间内实现了商业化,而用户进行语音搜索和识别的时候往往通过移动互联网进行,带有特定的实际工作和生活目的去进行搜索,所以和准确率相比显然要对搜索的实时率进行优化;而 Deep Speech 是一个无计算资源限制、面向识别准确率调优的研究系统,和有高度限制,要求解码效率的商业系统,根本不具备可比性。学术不像学术,商业不像商业。更别提,这篇论文并未发布在语音识别的版块里,从学术的角度上无法被认作是语音识别方面的技术进展。


后话:

刚一听闻「百度为人工智能测试违规道歉」的消息,我的感觉不是愤怒或者暗爽,而是悲伤。基于我对百度并不全面的了解,相比交互方面的研究,语音和图像识别的研究在大百度和 IDL 内部不是被投以最高重视的方向。和投产相比,识别方向的人工智能在百度更重要的作用恐怕是每年刷刷 paper,交交 KPI。百度的人工智能研究能力不应该被质疑。事实上,百度可能是国内在这方面投入最大,取得的真实成绩最好,最有希望将相关技术商业化的所有公司当中,最耀眼的那个明星。它是中国公司,跳出商业的范畴,已经在一定意义上成为了中国人工智能研究的明星,是中国人工智能实力的代表。而百度现在就像一个被宠坏的孩子一样,急于让世界承认自己。你问我刷分是错吗?我不认为这错了,我只是单纯的认为,选择了刷分,其实就是自己放弃了让世界用正确的姿势认识百度实力,甚至是中国实力的机会。

和智能手机计算性能一样,人工智能领域因为缺乏更多客观的差异性,也已经沦为刷分的重灾区。百度不是第一家这样做的公司,也绝对不会是最后一家。从商业角度,用刷分成绩来面对 VC 和上级是可耻的行为;从大众的角度,刷分的行为对普通民众对人工智能发展程度的理解造成了严重的迷惑。更何况,对于学界来说,刷分也是最不负学术责任的莽撞行为。Either way,刷分的行为应该被严令禁止,「刷」分得来的成绩应该被 VC、研究单位上级和大众当做废纸,就这样。

订阅更多文章