《最强大脑》上演语音识别人机大战，11 岁听音神童勉强为人类保持了一点尊严-品玩

“中国电视史上首次人机对战”已经进行到了第二期。第一期人类最强大脑选手在跨年龄辨人（图像识别领域）被人工智能百度大脑战胜，百度首席科学家吴恩达率队坐镇，百度大脑代表“小度”以 3：2 的比分险胜人类选手王峰，而后者是《最强大脑》名人堂轮值主席、世界记忆大师。

而在 2017 年 1 月 13 日晚播出的《最强大脑》第二期中，百度人工智能代表“小度”向人类选手发出了第二次进攻——在声音识别领域向孙亦廷挑战，而后者也是最强大脑的选手，被称为听音神童。

网络上关于他的信息更多。两岁时，孙亦廷父亲随手弹了钢琴几个音，连“爸爸”、“妈妈”都很少叫出声的孙亦廷突然开口，准确无误地报出音符名称......

四岁时，孙亦廷在幼儿园中所听过一遍的歌曲，他一番摸索后便能用钢琴弹出来，而当时的他，几乎没有任何钢琴基础。父母发现了孙亦廷在声音上的天赋，让孙亦廷开始学习音乐，练就了他的绝对音感。

孙亦廷与最强大脑的联系是在去年——在最强大脑之前的一次挑战项目中，他可以通过水球坠地破碎的声音判断其 0 - 86 米的落下高度......吓坏嘉宾以及选手。

不过这次比拼中百度大脑并没有战胜人类，只能说是战平，三轮比拼，双方各胜一场，一场战平。对于看过 Alpha Go 暴虐人类棋手的吃瓜群众来说，这结果还是有点落差的。

那么，在声音识别领域人类和人工智能各有什么差异，人类选手和人工智能在识别过程中都存在什么样的优劣势？PingWest 品玩也带着这些问题采访了百度深度学习实验室主任林元庆。

最强大脑选手惊呼“这也太变态了”

节目录制刚开始，孙亦廷小朋友被叫上台和主持人有一个简短的对话。“我的耳朵又厉害了，提高了”、“王叔叔（另外一位最强大脑选手）也在现场看我”、“想要刘国梁的球拍”。孙亦廷就是普通的小朋友，这和节目组只在视频中渲染的感觉不同，我把他和脑王之类词的也完全联系不在一起，他看起来还不会很讲话，毕竟也只有 11 岁，很纯朴的那种小孩。

但现场所有百度人的表情并不轻松，百度的人和我说“听说这小孩从来没有败过，我们也没底。”

这场人机对决比拼的是声音识别，孙亦廷和“小度”先盲听到三位歌手的声音（通过朗读一段话），然后在 20 多位选手同时唱歌的歌手里选出这三位歌手。这次只有一个类型的比拼，但实际上相当于有三次比赛：

嘉宾周杰伦先从 20 多位歌者中挑选出三位讲话接近、听起来很普通的歌唱选手，当选定这些选手后，他们会被幕布遮盖然后念出一段话，这段话还会被切断一些音节传递给选手，就会变成了一些单词“忍者”、“不能”、“秘密”等等，“小度”以及孙亦廷需要记住这些词的声音。

20 多位歌手同时唱歌，声音都会分别被身前的话筒采集，人类选手孙亦廷可以通过点击面前的序列号放大这个序号话筒采集过来的音频信号做出判断，“小度”机器人在现场的屏幕则会显示出音波扫描的图形，代表它正在判断。

百度语音技术部总监高亮告诉我，难点在于这些歌手平时说话与念出一段话以及唱歌时的声音表现都有所不同。嘉宾陶晶莹认为，合唱团的唱法也会和个人独唱所有不同，重点是你的声音在合唱团里不能表现得太特别。

这些话筒虽然采用了单独提取声音的方式，但当选手开始唱歌时，话筒与话筒之间的声音提取其实还有微弱的干扰影响。比如 5 号歌手的声音太大，进入到了 4 号选手的话筒里。现场还有 20 多位歌手一起唱歌。

第一轮比拼中，正确结果是 2 号，“小度”选择了 3 号，孙亦廷也选了 3 号；双方错。
第二轮比拼中，正确结果是 11 号，“小度”选择了 20 号，孙亦廷选了 11 号；人类胜。
第三轮比拼中，正确结果是 21 号，“小度”选择了 21 号，孙亦廷选了 1 号；“小度”胜。最后三轮比拼结果是 1：1 平。

Mic 问题、打印机问题，百度团队哭了......现场状况有点多

事实上，现场观看这场比赛要比电视机前显得“提心吊胆”的多。

百度人工智能代表“小度”现场通过音频线提取歌手声音，这和人类选手听到的声音信号一致。当与最初听到的歌手说话的声音判断完成后，小度会通过现场连接的一台打印机输出选手的编号。

在录制现场竟还一度出现了打印机不能打印的情况，最后还是需要人类工程师去重启打印机......

嘉宾认为在声音提取以及存储方面机器要明显优于人类，比如孙亦廷在选择各个选手的声音听音的时候，人类记忆能力不如机器人，需要更多的时间需要循环去确认，所以节目组和嘉宾以及百度方同意会给人类选手更多的时间去循环确认所听到的声音。

现场情况还挺多，比如孙亦廷一开始说自己听不到声音，后来经过现场调试才重新开始，“小度”机器人在旁边属于没人理的状态，面部的显示屏一直是“眨眼的小眼神”，后来又给人类选手追加了更多时间......百度市场部的人对我说这段过程他们捏了好几把汗，他们很紧张，还会“怀疑机器人的电源是不是插好了”、“现场这么乱会不会有干扰”......

嘉宾质疑节目组的情况同样存在。在人类选手和机器输出了同样的答案、但两者皆错的前提下，以 Dr.魏为代表的嘉宾团对节目组发出质疑，要求确认是否存在后台音频连接线错误的情况，这时候人和机器代表竟然团结在了一起。

百度似乎很重视这次比拼。百度在现场准备了十人左右的工程师+科学家队伍，有负责机器学习训练框架的，有负责模型迭代的，有负责数据准备和清洗的。现场的模型开发一直在迭代过程当中，他们说如果给他们更多的时间，他们的模型精度还会更高。

百度深度学习实验室主任林元庆忙到没时间接受我的采访，他告诉我——当宣布结果为平之后，百度工程师和科学家团队对于打平这个结果是很失望，团队里面很多同学都哭了。

语音识别背后的技术原理

人和机器的声音识别采用了不同的方式，在技术的角度看人的一些优势、人如何辨别声音和机器是有所不同的。

比如人耳辨别声音的特征主要是通过声调高低，声音粗细等频率特征来判断。这些特征都是人可以理解的。林元庆告诉 PingWest 品玩——机器在对语音信号进行特征提取的时候，我们会有一个 20ms 左右的时间窗，在这个时间窗内我们认为语音信号是平稳的。然后以这个窗为单位在语音信号上进行滑动，每一个时间窗都可以提取出一个能够表征这个时间窗内信号的特征，从而就得到了语音信号的特征序列。这个特征序列是无法直接理解的，但是包含了语音，说话人特征，语气等维度。这次的比赛，我们主要关心的说话人特征的纬度，所以我们会单独把这个特征提取出来做比对。

综合嘉宾以及百度技术人员的说法——声纹识别和语音识别技术又不太相同，语音识别是识别所说出的话，声纹识别则是用来确定说话人的身份。

如果把声纹处理的过程类比到这次比赛中，主要包括声纹注册和声纹识别阶段：在声纹注册阶段，每个可能的用户都会录制足够的语音然后进行说话人特征的提取，从而形成声纹模型库。通俗来说，这个模型库就类似于字典，所有可能的字都会在该字典中被收录。

在声纹测试阶段，测试者也会录制一定的语音，然后进行说话人特征提取，提取完成后，就会与声纹模型库中的所有注册者进行相似度计算。相似度最高的注册者即为机器认为的测试者身份。

在实际比赛中，这样的两个阶段就被拆解为：

大合唱阶段，即可以对比成声纹注册阶段，我们通过收集每个合唱队员的唱歌语音，然后得到能够表征该合唱队员的说话人特征，从而构建好 21 个合唱队员的声纹模型库。

被选定的三位歌手在与周杰伦进行对话的阶段，机器和人截获到的断断续续的语音，即可以看成是歌手的测试语音，通过提取该测试语音的说话人特征，然后与模型库中的 21 个合唱队员依次进行相似度计算，相似度最高的合唱队员即为机器认为的歌手真是身份。

值得一提的是，机器可以对采集到的语音进行录制，不存在记忆消失的问题，而人由于只能依靠记忆来完成对语音特征的存储。因此，机器在面临先听 21 个人合唱还是先听 3 个歌手说话上是一样的，而人类则不同，在比赛中，人类先听歌手说话，意味着人类只需要记住 3 个歌手的说话特征，然后在从 21 个合唱队员中找出与这 3 个人相似的声音。

为什么声纹对比对机器很难？百度团队针对节目比拼也给 PingWest 品玩作了一些技术解读。

难度一：泛化能力。
目前机器学习算法大多采用数据驱动的方法，什么是数据驱动呢？简单来说，就是“你给了机器什么样的数据，机器以后就只认识这样的数据。”而在面对与学习时不一样的数据时，机器则往往会存在识别障碍。衡量一个机器学习算法好坏的一个重要指标，就是机器能够处理学习时没有遇见过的样本的能力，这种能力被称之为”泛化能力”。
例如，如果我们让机器学习识别狗时，用的学习样本都是成年的阿拉斯加，那么算法在遇到泰迪时，就会极有可能告诉你泰迪不是一只狗。在声纹识别中我们也会面临着同样的问题，传统的声纹识别任务都是注册和测试都是非常匹配的，即注册采用正常说话，测试也是正常说话。
而在本次比赛中，注册的语音则变成了唱歌，测试的才是正常说话。因此，我们需要让我们的模型能够学到同一个人在唱歌和说话时的差异。这对声纹识别算法的泛化能力提出了更高的要求。
难度二：注册语音的趋同效应
一般而言，正常人说话时的声音特征是具有明显的差异的。而本次节目采用的大合唱形式能显著的降低了不同人的差异性。由于合唱的要求大家的声音能像一个人那样的整齐，因此不同的合唱队员的唱歌样本就会有趋同效应，大家会刻意的通过改变发音习惯等来使得合唱的效果更好。这就好比分类难度从猫和狗的识别变成了阿拉斯加和哈士奇的区别。二者的难度有明显的差异。并且，合唱的内容有长时间的语气词内容，更进步增加了注册语音的混淆程度。
难度三：线人测试声音的断断续续
由于人在发音时，存在协同发音的效应，即前后相连的语音总是彼此影响，后面说的内容会受前面说的内容的影响。而这些特性会被机器已数据驱动的方式学习到模型中，而在面临断断续续的语音时，特定说话人的一些发音习惯就有很大可能被损坏掉，从而加大了说话人特征提取表征的难度。
难度四：线人测试声音时长过短
由于目前的机器学习的算法要能够有效的表征出一段语音能够表示的说话人信息，那么这段语音必须要有足够长。否则，语音过短，提取出来的特征不足以有效的表征该说话人的信息，就会导致系统性能出现严重下降。这就是声纹识别领域中的短时语音声纹验证难题。在实际测试中，线人说话的声音过短，不超过10个字，有效时间长短也小于3s。这就给我们的算法带来了极大的难度，我们需要更为鲁棒的来提取出短时的、断断续续的线人说话声音所能够表征的线人特性。

Master 和百度大脑有偶然性么？

前有 Master 横扫世界围棋冠军，后有百度大脑对战最强大脑。不过林元庆的观点是他认为棋类都是在有限空间搜索的问题，识别包括了一些模糊推理的能力。

实际上，在比赛录制期间 DeepMind Master 还并没有出现在公众视野，在百度人工智能公布第一期的录制结果前后，Master 突然现身再次引爆了 AI 舆论。百度面对这个问题时谈到——在大家对人工智能更关注的档口，百度能够有自己的方式来呈现我们人工智能的技术，实际上是更好的时机。