专访“流利说”首席科学家林晖：如何用机器学习帮中国人说好英语-品玩

由于长期“哑巴英语”式的语言教育，大部分以英语为第二语言的中国人一直都有着一个问题，那就是擅长读写，却在不擅长口语。但由于资源有限，不是每一个有英语口语提升需求的人都能得到外教的一对一辅导。针对这个问题，英语流利说的解决方法是利用人工智能技术来帮助中国人提升自己的口语水平。

流利说成立于2012年，到目前这款产品已经获得了约3600万用户。流利说的主要功能是提供文本并让用户跟读，然后系统会根据用户的发音准确度给出评分和建议。流利说App上提供的素材涵盖了从日常对话到留学、面试等诸多场景，因此受到了大量英语学习者的追捧。

但这项根据指定文本跟读的产品并不是这么简单，它背后其实暗藏着流利说想要用机器学习技术帮助中国人整体提升英语水平的野心。

在接受PingWest品玩采访时，流利说首席科学家林晖表示，早在2012年公司刚刚成立时，这家公司就决定要在语言学习中利用机器学习技术。但由于创业公司在数据上的匮乏，而机器学习又需要大量的数据才能被训练得很智能，因此流利说决定先推出以上的跟读功能，收集中国人的口语语音数据。

经过了4年时间以及累计3600万用户的使用，现在流利说已经掌握了大量不同口语水平的中国人说英语的语音数据。而且由于这些语音是跟拟定文本结合在一起的，所以它们是一种带标签的数据，对机器学习系统来说更加宝贵。

根据流利说和新浪教育共同发布的《中国英语口语白皮书》，流利说目前已经收集了广泛的用户学习行为记录和长达2.75亿分钟、31.9亿句之多的庞大录音数据库。

到现在，流利说已经根据这些数据推出了两款服务型产品，分别是懂你英语和雅思流利说。其中懂你英语通过递归神经网络的深度学习模型，让流利说的自适应学习系统产生了自学习能力，让学生不断接触到相关性越来越高的学习内容。

另外，流利说刚刚上线的雅思流利说同样利用了被以上语音数据训练过的人工智能系统，帮助雅思备考生完成成绩评估和备考方案。由于雅思考试口语阶段评判上的主观性，雅思流利说能够准确地理解被测者的语义，从而给出一个相对客观的评分。

在上周PingWest 举办的 HAY!16 大会上，PingWest采访了流利说联合创始人兼首席科学家林晖，他向我们详细解释了流利说这款产品4年间的产品脉络：用工具积累数据，用社区沉淀用户，再用数据打造人工智能的口语学习服务，并实现商业化。

林晖博士毕业于华盛顿大学西雅图分校，曾任 Google 美国总部研究科学家。他也是语音识别、自然语言处理、深度学习及大数据挖掘算法专家，曾在相关领域发表三十余篇国际论文，拥有多项中国及美国专利。

以下是采访实录：

PW：能简单聊一下你的个人经历吗？

林晖：我2006年在华盛顿大学西雅图分校读了一个博士，研究的方向主要是机器学习，理论方面的一些研究，当时做了一些自然语言处理方面的应用。整体来说我从事这个领域大概十几年吧。在那之前我在清华做的也是技术方面的，当时我在电子系。那个时候MSRA也就是现在微软亚洲研究院刚刚建立，当时我还没有想好说是去工作还是出国，所以读了硕士，并且读硕期间正好有个机会在微软亚洲研究院实习了半年。

我觉得MSRA这段经历对我影响挺大的。那时候它其实是有一些比较前沿的，尖端的一些技术的研发，你可以看到今天AI火起来以后，大概有一大半的人之前都在MSRA呆过。他们那时候做的东西就是跟AI相关的，我那时候去做的也是做跟语音识别相关的东西。

那段经历让我感觉就是，做一些比较新的技术，比较前沿的技术的研究其实是很有意思的。所以在那之后，我决定去国外读一个博士。当然当时做出这个选择的一个原因是说：我觉得我在技术上、工程上没什么问题，但是这种比较深入的技术，比如说机器学习我希望我再深造，再了解得更多。所以我去美国读了一个博士，博士的方向也是比较偏机器学习理论的研究，比较偏理论的东西。

在那个时候我就觉得，首先我对这种新的事物，未知的一些有很强的好奇心，我希望去探索、开拓一些方法。另外我希望自己做的事情是真的能够不停留于理论，不止于发一些论文，而是有一些真正产生实际的价值，影响人们的生活，这就是我为什么会积极的去工业界实习的原因。

在我博士期间我去了Google实习。Google给我的印象非常深刻，它不同于其他之前所有的大公司的研究机构，它的研究和生产是结合的非常紧密的，就跟产品和业务是紧密在一起的，它的科学家都是在产品组里面，都是跟业务组在一起的。你做的事情，做出来了，能够直接影响到百万千万的用户。

当时我觉得是挺有意思的，因为我在微软亚洲研究院实习的时候做的是做与语音相关的东西，那时候我觉得语音识别还不成熟，而且效果也不好。但那时候Google做了一个产品叫 Voice Search（语音搜索），我用了就觉得非常惊艳，它真的解决了我一些问题。就是有时候不方便的时候，我要在手机上搜索，就直接用语音搜索，而且非常准，我觉得很有意思。

PW：那是什么时候？

林晖：那个时候是2010年、2011年，Voice Search其实出来蛮早的。但是Google有这个优势是什么？就是说它能够通过文本的search query（搜索语句），来更好的判断人们说的什么。因为基本上大家搜索的意图是差不多的，无非是不同的形式，用语音还是文本搜索。但是Google之前集约了很多文本搜索的查询的基础。

Google推动 Voice Search的策略对我们现在做流利说其实也很有帮助的，就是说怎么样去冷启动一个与人工智能相关的东西。当时Google做的是一个叫411的项目，就是通过用户去打一个电话，然后查询一个地名。看起来这个项目比较平淡，但是它其实是在做搜集数据的作用。

因为在美国那时候电话查询还是比较常见，所以通过这个项目，它积累了很多的数据，也就是语音对应的文字的数据。

流利说其实也是这样一个策略，我们一开始想解决的问题是什么？用户开口的问题，就是说哑巴英语，中国人学这么多年都是哑巴英语，那我们希望给口语做一个评测，做一个评分。本质上我们想做的可能更多的是识别你说什么。

但是我们一开始没数据，作为一个创业公司，我们那时候就三个人，那时候一开始做的时候也并没有去融资。

PW：哪一年开始做的？

林晖：我们2012年9月开始做。那时候移动互联网刚起来，反正这个具体故事也可以再聊，但是我现在先集中在数据这一块。

一开始其实我们其实是没有数据的，所以怎么可能做一个语音识别的东西呢？后来其实这里有一个蛮巧妙的地方，就是我们通过先launch一个产品，这个产品可以帮你搜集数据，同时又解决了用户一些其他的问题，这个事情就是语音的评分，跟读评分这件事情。

跟读评分比语音识别会简单是因为什么？因为它的文本是给我们自己的，你只要照着读，你其实不需要识别出他具体说了什么，你只要看他说的跟那个预设的文本要说的是不是一样就行了。具体不是语音的波形比对，但是从原理上确实有点像。它的复杂度没有像语音识别那么复杂，因为语音识别的不确定性更大，我怎么知道你要说什么，天马行空都可能。但是跟读比较限定，就是说我知道你其实应该读这一句话的，如果你乱说，我给你一个低分就完了，我其实不需要知道你乱说了什么。

当然我们当时采用的就是利用一些开源的数据，来先做一些冷启动。因为它本身这个任务挑战没有这么大，我们能够把这个产品放出去，而且有还不错的体验。这样的话，当你这个技术真正落地，就会有很多人来用。在用这个的过程中，其实是给你提供了大量的数据，所以你用户越来越多，你的数据也会越来越多，这个数据可以反过来提升你的智能。

回到我们一开始想做的，比如说我要识别你说了什么内容的这件事情上，这批数据其实就是能够为语音识别提供它的训练数据。在这里面其实有一个点，一般的不是做这个领域的人可能不太清楚，就是说光有录音数据其实没有用，你有大量的录音数据其实没用的，如果你不知道那个录音对应的文字是什么，其实是没有用的。

PW：这是一个很聪明的方法。

林晖：对，就是通过这种游戏化的方式，这种用户产品的方式，积累了大量带有文字标注录音这个事情，这个我觉得是今天我们推出的这个产品，已经是往后的一个基石，我积累了大量这样代标注的录音数据，它是覆盖了相当于基本所有中国人可能的水平，所有可能的水平阶段。

PW：你们的免费用户有多少？

林晖：现在最新的数字是3600万。

PW：所以这四年，加上几千万用户其实可以积累很大量的数据。

林晖：对，非常大的一个量。这批数据的价值其实非常非常大的，就先别说语音识别这件事情，你想想这批数据覆盖了基本上所有地方，我们现在基本上所有省、各个城市都覆盖了，这些语料，无论你是做语音识别还是做语言学的研究，都很有用。

当然我们现在只是用了它语音识别这一块的用处，因为它有文字的标注。再结合深度学习这件事情，我需要非常大的数据，再用深度的模型，我们就能够做出一个非常准确的语音识别的引擎来。当然这个语音识别的引擎是专门为中国人打造的。它是最能听懂中国人说英语这件事情的，因为我们的数据都是中国人的。

这个其实蛮有意思的，其他的大公司，比如说Google和苹果，他们也做英文的语音识别，但是它不是针对中国人做的，这是一个差异化，我们能够做得更垂直，比他们做得更深的地方。Google不会特定地为中国人，尤其是中国学英语的人来做这个。我们也跟Google去比较，因为他们的语音识别的功能是开放出来的。我们可以去做一个side by side的比较。直接拿过来，我们找一些我们知道正确答案的录音，然后来让这个机器识别，看看谁识别的比较准确，做了一个准确性的比较。

结果我们跟所有可能国外的，包括国内的，比如讯飞进行对比。我们发现在中国人说英语语音识别这件事情上我们是远远超过世界上所有其他公司的。这一点其实是今天我们能够在雅思流利说上做出一些别人没有东西的基石。

流利说是做一个从0到1的事情，我们是把一个技术真的推向用户，推向产品，去给他们做一个改变。创业一年多以后，我们再去听这些用户的录音，我觉得很欣慰的是，有些用的比较长时间的用户的录音水平提升非常多，很多用户真的是完全不一样了，我们有很多这样的例子。

PW：中间是一个什么样的阶段呢？因为刚才你说在技术上可能就是获取语音以及它标注的文字的数据，那个中间可能是做了一个什么样的规划，才让它达到这个点？

林晖：刚才说的那个是英语流利说里面解决的一个问题，它用游戏化的机制，用社区的方式。我们也有社区，把语言学习也件事情变得让大家更愿意参与，更愿意开口。就是说语言学习这件事情说白了，80%还是要靠练，你不练这个东西，它不是一个知识，你不练这个东西你是掌握不了的。

如果我们让大家开口，通过排行榜，通过游戏化的机制，通过社交的机制让你开口，然后给你反馈，然后你只要练的多了，自然会有提升。

当然后来我们觉得，发音只是语言的一部分，用户可能很多需求是提升，整体系统的提升他的语言的能力，这也是为什么我们后来推出了一个叫“懂你英语”的产品。

PW：懂你英语是一个什么样的产品？

林晖：它是今年7月发布的，但是研发其实时间挺长的。我们一开始想的是通过这种碎片化的内容，就是比较轻量级的。当然这也是我们的一个特点，就是说你用户因为这个进来了，流量有了，但是其实里面有很多用户其实是有这种诉求是说，我希望比较系统的提升我的英语能力，而不是只练发音。

这就是为什么懂你存在。懂你是不管你水平怎么样，先进来给你做个定级测试，你的英语水平是一级还是二级还是三级。

PW：那个级别是统一的标准，还是你们自己定的？

林晖：我们跟欧标是匹配的，就是相当于我们有一个严格的匹配。我们现在大概分了七个还是八个级别，八个级别，每个级别都对应欧标的比如说A1、A2、B1、B2这种，这个我们做了对应表，这个做了严格的对应。这个课程在全方位的帮你提升英语水平，不单是发音。

PW：所以其实你们是从2012年到今年主要做的事情是积累数据，加来做这些具体的产品。

林晖：对，整个脉络就是工具、社区，现在开始做服务。一开始是工具。

PW：工具、社区就是用来搜集数据的。

林晖：对，在这个过程中我们搜集了非常多的数据，技术其实也在演进。产品和商业模式也在演进，产品的进化的路径就是工具。我们先用一个工具的方式切入，人来了，他要练发音，练口语，进来了，怎么绑住他们？社区。怎么样变现？那就是服务，其实是这个脉络。但是技术上是从跟读再到识别，再到这种，除了发音以外所有纬度的评测。

其实懂你英语里面还有我们核心技术的另外一块，就是所谓的自适应的学习的部分。就相当于你可以认为之前的识别是听觉，评测也是听觉，感知，但是人工智能需要认知和决策。你到这个教学里面的话，它就是要能够懂你，为什么叫懂你英语。懂你英语不单是能听懂你，它要知道你的知识点的缺陷，你的各种能力，你的技能都掌握到什么程度，它要懂你这个内容，和内容能够帮你提升什么。

有了这些以后，那它的另外一个技能就是它做决策，怎么样一个方式来教你是能够最适合你的，最能帮助你提升你的水平的。这里面是我们叫自适应学习的技术。它也用到了深度学习的一些进展。

PW：能不能大概讲一下这个自适应是怎么样运作的，以及它达到的目的。

林晖：现在在线教育这一块，自适应其实还蛮火的，大家都在说做自适应。它本质上要解决的问题就是千人千面，个性化教学，因材施教。每个人的学习路径是不一样的，那怎么做到这一点？自适应是这么做的，建立一个知识图谱，把内容和学生关联起来，就是通用做法。其实也不难理解，一句话来说就是缺啥补啥。我要知道我这一块内容是补啥的，我要知道你缺啥，那我就给你什么内容，这是最简单的一个解释，其实比这更复杂，但是基本的思路是这样的，缺啥补啥。

但我们的自适应学习系统是没有做知识图谱的。一个学英语的人，他会说英语，他可能真的不知道什么语法，他可能不知道什么是定冠词，什么是不定冠词，这个东西其实不确定。

另外更大的原因是说，你有了这个知识体系以后，你还得把你的内容挂上去，这件事情是非常繁琐的。你想象，比如说如果你有一千个知识点，你要更细的话一万个，甚至十万个知识点，你要把你的内容都跟这个做对应，这个工作量大，比你编写这个教材的工作量要大得多得多。这件事情其实我们觉得不太靠谱。

所以我们决定还是用以前的思路，也就是数据加深度学习。如果我们能够有不断的数据进来，我们再结合深度学习技术，是不是能够来解决这个问题，那其实你想想，知识点的作用是什么呢？它其实就是解决了一个把学生和内容关联起来这件事情，缺啥补啥。

机器要知道这种关联性，需要大量的数据，这个我觉得OK呀，我们产品上线，用户在用，所以数据就源源不断进来。

这个数据是什么？这个数据其实是我觉得互联网产品最神奇的地方。比如说Google的搜索，它的数据其实也是源源不断来的，但是这个数据很有价值，因为它来自用户点击。用户的点击行为就能够教到机器说用户喜欢什么，这个我们在术语叫做带标签的数据。

到我们这个场景里面，其实也是很有意思说，我们这批数据也是带标签的，是什么？学生答题的数据。他答题的对错我们是知道的，学生答题的行为，答题的对错，这些数据就是你说的这种另一种形式的数据，另一个框架内的数据。

而且我们也发现，随着产品的上线，用户数据越来越多，我们的预测是越来越准的，这个准度怎么衡量？就是我们的AI能够预测一个学生答题的对错。现在比如我题库里面有一万道题，你做了大概100道题以后，我基本上能够以超过90%的准确率，预测你其他9900道题里面，你虽然没做，但是我能知道以你现在的水平做对还是做错。

我们看到，随着我的用户进来的数据越来越多，我这个预测准确性也是在不断攀升的，就是说这个智能是在不断进化的。

PW：后来加入你们的那个语言学家Lance Knowles博士主要负责什么工作？

林晖：他跟我们合作的一个原因就是，他试用了英语流利说后觉得我们上的语音评分是他用过的世界上最好的。他看到我们的技术就非常想跟我们合作，他现在是我们的一个顾问。我们结合他的理念和我们的技术，想把把懂你英语的模式发挥得淋漓尽致。其实现在用户用下来的感觉就是，一开始可能有些不习惯，但是其实慢慢发现，这真的是管用的，我觉得效果才是核心。

PW：你们还推出了一个“雅思流利说”的付费产品，这个产品背后是用的什么技术呢？

林晖：雅思这件事情其实是沿着我们整个技术脉络的一个自然的产品。我们希望用AI的技术，让教育，比如说语言学习这件事情更高效，把它的效率提升。那么你要做到效率提升这件事情，首先得把学习的过程数字化、量化。到语言学习这一块，前面很重要的就是，对这种口语能力评判的一个数字化，一个量化，这就是很自然的一个技术重点。

后面的自适应是在你做了数字化、量化以后，怎么样去优化它的效率，怎么样去编排你的内容，怎么样选择这个策略，相当于决策的过程。前面这部分语音评测、语音评价，相当于是感知的部分。这整个技术的脉络是这样的。

当我们把感知这一块做得足够好的时候，其实很自然的出来的产品就是雅思流利说，我们能够给考雅思的用户，考生，提供一定的价值，能够帮他们解决像刚才之前跟你聊的那些痛点，就是模考难，想得到反馈难，周期长且贵。我们用这样的技术来解决这样的问题。

这里面从技术上来看，脉络上其实跟我们原来想的是一致的，这是一个自然的产品出来。像之前说的，比如说从跟读里面积累语音识别的语料，最能听懂中国人说英语的识别引擎，都是这个基石。而在这之上做一些自然语言处理，自然语言理解的技术，给出反馈。这部分我们觉得是很还蛮有意义，蛮有价值的。

PW：能不能讲一下模拟雅思考试的整个评判过程？

林晖：雅思的口语考试呢，是现在公认的能够比较客观、比较全面地衡量一个人口语水平的考试，它是一个真人考试，一个考生进来，你是面对一个真人考官，真人考官会问你问题，你根据他问的问题去回答。是一个真正的语言交流的过程，考察的是你的语言的使用能力。

这里面对于雅思考生来说，他其实很难去做一个模拟，是因为他需要真人，你需要有这样评分能力的老师，这样的老师毕竟少。所以雅思流利说就是从这个角度切入，我们提供这样一个模考成绩，并且给你一个评分的报告，这个报告首先够精准，第二个它能够给你一些具体的建议和反馈所以我们在做雅思流利说关注的技术上的指标其实有好几个，第一个是评分的一致性，评分是否足够精准跟你去真的雅思拿到的分数一样的。

而这个是怎么来做的？这里面我也觉得是AI能够做得比较好的地方，就是AI比较客观。人难免主观，人难免会有误差，会犯错。尤其是对于这种没有标准答案的测试。你写个作文，满分就还是比较主观的东西，你让人去改，虽然有一定的雅思评分标准，但是人去改的时候，难免会有一些主观，会有一些误差。

那我们的AI跟雅思考官判定的分数的一致性达到了95.6%，就是已经超过了雅思官方公布的这么一个一致性的数字，这个是我们觉得机器能够做得更好的地方，它更客观，它不会受你个人情绪波动的影响，不会受你状态的影响，

第二块的话，就像之前也提到的，评分这件事情有用，但是还不够。考生肯定希望我怎么提高分数，哪里有问题，而这个时候是反馈的技术起到作用。反馈的技术就是基于之前说的，最能听懂中国人英语识别这一块，我把你的声音，即使你说的比较烂，比较有口音或者怎么样，它能够精准的转成文字。根据这个文字来给你发音以外的反馈。

PW：语义理解的话，可能机器懂你说的话是什么意思，它怎么把这个意思跟题目结合起来呢？

林晖：这就是语义理解的一些关键的东西。比如说今天我们一个话题是聊城市的，如果你聊一本书，那就是偏题了。就是从语义的角度来说，AI会知道，首先你题目是关于城市的，它能够把这个，这就是所谓的语义，我对语义的理解，理解了你这个题目是讲城市的，你的答案我都检测出来，如果你讲的是书，这就是偏题。

PW：现在你们已经做了懂你英语和雅思流利说两个产品或者是服务，以后还会有哪些打算呢？

林晖：至于后续，我觉得肯定有很多想象空间，就像当时的流利说一样，我们以一个产品技术的方式工具切入，再往后面，无论是直接切服务，直接切交易，还是说一个什么样的例子，可能性都比较多。但是我觉得我们的一个优势就是说，我们能够把产品和技术结合的比较好，切入到一个用户的痛点，解决用户的一些问题。

后面的话，肯定有很多可能性，就比如雅思这块，我们很多变现方式。如果今天比如全年50万雅思考生，一半的人都用我们这个来备考，那你可以想象背后的价值。

PW：现在付费用户有多少？

林晖：我们的雅思流利说今天刚上线，所以这个没法统计。但是懂你英语是7月份上线的，现在这一块的数字我们是不具体公布的，但是可以透露的就是说，增长非常好，每个月的增长速度是30%。我们现在非常有信心就是我们的商业模式是非常健康的，这一块我们非常有信心，在合适的时候我们会把这个数字公布出来。