深度学习+异构计算,让你的手机不联网就能识别图像和语音

基于云计算的数据处理已经、并且越来越多地给我们的生活带来便利之处,尤其是当我们手中的硬件运算能力不足时。比如,著名的笔记服务Evernote,就是通过在云端将OCR(光学字符识别)技术和搜索相结合,来达到更快的搜索结果和更高的识别率;在亚马逊刚刚推出的Fire Phone中搭载的FireFly技术,也是采用了类似的处理方式:把手机摄像头拍摄得到的结果上传到云端处理,再将分析结果返回给用户的手机;被Google收购的“镜像翻译机”Word Lens也是如此。

这种“端-云-端”的方式,让我们可以不受限于手头上设备运算的限制,只要能够发生网络交互,云端可以完成大量运算。

现在这种方式有了挑战者。

百度和联发科刚刚达成合作,共同推出了一项无需联网的“智能搜索”技术。这一技术是两家公司联合完成的:一方面是百度的深度神经网络技术(DNN,Deep Neural Network),另一方面则是联发科推出的MT6595芯片。根据百度深度学习研究院(IDL)杰出科学家吴韧的说法,这是由采用了异构计算的联发科芯片提供运算性能,辅以百度的深度学习技术实现的。

功能上,和我们所熟悉的图像识别技术没有多大的不同——用户可以将搭载着这一技术的手机摄像头对准某个物体,屏幕上就会实时出现搜索结果,结果中会包含物体名称,甚至某件商品的信息。同时,这种智能搜索技术并不只支持摄像头拍摄搜索,吴韧表示还支持语音识别。

53f5fe0d70522ef9e56693cce16bcfe8

但我们提到,“智能搜索”技术的最大的特点是:识别的部分不需要连接到云端完成,可以完全由手机处理。那么它是如何实现的?

吴韧提到,其中一个重要的硬件基础是采用了异构计算的联发科芯片。所谓异构计算,你可以简单地理解为在统一的技术下,CPU和GPU等处理器可以各司其职,让它们分别处理擅长的任务,在控制能耗的基础上提高计算效率。因此,吴韧在此基础上使用百度的深度学习技术与现有异构芯片的性能结合,使此技术的实现成为可能。(吴韧曾经担任过AMD异构系统首席软件架构师,AMD是推动异构计算芯片发展的重要厂商。)

“微软近期公开的Project Adam,亚马逊Fire Phone,和Facebook早些时候对外演示的狗的识别等,都是通过将图像等内容通过网络输入云端、计算比对之后再传回给用户,这个过程会造成时延,并要求具备一定的网络环境。”吴韧说,在网络状况不好的时候,这种“智能搜索”的方式比起云处理更有优势,而且比起上传到云端再返回,这种与服务器连接较少的方式可以缩短搜索结果展示时间,尤其在数据量过大的时候。吴韧把这种方式称作“雾计算”——通过手机的处理能力直接进行计算。

不过,这一技术将会以怎样的方式变成应用,目前还没有一个清晰的路径。比如是否会在所有搭载MT6595芯片的智能手机上都采用这种技术,以怎样的方式呈现,以及双方还会达成怎样的合作关系。

实际上早在2009年,就有消息称百度和联发科已经达成了合作协议,将百度搜索服务植入联发科的芯片和手机当中。因此,从一种功利的视角来看,双方在“智能搜索”技术上的合作显然又巩固了这种“盟友”关系,这也为百度增加了一个把无线搜索推向更多智能手机用户的途径。

订阅更多文章