机器视觉已经比人眼识别能力高了?

继百度IDL之后,微软亚洲研究院成为了又一家号称计算机视觉识别准确能力比人眼还强的研究单位。

微软方面对PingWest品玩透露,微软亚洲研究院的四名研究者搭建的计算机视觉系统,在ImageNet 2012分类数据中的错误率达到了4.94%,低于同样实验中人眼辨识5.1%的错误率。PingWest品玩发现,该研究成果已经发布,消息也已经发布在微软研究院的英文官网上。

ImageNet是一个用于测试计算机视觉系统识别能力的“题库”,包含超过百万道“题目”。题目由图像和对应的单词(80%为名词)组成,考察的方式是计算机视觉系统能否识别图像中的物体并返回正确的单词。ImageNet使用训练题对计算机视觉系统进行“培训”,然后用测试题测试其识别能力。

上一次得到超过人眼识别精度成绩的是百度。其所研制的Deep Image图像识别系统在人脸识别测试系统LFW当中取得了99.62%准确度的优异成绩,在该测试中人类的成绩只能达到99.2%。根据百度1月中旬发表的一篇论文显示,Deep Image在ImageNet当中的错误率低至5.33%,已经非常接近人眼水平。Google的GoogLeNet系统错误率则在6.66%左右。

微软亚洲研究院首席研究员孙剑是该研究团队牵头人。他指出,研究成果不代表机器视觉普遍优于人类视觉。比如说,人类可以毫不费力地区分出羊和牛,计算机却不尽完美;但计算机的强项在于可以观察图像的细节、纹理形状以及环境,发现人类无法察觉出的区别,“区分不同品种的羊,计算机可超越人类。”孙剑说道。

sunjian

孙剑 / MSRA

该论文的共同作者包括微软亚洲研究院视觉计算组研究员何恺明、西安交大实习生张祥雨和中科大实习生任少卿。微软研究院透露,该团队的许多研究成果已经实现商业化,被投入到了必应图片搜索、OneDrive云存储当中。OneDrive可以识别用户上传的照片包含的内容,将其打上对应的标签,方便用户快速查询。

21世纪第二个十年,巨头公司都开始大量投入人工智能研究,带来的技术变革也十分卓越。除了微软之外,Google、Facebook和百度等公司都在进行图像和/或语音识别方面的研究,并均有不同程度的将研究成果投产,为搜索、社交、语音等产品和业务带来了巨大帮助。

OneDrive / MSR

OneDrive / 微软

用一句无伤大雅的玩笑话来说:计算机视觉的挑战赛依然是各大巨头年终拼KPI的方式。但孙剑表示研究团队将把重点放在更多真实的应用场景中。

孙剑的想法和人工智能研究学界的普遍态度一致。不光是视觉识别,任何人工智能深度学习方面的研究成果,只有投入到商业化的应用场景当中才有意义。这是因为,只有当大量现实生活场景提供的数据能够反哺深度学习系统,才能优化系统,真正提高其性能,打造“超过人类水平”的系统,还需将其投产才能体现技术的真正价值。

 

题图来源:Shutterstock

订阅更多文章