从平面图像识别到实物识别,看看「理想境界科技」突破了哪些瓶颈

不少人都是从Google的图片搜索开始接触“图像识别”技术的。如今,随着这项技术的发展以及智能手机时代的来临,除了网页上的图片搜索外,“图像识别”技术被 应用在了更广泛的场景之下——京东已经将其放应用在手机App的“拍照购”功能中,淘宝也想在“一淘火眼”中使用它,就连不久前发布的5.0版本微信也内置了这个功能……可以看出,目前“图像识别”已经在电商领域有比较清晰的模式。

可实际上,我们会发现并无论是早些年就开始类似尝试的创业公司还是这些大型企业的产品,至今都没有形成规模效应,很少用用户去使用这些功能。原因在于,目前图像识别的技术还远不够好,识别应用领域有限,往往只能对平面进行识别,不能很好的识别商品包装、实物以及店铺logo。同时对用户的拍摄行为有严格限制、准确率低、速度慢。综上所述,它无法做到“所见即所知”,很难解决用户普遍性的痛点,距离真正的“入口”还比较远的距离。

宋海涛便从中看到了创业的机会,拥有电子科技大学博士学位的他已经从事了13年的可穿戴计算与计算机视觉研究,2011年底当他计划创业时,便瞄准了这个商业化模式清晰但技术还不够成熟的领域,所以在拿到了一笔百万美元的天使资金后,他在2012年3月创立了成都理想境界科技有限公司。

理想境界科技将研发的方向专注在了IAR上,它是一种将图像放在云端进行识别,再将显示结果AR(增强现实)显示在客户端上的模式。与将数据打包在本地带有AR功能的方式相比,依靠云端技术不会受限于手机的处理能力,也可以匹配广泛的样本,更适合海量产品的商业化应用。目前,国外的Layar公司和Junaio公司都在这个模式下做了一些不错的尝试,但他们的技术还主要限于纸媒等平面图片为载体的增值阅读场景,例如德国的《南德意志报》、《星期五》杂志,美国的《Today》、《New York Post》、《国家地理》、《Esquire》、《Inc. daily》,英国的《Times Magazine》等。

屏幕快照 2013-09-05 下午12.09.01

所以,为了将图像识别和增强现实运用在更广泛的领域,理想境界科技需要客服现有的技术瓶颈,它们主要体现在:

1.能否做到识别简单特征(尤其是复杂背景下的识别)、曲面特征、褶皱特征。 

2. 在目标尺度变化(微小目标、遥远目标)、倾斜、遮蔽、模糊、反光、逆光、暗淡等条件下能否维持功能的稳定性;

3. 能否作多目标同时识别,图片中子图的识别和理解; 

4. 识别算法对于样本库的容量有没有较好的适应性,比如能不能用于10亿量级的样本;

5. 识别算法的执行效率怎样,其执行速度怎样(能不能做到少于 0.5s/百万样本),内存耗费、CPU耗费等是否可以接受(否则将导致过高的实现成本)。

上面所提及的技术瓶颈直接决定了图像识别的应用广度、深度和用户体验。宋海涛认为,之前的业界的图像识别产品之所以不能让人眼前一亮,不能真正走入人们的工作生活,就是因为其技术上的不成熟所造成。

而在宋海涛向我展示的的Demo中,他们已经能够很好地对平面、Logo和实物在小目标、局部特征、模糊、高倾斜度、高反光、遮蔽和逆光等条件下进行识别。同时,他说在百万量级的数据下,他们已经能实现95%~99%的准确率和少于1秒的检索时间。

屏幕快照 2013-09-05 上午11.31.00

屏幕快照 2013-09-05 上午11.27.57

在实现了图像识别之后,另一个层面的工作就是增强现实内容的显示了,如今理想境界科技在这一方面也做了不少尝试,例如扫描芯片就能识别出它的型号;扫描生活中的物,杂志上的广告就能直接购买商品;在超市购买东西时扫描就直接显示商品的促销活动或其广告内容,点击就能拿优惠劵或抵用折扣;逛街时拍一下店铺logo,就能知道东西好吃,是否值得推荐等。

屏幕快照 2013-09-05 下午12.02.04

不过宋海涛说,他们并不会面面俱到的去把技术做成商用化的应用,而是以技术平台路线为主,产品路线为辅。如果市场上没有他们所看好的某领域的IAR应用产品,那他们会考虑自己做,否则就为优势资源方提供技术平台服务。而如果自己做的产品是在对商业资源有严重需求的领域,那么理想境界科技会与优势资源方成立合资公司来整合商业资源,如今他们已经把这种模式扩展到了日本、北京等地的合资公司。

订阅更多文章

你可能感兴趣的: