品玩

科技创新者的每日必读

打开APP
关闭
Google

让电脑用一句话描述出图片的内容,Google现在可以做到了

用一句话描述一张图片,这项技能对人来说很容易,但对机器来说就很难。但现在Google做到了。

CY Zhou

发布于 2014年11月19日

看着上面的图片人类可以很容易的描述出“这是一个正在骑摩托车的人”、“三条狗在草地上奔跑”,但如果想让电脑“看”完图片之后能自动给出一段这样的概述就不是一件容易事了,而现在Google却已经做到了。

按照Google的说法,通过自行开发的机器学习系统,它们现在已经可以用自动化的方式来为图片添加自然语言描述。这项技术不但有望让那些对颜色不敏感的人群可以快速理解图片中的内容,也可以在网络状况不好的情况下用文本来暂时替代图片显示;当然,更重要的是它还可以让Google的图片搜索功能更强大。

在以前,业界在用计算机对图片进行自然语言描述时基本使用的都是计算机视觉和自然语言处理技术;但现在得益于机器翻译技术的进步,通过递归神经网络(RNN)转换,机器可以先把法语转换成一个矢量,接着另外一个RNN用户就可以通过这个矢量把法语转换成德语;这样Google只要能用另外一种具备图片识别能力的神经网络(卷积神经网络,CNN)替换掉第一个RNN就可以得到一句能描述图片的自然语言了。

所以整个自然语言的生成过程就是由读取视觉的神经网络CNN到产生语言的神经网络RNN,进而最终得到一句自然语言。Google方面的测试显示,这项技术的整体效果表现还不错。当然,我们从第一张图中也可以看到这其中是会出现一些小错误甚至完全不准确的情况,不过随着数据集的增加和成熟,整体的精确度会越来越高。

其实,早在今年6月份时,Google就发过一篇博客阐述它们是如何让用户可以根据图片中的内容来搜索;在9月份时,Google又更新了它们在图像中物体识别、分类和标记方面的进展。如今到了11月,Google在这方面的技术又有了新的突破。不难看出,最终机器将会更了解图片,而人们也会更容易找到自己想要的图片。

图片来自:Google

下载品玩App,比99.9%的人更先知道关于「Google」的新故事

下载品玩App

比99.9%的人更先知道关于「Google」的新故事

iOS版本 Android版本
立即下载
CY Zhou

PingWest

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测