用人工智能帮盲人用户“看到”图片, Facebook的想法已经成真了

去年10月,Facebook宣布了一个正在进行的大胆计划:帮助盲人或者视力障碍用户“看到”其平台上的照片。具体做法是,使用人工智能技术,自动识别图片中包含的内容,然后由盲人用户使用的读屏软件读出来。

昨天,这个功能正式在iOS平台上线了,现在,这个功能还仅支持英语,不过Facebook表示,很快将支持更多语言和更多平台。iPhone用户只要开启辅助功能中的VoiceOver,在使用Facebook时,图片内容就会被“读”出来。

例如,下面这张图片,之前,读屏软件会告诉视力障碍用户,这是“Jeffrey Wieland的照片”:

facebook-for-blind

但是现在,Facebook的人工智能技术会帮读屏软件告诉视力障碍用户,“这张图片可能包括:大自然、户外、云、草、地平线、植物、树”。

现在,Facebook及旗下的Instagram、Messenger和WhatsApp每天上传的图片达20亿张,但同时,全世界有3900万盲人和2.46亿视力低下人群。

而且,Facebook和康奈尔大学的一项研究表明,盲人及视力障碍用户对照片点赞和评论的频率和普通人差不多,即使他们发照片的频率要低得多。他们中的很多人在遇到无法参与其中的图片内容时会感到被孤立和沮丧。

Facebook的使命是连接全世界的人们,他们希望盲人用户也能在社交网络上获得相对完整的体验。

那么,这项功能是怎么实现的呢?

1. 自动可替换文本

Facebook把这项功能称为“自动可替换文本”(automatic alternative text)。

可替换文本(alternative text)是网页标记语言HTML的一个属性,在制作网页时,你可以为图片设置一个描述性的词汇(如green-grass),这样,当图片无法加载时(如图片被从服务器删除、图片路径错误),你还是能看到这个词。而大多数读屏软件在遇到图片时,也会直接读出可替换文本的内容。

以往,Facebook会统一把用户上传的图片的可替代文本设置为“XXX的照片”,但是从昨天开始,它会基于人工智能,自动根据照片内容进行替换,因此被称为自动可替换文本。

2. 背后的人工智能技术

当然,这个功能背后最重要的是图片识别技术。

Facebook是世界上最大的存放图片和视频的平台之一,它的图片识别引擎已经在甄别图片和视频中起着重要作用,它能自动识别出图片的物体、动作、发生的场景及风景名胜等。

Facebook进一步介绍,图片识别引擎的核心是一个包含数百万个可学习的参数的深度卷积神经网络,Facebook的计算机视觉平台能够非常简单地收集并分析上百万张照片,并在监督下学习进步。

即使如此,为了保证可靠,Facebook还是花了10个月的时间,经过反复测试,才上线了自动可替换文本功能。目前,Facebook的识别引擎能保证至少80%的准确率。

不过,为了严谨起见,Facebook还是会以“这张图片可能包括”开头;而且,在遇到一些敏感问题,比如种族时,识别引擎在做出识别前会更加谨慎,如果它无法确认,就选择不描述当前图片。

在进行图片识别时,有时候在机器看来很小的失误都会造成严重的后果,比如,Google Photos的图片识别引擎曾经把照片中的两个黑人认成了“大猩猩”。Facebook显然吸取了这个教训。

3. 怎样组织语句

在识别出图片包含的内容后,Facebook还需要以一种比较自然的方式来组织语言。

Facebook表示,在进行了多次实验室研究后,他们决定把图片中的内容分为3个类别:人、物体和场景,在描述图片时,也会按照这样的次序。

对每一张图片,Facebook会首先描述其中有几个人(主要依靠人脸的数量),他们是否在微笑;然后,列出图片中的物体;最后,根据整张图片描述它的场景,例如户外、室内、自拍等。所以,一个典型的例子是:

这张图片可能包括:两个人,微笑,太阳镜,天空,树,户外。

Facebook的这个新功能是由它的无障碍访问实验室(accessibility lab)开发的,Matt King是实验室的工程师之一,他也是Facebook首位盲人工程师,从上世纪80年代开始,他就开始致力于让计算机更加易用。

Facebook的无障碍访问团队,左起Matt King、Jeff Wieland和Shaomei Wu 图片/Facebook

“被接纳的力量是巨大的,而被排除在外是非常痛苦的,”Matt King说到,“我们做这样的事,就是要向盲人传达这样的理念:让你们可以参与到社交网络的讨论中来对我们很重要。我们想让每个人参与进来,也在努力让每个人参与进来。”

订阅更多文章