品玩

科技创新者的每日必读

打开APP
关闭
人工智能

从科幻到日常,盘点2019年人工智能四大热门应用

人工智能将成为日用品这个预言实现了吗?

第三方认证作者

颛顼

发布于 2019年12月26日

2016年,AlphaGo 打败了世界围棋冠军李世石,人工智能接受了人类的顶礼膜拜。在这之前,人工智能不是活在和人类谈情说爱的电影里,就是活在「人工智能就要统治地球了」这类空洞的标题里。

这一年,凯文.凯利预测人工智能将成为日用品,听起来仿佛很科幻,实现得却很快。2019年,在我们毫无意识的情况下,人工智能就已经渗透到我们的日常生活了,今天,为你盘点人工智能在2019年的四大热门应用,看机器学习、计算机视觉、语音交互、自然语言处理等技术是如何在生活中落地的。

语音合成——给我5秒,就能复制你的声音

世界上最美妙的技术,莫过于能实现一夜暴富的技术。

“我,秦始皇,打钱”和“我,美女,买茶吗”的诈骗时代暂时结束了。2019年,电话诈骗卷土重来,甚至实现了产业升级,势头还更猛了。

是骗子们今年想赚钱的愿望特别强烈吗?其实是第一批AI诈骗犯已经上岗了。它们有着真实的电话号码,感情充沛的语音,甚至还有像真人一样的话术。

AI电话诈骗不是中国特色,美国人也不堪其扰。2019年还没结束,美国人民就已经接到了540亿通AI骚扰电话,比2018年多了60亿。这也意味着,我们以后要面对的已经是一个被训练了千亿次的诈骗精英了。

电话诈骗真正实现了多、快、好、赚,因为语音合成已经取代了人工。语音合成可以说是同时运用语言学和心理学的杰出之作,它的背后是文本转语音(Text To Speech,简称TTS)技术。这个技术我们都很熟悉了,不管是越来越俏皮的Siri,或是可以定制语言导航的百度地图,都是依靠的TTS技术。

语音合成最简单粗暴的方法是拼接法,缺陷是拼接出来的语音听起来就不像正常人,比如我们最常听的“支付宝到账X元”用的就是拼接法。

谷歌实验室旗下的Lyrebird公司在2017年合成了特朗普和奥巴马的演讲,连美国人民都听不出哪里不对。

Lyrebird靠的是神经网络和机器学习。神经网络把文本智能转换为自然语言,转换时间之短可以秒计算;同时,智能语音控制器能做到让人根本意识不到是机器在说话。除了Lyrebird外,谷歌的 WaveNet,百度的 Deep Voice以及科大讯飞和腾讯等等都提供了开源的语音合成应用。

早期语音合成还需要大量的语料和训练,现在训练成本已经大大降低了。在GitHub一个开源项目里,你只需要一个人5秒的音源,就能克隆他的声音,连语气和情绪都能模仿。不过随着【尖端技术大厂化】的行业发展趋势,语音合成技术滥用的情况,目前的整体环境也得到了更好的改善。

语音合成技术也有温情的一面。对视障群体而言,想看书只能靠触摸,真人有声书的数量也有限。现在,只需要二十分钟,就能用TTS技术合成一本有声书,让机器像人一样读书了。

语音交互——智能音箱终于能听懂人话了

智能音箱和iPad、特斯拉ModelS等一起,被《时代周刊》列为十年来最具影响力的科技产品。也许你会嗤之以鼻:不就是个能上网能聊天的音箱吗?

回想起几年前,是个厂家就要做音箱,是个音箱就自称我AI了。第一波尝鲜的消费者们期待着前沿科技的馈赠,最终却只收获了一个“笑话大全语音版”,想让它干点活,它耳背了,想和它聊个天,它就会打岔。对于这波只会讲段子和学放屁的,大家的态度还是:你走吧,我妈妈不让我和人工智障玩。

如何鉴别人工智能和人工智障?图灵说:与它对话。

图灵曾预测,到2000年人和计算机之间就可以用自然语言沟通。所谓的自然语言就是“说人话”。

为了和计算机对话,曾经是人主动学习计算机的二进制语言,现在是人在让计算机运用人的语言,这背后的核心就是人机交互技术。

人机交互主要分三步:先听,然后理解,最后给出反馈。

通过自动语音识别技术(Automatic Speech Recognition,简称ASR),智能音箱可以把听到的声音转换成文字。ASR已经是个非常成熟的技术了, “中英文混合”和“方言”的识别也不在话下。

听清之后智能音箱还需要对转换后的文字进行处理,把自然语言转换成机器语言,方便机器做阅读理解明确意图,这一步就要用到自然语言理解技术(Natural Language Understanding,简称NLU)。鉴于中文的博大精神,自然语言理解的难度系数不是一般的高,比如那句经典的校长说:校服上除了校徽别别别的,让你们别别别的别别别的你非得别别的」,你看笑了,机器却听哭了。

最后机器还需要作出反馈来满足用户的需求,比如说和你对话聊天、帮你开关灯或搜索推荐内容。同时,机器还会把反馈结果说出来,这就用到了上文的TTS技术。

最近中国科学院物联网研究发展中心给智能音箱打了一次分。用8240次对话,对百度、腾讯、天猫、小米四家的智能音箱进行了测评。综合三个维度,只有小度在家1S的得分达到了80(听清率98.5% * 听懂率92.89% * 满足率86.9%),腾讯的得分为54,剩下两家的得分都在50分以下。人工智能还是得靠技术说话,依靠在语音领域多年的技术积累,百度提前赢下了这场比赛。

随着国内巨头对智能音箱市场的进一步投入,整个行业的产品价格持续走低,无屏音箱最低价几乎全部被打到百元以下,四舍五入相当于白送,让许多人迅速过上了家里有「机器人」的生活。上春晚、搞综艺、跨界营销,国内第一的小度也嗖的一下子成为了「智能音箱领域的国民级品牌」。用着用着我们也发现,智能音箱好像变得没那么智障了,开始听得懂人话了。

现在,上至村口老大爷,下至三岁小宝宝,都能和智能音箱唠上几句了。智能音箱已经变成了和我们一起生活的小机器人,人工智能就是它的大脑,“音箱”只是它的过渡性载体之一。这个小机器人已经迎来了第一次升级,「小度在家智能屏X8」赋予了它表情和动作,只要你一个眼神就能唤醒屏幕,做个手势就能操控,它还能自动识别人脸切换到儿童模式。

手势识别,控制视频播放
手势识别,控制视频播放
人脸识别,切换儿童模式
人脸识别,切换儿童模式

当然,严格意义上的图灵测试离我们还相当遥远,智能音箱还有着很大的优化和升级潜能,这个潜能恰恰是和用户量和你的使用次数正相关的。根据Canalys的统计,截止今年Q3,小度有屏音箱的出货量已经是世界第一了,小度智能音箱的出货量也达到了中国第一、世界第二,仅次于2014年就入场的亚马逊。同时,小度音箱搭载的语音操作系统小度助手每天也在接受着数亿次的训练,甚至养成了一个“自学习AI系统”。现在,你可能依然觉得智能音箱产品还有点笨,但可以预见的是,它会成长得很快。

人脸识别——人脸识别成了逃犯克星

众所周知,每个贩卖机里面都有一个人。

比如下面这个刷脸支付遇上死机,只好在贩卖机里住了一天的人。

现在付钱买单、密码门禁都要“刷脸”了,人脸识别也成了计算机视觉在日常生活中最常见的应用。

人脸识别可以分为两类:一类是“一对一”,也就是认证“你是你”;另一种是“一对多”,也就是识别“你是谁”。

“一对一”认证,一种是提取你的身份证,再和摄像头前的你进行对比;另一种则更简单,直接用摄像头录入你的人脸信息,比如FaceID。技术门槛相对较低,所以刷脸认证的产品遍地瞎开花,其中刷脸领厕纸应该是最具“中国特色”的人工智能了。

要领取厕纸先刷脸,坚决剥夺你的拉肚子自由
要领取厕纸先刷脸,坚决剥夺你的拉肚子自由

“一对多”识别的基础是“人脸库”,将识别到的人脸与库中的图像进行对比。光在张学友一个人的演唱会上,就已经利用人脸识别技术抓捕了超过一百名逃犯。

张学友:我都快忘记我警察的身份,真的以为自己是个歌星了。

见微知著,计算机视觉的发展也反应在一家网站小小的进度条上,这家网站就是全球最大的成人网站PornHub。

早在2017年,P站就上线了AI系统,用人脸识别技术来自动识别视频中的演员,这个系统最初的训练物料包括了成人明星的照片和数千部视频。后来P站又扫描了数百万部视频,最终训练出了不仅能识别人脸,还能自动识别视频中的场景和姿势等信息的系统。P站曾在进度条上加上了热力图,用峰值波动来反应对应时间段的播放热度,这在视频网站中引领了一波风潮;现在,这个进度条已经进化到能自动识别和标注每个时间段的剧情了 ,至于是什么剧情,咱也不知道,咱也不敢问,就让人工智能默默造福全人类吧。

图像处理——今天你想换哪张脸

今年的朋友圈短暂的被各种换脸小视频攻占了一下。

在换脸软件ZAO中,只要上传一张照片,你就可以把自己的脸换到明星脸上。轻松实现和本命谈恋爱,和爱豆共飙戏的梦想。

换脸技术看着厉害,其实你也可以,只需要了解一下deepfakes技术。

deepfakes是一个程序员在社区Reddit的用户名,2017年,这名程序员在Reddit发布了一部不可描述的小电影,小电影里的女主角竟然是神奇女侠盖尔·加朵。只用了一部电脑和开源的AI工具,这名程序员就训练出了换脸算法,把明星的脸换到任意视频中,视频中换脸后的眼神和嘴型这些细节都已经相当真实。

这种训练源于生成式对抗网络(Generative Adversarial Network,简称GAN)。所谓对抗,就是两个机器模型之间的博弈。基于一个原始视频,一个模型负责生成相似的视频,另一个模型则负责鉴别两个视频之间的差异,在海量的对抗训练之后,最终会生成几乎找不到差异的伪造视频。

在这名程序员制作了一波又一波明星脸色情影片后,他的账号终于被封杀了。于是他一怒之下将换脸项目开源了,“邪恶势力”就此登场了。

让这项技术走向不可控的一大原因是超低的工具门槛,今年大火的ZAO只不过是把换脸这一技术变得更容易操作而已。现在,即便你没有任何编程基础,只要你有一台电脑,安装deepfakes开源的工具包后,只需要半天的学习,你也可以训练换脸术了。

有人将重大技术的变革比作一列火车,它临近时你听到了轰隆隆的声音,你期待着它的到来,却又觉得还很远。等它终于来了,却又只是一闪而过就把你甩在身后。

人工智能就是这样一列火车。2019年,我们习惯了刷脸,沉迷于换脸,和AI探讨了一下人生,也顺便被骗走了一些钱。在这个时候,对人工智能的欢呼和抵制都是无意义的,因为火车已经开过来了。

下载品玩App,比99.9%的人更先知道关于「人工智能」的新故事

下载品玩App

比99.9%的人更先知道关于「人工智能」的新故事

iOS版本 Android版本
立即下载
颛顼
第三方认证作者

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测