虚拟偶像的十年女优路，AI要再走一次-品玩

从2014年推出到现在，距离微软小冰以人工智能美少女的形象第一次和我们见面已经三年了。在这三年里，微软为她不断地更新换代，添加了许多新功能，现在我们见到的已经是第五代小冰了。和她的姐妹小娜作为人工智能助手主攻助理领域不同，小冰给人们的感觉更像是一个（有些智障的）邻家少女。即使她的回答经常会让人感觉莫名其妙，但还是会有一批又一批的用户每天打开他们的微信，像跟女朋友谈恋爱一样和小冰有一搭没一搭地聊天。

从第四代开始，小冰已经拥有了“人工智能感官系统”：有了五种情感，拥有文本、语音、图像、视频和全时语音感官，用户甚至可以和小冰打电话。而第五代小冰上线了高级感官，让小冰具备了更加贴近人类自然交互行为的“全双工语音”。如今的小冰，不仅仅会被动地对人类的提问产生回应，还会写诗，会主持电视节目，给人打电话送去生日祝福，甚至可以主动开始一段和人类的交流。

今年8月31日，虚拟歌姬初音未来即将迎来她第十个16岁生日。作为VOCALOID 2软件上的第一款日语音库，VOCALOID的开发方Yamaha和初音的开发方Crypton Future Media恐怕都没有想到，这个梳着双马尾的元气女孩可以有今天这样的人气。现如今，恐怕很多人类歌手的演唱会，也不能像初音的演唱会一样场场爆满，一票难求。

初音的出现，彻底带动了虚拟歌姬这样一块当时几乎处于无人开发状态的市场。现如今，基于VOCALOID技术的虚拟歌姬已经数不胜数——除了初音未来，还有经常在她演唱会上露面的好朋友镜音铃/连；作为御姐形象吸引大量粉丝，早早拥有了英文音库的巡音LUKA；作为首个使用了VOCALOID3引擎的虚拟歌手，在JIN的《阳炎Project》中大放异彩的IA；以声音接近真人发音为特点，由SSW Internet公司在自家Megpoid引擎上推出的GUMI；由禾念代理，在中国发行的首个中文音库洛天依；由GYNOID在台湾发售，连发音也带着浓浓台湾腔的心华……这些还只是商业化虚拟歌姬的一角。同时，由于UTAU这样免费的歌声合成软件的存在，任何人都有了用自己的声音制作虚拟歌姬的可能。

相比问世三年的小冰和十年的初音，以“世界上第一个虚拟YouTuber”自诩的虚拟角色绊爱（Kizuna AI）和我们见面的时间就短了很多。从今年2月15日爱酱的第一个访谈视频放出，3月21日在AnimeJapan 2017上首次亮相，至今也不过五六个月。

爱酱虽然在官方的宣传和自己的视频里多次使用了“虚拟YouTuber”“人工智能”之类的词语，甚至名字也叫做“AI”，但其实它和人工智能连一点点关系都沾不上。爱酱背后所用到的技术，说到底就是一个3D动画人物和一些配音。相比人工智能小冰，或许她和初音的关系还更大一些。因为用来制作爱酱动画的工具MMD，全称就叫做MikuMikuDance——没错，这个由日本宅男程序员樋口優开发的3D动画制作软件，最开始就是为了让大家都可以制作Miku的舞蹈视频而出现的。此外，爱酱的模型制作监督Tda，也曾经制作了MMD上有名的初音Append人物模组。

或许从一开始就准备反差萌为特点，标榜自己是“人工智能”的爱酱不仅仅在制作技术上和人工智能没有任何关系，就连在自己视频中的表现也蠢得不行，一点都不“智能”。但正是这种反差萌，反而给爱酱带来了成千上万的粉丝，国内的粉丝们还亲切地给爱酱起了一个昵称：人工智障。

其实看到爱酱的时候，我的第一反应是三年前发生的一件事。

那是在小冰刚刚发布的时候，我的一个朋友小齐在和小冰聊了几次天之后对我说：小冰太傻了，根本不是人工智能，简直就是人工智障。

至于那个时候的小冰，还只是微软的一个技术试验品。她的身上搭载了微软大批量的先进技术。在那个AlphaGo还没有称霸棋坛，深度学习也没有人尽皆知。小冰的出现，的确为微软带来了不少的关注度。

同时小冰身上还有一个艰巨的使命，那就是帮微软收集自然语言甚至人类行为方面的数据。对于微软这种拥有一批顶尖计算机科学家的公司，自然比谁都清楚数据对于机器学习和人工智能的重要性。

于是，经过这么多年的数据积累和技术升级，小冰比以前“聪明”了不止一个数量级。在这三年里，小冰收集了超过300亿次直接人机对话，居业内同类产品第一。现在的小冰，已经可以和人类进行一些看似正常的大段对话了：

小冰可以有这样的飞跃式进化，主要归功于这些年收集到的海量数据。靠着这些数据，微软的科学家们不仅可以训练出更可靠的模型，还可以用于提升小冰背后的机器学习算法，然后反哺科研界。

不过，作为一项早就比较成熟的技术，自然语言理解（NLP）还是有它的局限性的。其中的一个例子，就是机器对上下文和语境的理解与人类有明显差距。即使小冰已经进化了若干代，我们还是可以看到这样的对话：

于是，小冰也在寻求着更进一步的突破。从产品上来看，小冰的目标是打造一个情感计算的框架。现在的小冰具备了流媒体视觉，可以实时分析摄像头前物体的位置、移动、表情和姿态。同时，小冰还试水了电台和朗读有声少儿读物。微软方面称，小冰制作的有声少儿读物朗读质量超越98%的人类创造者。微软希望通过扩展小冰的能力范围，把小冰打造得更加有血有肉，人物形象更加丰满。

而从技术上看，小冰在这一次发布的新特性中大量使用了生成对抗网络（Generative Adversarial Network，简称GAN）的技术。官方给出的说明中表示，“在印尼全国100%（的小冰上）使用了生成模型”。我们先放下这个“100%”的计算方法和宣传上的夸张不谈，这至少说明了GAN这个近年来机器学习领域的新宠，已经被微软足够地重视了起来。

在这一系列技术的支持下，小冰已经和市面上其它只会聊天的chat bot从根本上拉开了差距。对于不懂技术的普通人来说，小冰可能已经看起来越来越像真正的人工智能了。

在本周的第五代小冰发布会上微软透露，经过新技术的训练，第五代小冰唱歌已经达到48kHz采样率，大幅度扩展了音域。同时微软还和TFBoys的词曲创作人合作，联合推出了歌曲《我是小冰》。这不由得让人想到初音：小冰难不成也要和初音未来在虚拟歌手的领域抢夺粉丝了吗？

事实上，小冰固然已经拥有了庞大的粉丝群，但是对于同样拥有庞大粉丝群的初音来说，她的粉丝忠诚度与小冰相比高到不知道哪里去了。

和不断充实着官方人设的小冰不同，初音未来的官方设定单薄的可怜。除了外貌和名字、生日、体重这种公式化设定之外，官方几乎没有任何多余的性格方面的设定。甚至连声音这个作为虚拟歌姬本应最突出的特点，在不同歌曲制作者（他们一般被成为“P主”，即Producer的简称）的调校下听起来都会不尽相同。

然而，这完全没有影响大批忠实粉丝们对初音的热爱。在P主们的歌曲里，初音有时候是一个只会甩葱的呆萌少女（《Ievan Polkka 甩葱歌》）；有时候摇身一变，成了世界第一的公主殿下（《World is Mine》）；又有时回到了自己虚拟歌姬的定位，对听众倾诉自己作为软件被删除时的复杂情感（《初音未来的消失》）。而这种种二设（二次设定），都会随着歌曲的传播而在初音的粉丝群体里传播开来。

这对于大部分现在流行的虚拟歌姬都是适用的。日本的P主YM，曾经为GUMI写了一首名为《十面相》的歌，讲述了GUMI产生了十个不同人格的故事。虽然不是本意，但这大概是对人们心中虚拟歌姬最真实的写照了。

奇怪的是，似乎很少有人认为，对于虚拟歌姬，一个人物伴随着多种截然不同的性格有什么问题。没有人可以回答“初音是什么性格”这个问题，但是如果你是初音的粉丝，你一定不会觉得这是一个问题。如果真的去问了这些粉丝们，“我们爱的是初音本身啊”——可能你还会得到这种不知所云的回答。

乍看起来小冰也可以走这条路，做一个拥有“十面相”的人工智能。但是细想起来，虚拟歌姬身上的这种现象，其实和她们自带的“人人都可以创作”的属性相关。

无论任何人，只要购买了虚拟歌姬的配套软件，就可以让初音按照自己的意愿发出声音。如果你懂得一些乐理知识，或者从网络上获得了一些乐谱，就可以用初音的声音制作歌曲。再进一步，如果你还懂得绘画、写剧本、视频制作，或者可以找到懂得这些知识的志同道合的朋友，你就可以制作出自己的初音。

和自己做出一个小冰这样的人工智能比起来，使用VOCALOID/Megpoid之类的软件制作歌曲，成本太低太低了。要知道，微软这样的公司以自己的技术积累、财力支持和数据基础，花了三年时间，才把小冰做得仅仅是不那么傻。就算微软把技术公开，背后支持运算的服务器开销，恐怕就不是个人能够负担的起的。

想走初音这样的路线，至少这个时代的人工智能还不行。

既然初音这样大众创作型的虚拟偶像路线走不通，不妨回过头来看看爱酱。

在人工智能突然被推上话题风口的这个时代，大多数人眼中人工智能是一种很厉害的存在，是真正“智能”的。于是爱酱这个从头到脚透露着傻气的“人工智能”的出现，满足了人们的娱乐性需求。

可本质上，爱酱并不是人工智能。剖析本质，爱酱更像是一个单口相声演员。

前文也提到，爱酱吸引粉丝的主要手段就是在视频里以各种方式犯蠢，然后努力地想要掩盖过去——即使所有人都知道她的行为很蠢。而这一切，并不需要任何高深的技术作为支持，一切都是写好的剧本。

相声界已经对这种娱乐大众的方式不能再熟悉了。“听起来名字很厉害的人工智能爱酱原来也可以这么傻”这件事，就和“我是艺术家，我都艺术家一个多礼拜了”一样可以引人哈哈大笑。一个现成的剧本加上一些表演者的即兴发挥（对于爱酱，大概是配音演员和3D制作组的即兴发挥），这些也都是相声最常见的套路。

而这大概是小冰的一个可行的发展方向。与其用并不成熟的技术试图制作一个像人类一样的人工智能，不如将这些技术融入大众娱乐之中。

小冰之前已经做过了这样的尝试。早在两年前，小冰就曾经为上海东方卫视晨间新闻“看东方”的天气预报环节播音。前段时间，小冰也与湖南卫视开展了一系列合作，在节目上多次出现。而就在这个月，小冰在北京人民广播电台和湖南电台音乐之声开播了一档节目，此外微信小程序版的“小冰FM”也于8月22日正式上线。

此外就在近期，东方明珠和数娱科技联合成立了东方数智集团并举办发布会，微软小冰首席科学家宋睿华也前往参加。在发布会上，数智集团明确指出，他们成立后推出的第一计划就是造“星”计划，为动漫偶像和明星艺人打造虚拟形象，把人工智能和泛娱乐化的粉丝经济结合在一起，探索多领域的明星IP，深化娱乐智能化布局。而宋睿华表示，微软小冰将与东方数智集团展开深度技术合作，共同为消费级人工智能市场提供更加丰富的产品体验。

事实证明，这是很有前途的。甚至虚拟歌姬们的创作者都开始打破次元壁，试图与传统娱乐行业融合。禾念代理的VOCALOID虚拟歌姬洛天依就在前些时间与湖南台进行了多次合作。

而传统娱乐行业也并非对这种合作不屑一顾，甚至主动寻求跨界。歌手许嵩就使用洛天依音库演唱了自己为其创作的一首歌曲《深夜书店》，并在演唱会上与其同台演唱。而另一位歌手陈一发儿则和知名P主ilem合作了一首歌曲《告一段落》，也获得了不错的反响。

深度学习和人工智能，可能会以意想不到的方式融入其中。它们的应用从来不是只有制作聊天机器人那么狭隘。我们可以通过机器学习提升虚拟歌姬唱歌的表现，平滑语音语调；也可以通过机器学习为虚拟人物模型制作更生动的表情。相信通过以微软为首的科技巨头推动，我们今后可以在生活中体验到更多人工智能所带来的便利和乐趣。