松禾资本的投资总监张春晖最近在美国忙着推广他的投资项目,一个叫做Autotiming的语音-文字匹配程序。
这个项目由两名供职过英特尔声音研究院和中科院声音研究所的科学家开发,他们从事语音识别自主创业已经长达7年。(根据时间推算应该是中科信利语音实验室的成员)人机交互技术在张春晖看来,将会是未来科技很重要的一部分。他一直在关注相关领域,包括语音控制、手势控制、多点触控等。
此前,张春晖给多家媒体供稿已经频频暗示了这个项目的出炉,比如他在“乐视叫‘超级电视’,那别人叫啥啊?”一文中就提到了乐视电视的语音搜索技术(由科大讯飞支持)不够智能。AutoTiming能做到的,是把人力从繁琐的视频字幕校对中解脱出来,通过已知的视频文字脚本和音频(或视频音轨),将原本的句子语音段打散成字词语音段,匹配到对应的文字,相当于将文本信息的每个词都变成一个节点,由此便可以通过搜索来检索视频内容或是通过点选文字控制视频播放位置。把传统线性观看视频过程转变为非线性的。

美国1976年开始要求所有视频节目都配上CC字幕。CC字幕是Closed Caption的简称,大多数为角色的对白或旁白,还会提示配乐或现场背景音,是为了方便听障人士收看节目所设置的。平时观看节目时不会自动显示,但可以通过遥控器调用。CC字幕本身并不是由字幕中心的人自己听写下来的,电视台、视频节目制作中心等在录制前有脚本的——比如,新闻主播的播报词(提字机),电视剧的文字剧本——通过将脚本和视频、音频内容发送给字幕中心,由字幕中心进行匹配,编码后进行播放。应用AutoTiming之类的技术就能大大缩短字幕通过句对句的形式匹配的时间,而且词对词的方式也更加准确。国内强大的美剧字幕组就是通过录下CC字幕轴,由校对人员先人工调整字幕显示时间,随后以句子为单位发送给翻译。那么,运用可信度和准确率相当高的AutoTiming技术后,就不需要时间轴人员进行那些繁琐的、以几毫秒为单位的调整了。这不论对于视频字幕匹配和视频内容管理都会极大地增加效率,降低时间和人力消耗。事实上,在商用方面,该技术已经打包销售给了国内的多家电视台、翻译公司。
更重要的是,这种发音以字词为单位对应到文本字词的技术,让视频中的每词每句都可以被搜索。现在的视频搜索只能搜到标题、标签这些人工赋予的外部文字信息。当这个技术推广后,打比方说,你想要找囧司徒(Jon Stewart)在节目中讲过的关于伊朗的内容,就不用凭借记忆力先去找相关主题的视频,再一个视频一个视频看下来,最后找到那些话了,而是可以直接通过搜索引擎实现了。YouTube现在每分钟有着72小时的内容上传,如果每句对白和所讲内容都可以通过这种形式被搜索到,将会形成一个极大的文本信息库,甚至可能会被用以舆情监察。
最直观能想到的,可以运用该技术的领域就是在线教育。多年以来,英语学习者都热衷于用《老友记》训练口语,并且还有各种牛人分享了老友记的脚本和自己的笔记。运用该技术就能逐个词汇地倒视频回去重听重看了。碰到了新词还可以搜索该词在所有视频中的出现频率,观看所有该词汇出现的视频段落,在不同语句中、不同场景下的运用。新东方在线教育已经运用了该技术,学生通过文字搜索能够找到教师在网络课程中说的课程要点信息。

对于普通用户而言,从7月开始,运用了该技术的ATPlayer播放软件即将提供下载,其播放内容为所有市面上的公开课内容,起名为“此时此课”。张春晖说:“就像看网易公开课、新浪公开课一样,我们先做公开课的服务,在你有我有(内容)的基础上,提高教育效率和互动体验,提供内容传播手段。”同时,在播放器中可以通过Google翻译将自带的中英文字幕翻译成所有支持的语言——尽管未必非常准确,但一定程度上打破了观看视频的语言障碍。
张春晖对PingWest透露,经过AutoTiming处理的公开课内容不久后将在深圳地铁开通wifi后,在地铁中播放。不过,我更期待的是这种准确度极高的语言匹配技术能够应用到语音转换到文字上(Speech-To-Text),据说,该团队已经在做相关的研发,但准确度还没有成熟到可以投放商用的地步。
0 条评论
请「登录」后评论