日新月异的大模型产业每天都在带给人们新的惊喜,而这一次的惊喜,来自Facebook 的母公司 Meta。
不管是元宇宙还是社交媒体,Meta 一直在想办法帮助人们建立更多的交流机会。而到了大模型时代,meta 展现出了更大的野心。他们近期发布了全新的开源语言模型Massively Multilingual Speech,简称 MMS。
Meta 表示,这种模型可以识别超过4000种口语,还支持在1100多种语言之间进行文本和语音转换。从演示视频来看, MMS可以根据用户的语言来生成文本,在人们视频对话时直接在旁边实时翻译。有了他的帮助,使用不同语言的人们在日后的交流中将会变得更加轻松。
除了让交流变得更加顺利,Meta 还希望借助这款大模型产品保存下那些即将消失的语言。澳大利亚国立大学的Lindell Bromham 曾在论文中表示,到本世纪末,1500种语言可能会完全停止使用。但通过 MMS,这些语言有机会被保留下来供人们研究和学习。
语音识别功能一直是一个较为繁琐的机器学习过程,这需要大量的标记数据,要对模型进行数千个小时的音频训练。因为工作繁琐,大部分模型和数据集只收录了一些常用语言,最大的也不过涵盖上百种语言。
为了尽可能多的获得语音数据,Meta 选择从《圣经》入手。他们创建了一个《圣经:新约》的阅读数据集,其中收录了1107种语言,平均每种语言有32小时的数据。通过新的数据集以及 META 自研的模型 wave2vec 2.0,MMS可用到的语言数量大幅提升。META 还表示,考虑到其他宗教读物的未标记数据,MMS 将可以提供超过4000种语言。
研究人员使用一个1B参数的wav2vec 2.0模型对超过1100种语言进行多语言语音识别模型的训练。在经过和OpenAI的Whisper进行同类比较后发现,在MMS数据上训练的模型有将近一半的单词错误率,但MMS涵盖的语言是Whisper的11倍,这说明MMS 有着较为不错的可靠性。
同时,META还是用了连接主义时间分类(CTC)方法对模型举行约束,以防止MMS推出的内容向宗教内容偏移。
目前 MMS 还处于研发的状态,但Meta 已经开源该模型和代码,让更多的开发人员参与其中。而随着更多开发人员的加入,相信我们距离使用不同语言平等交流的那一天,马上就要到来了。
0 条评论
请「登录」后评论