品玩

科技创新者的每日必读

打开APP
关闭
META

Meta 开源可识别4000种语言的MMS大模型,实时语音文本转换

META 近期发布了全新的开源语言模型Massively Multilingual Speech,简称 MMS。

吕可

发布于 2023年5月24日

日新月异的大模型产业每天都在带给人们新的惊喜,而这一次的惊喜,来自Facebook 的母公司 Meta。

不管是元宇宙还是社交媒体,Meta 一直在想办法帮助人们建立更多的交流机会。而到了大模型时代,meta 展现出了更大的野心。他们近期发布了全新的开源语言模型Massively Multilingual Speech,简称 MMS。

Meta 表示,这种模型可以识别超过4000种口语,还支持在1100多种语言之间进行文本和语音转换。从演示视频来看, MMS可以根据用户的语言来生成文本,在人们视频对话时直接在旁边实时翻译。有了他的帮助,使用不同语言的人们在日后的交流中将会变得更加轻松。

除了让交流变得更加顺利,Meta 还希望借助这款大模型产品保存下那些即将消失的语言。澳大利亚国立大学的Lindell Bromham 曾在论文中表示,到本世纪末,1500种语言可能会完全停止使用。但通过 MMS,这些语言有机会被保留下来供人们研究和学习。

语音识别功能一直是一个较为繁琐的机器学习过程,这需要大量的标记数据,要对模型进行数千个小时的音频训练。因为工作繁琐,大部分模型和数据集只收录了一些常用语言,最大的也不过涵盖上百种语言。

为了尽可能多的获得语音数据,Meta 选择从《圣经》入手。他们创建了一个《圣经:新约》的阅读数据集,其中收录了1107种语言,平均每种语言有32小时的数据。通过新的数据集以及 META 自研的模型 wave2vec 2.0,MMS可用到的语言数量大幅提升。META 还表示,考虑到其他宗教读物的未标记数据,MMS 将可以提供超过4000种语言。

研究人员使用一个1B参数的wav2vec 2.0模型对超过1100种语言进行多语言语音识别模型的训练。在经过和OpenAI的Whisper进行同类比较后发现,在MMS数据上训练的模型有将近一半的单词错误率,但MMS涵盖的语言是Whisper的11倍,这说明MMS 有着较为不错的可靠性。

同时,META还是用了连接主义时间分类(CTC)方法对模型举行约束,以防止MMS推出的内容向宗教内容偏移。

目前 MMS 还处于研发的状态,但Meta 已经开源该模型和代码,让更多的开发人员参与其中。而随着更多开发人员的加入,相信我们距离使用不同语言平等交流的那一天,马上就要到来了。

下载品玩App,比99.9%的人更先知道关于「META」的新故事

下载品玩App

比99.9%的人更先知道关于「META」的新故事

iOS版本 Android版本
立即下载
吕可

品玩要闻:7*24小时不间断追踪全球新鲜事 联系邮箱:wire@pingwest.com

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测