作者 | 虞景霖
编辑 | 邓咏仪 尚恩
《创世纪》中有这样一个故事,传说在千百年前,地球上所有的人都使用一种语言,有一天他们决定建造一座高塔直通天际,远离洪水的侵扰。
(相关资料图)
这座高塔叫做巴别塔。
很不幸,这件事被神知道了,他们害怕人类因为巴别塔的成功建造而感到骄傲和傲慢,因此决定对人类进行干扰。
于是神打乱了人类的语言,导致人们无法理解对方在说什么。不出神的意料,由于语言不通,人类产生了混乱和分歧,不得不放弃建造巴别塔的计划,四散到了世界各地。
来源:pixabay
而如今,在AI的帮助下,使用不同语言的人可以直接进行交流,重建巴比塔成为可能!
来源:公开网络
这就是Meta发布的AI大模型:SeamlessM4T。一款能够转录和翻译近100种语言的一体化翻译器,目前已在官网免费开放使用。
来源:Meta AI推特
官网体验链接:https://seamless.metademolab.com/
消息一出,就引起了网友的广泛关注,甚至有网友把SeamlessM4T戏称为是“万宝路”创造癌症治疗法。
来源:Jason Ferrell推特
还有网友表示距离《星际迷航》中的万能翻译器又近了一步。
来源:kache(yacine)(e/boy)推特
嗯…..怎么不算呢?
来源:公开网络
但也不是一致好评,有网友就表示SeamlessM4T的表现差强人意,直言:“几乎每次都完全错误”。
来源:minos推特
不同于仅支持文本转文本的传统翻译器,SeamlessM4T功能众多,具体来说:
能够对96种语言进行语音识别
支持近100种输入和输出语言的语音到文本翻译
支持近100种输入语言和36种输出语言的语音到语音翻译
支持近100种语言的文本到文本翻译
支持近100种输入语言和35种输出语言的文本到语音翻译
来源:Meta AI官网
据官方说明,SeamlessM4T可以分为两个部分,编码器和解码器。
编码器能够识别近100种语言的语音输入,再由解码器将其转化成近100种文本语言或35种(包含英语)语音语言。经过训练的编码器,能够自动识别输入语音中和人类语音对应的音频信号,并将其分解为一系列语音段,最后通过匹配器将这些语音段对应到单词中。
而文本的识别,则基于NLLB模型的文本编码器,经过训练后能理解100种语言的文本内容。基于识别的内容,解码器就可以进行语音和文本的输出。
编码器和解码器实现机制
简单来说,就是把文本或者语音扔给编码器,让它在内部进行一系列解析、分割和转换等操作,再把这些处理好的信息丢给解码器,解码器把他们合成对应语言的文本或者语音。
来源:Meta AI官网
说话间,已经有网友等不及上手玩了起来。
左边这位网友用福建话自我介绍的一瞬间,AI就立即将语句转换为英文,后面即使是“一整段福建话”,SeamlessM4T也应对自如。
来源:Meta
对此就有不少网友开始脑补,有了SeamlessM4T,以后上网组队玩游戏,管你讲啥语言,AI统统都拿下!
来源:Eder Teixeira Eder Teixeira推特
目前,Meta并非唯一一个投入资源用于开发AI转录和翻译的公司。
去年9月,OpenAI就开源了Whisper自动语音识别系统,还强调Whisper的语音识别能力已经达到了人类水准。
而更早之前,互联网鼻祖Netscape旗下的Mozilla基金会,也在2017年推出了公共数据库Common Voice,这是用于训练自动语音识别算法的最大的多语言语音库之一。
在训练数据层面,SeamlessM4T的训练数据似乎没有Whisper那么庞大。OpenAI声称Whisper使用了68万个小时的训练数据,而SeamlessM4T的训练数据约为44万个小时。
那么,Meta的SeamlessM4T强在哪?
来源:公开网络
首先,SeamlessM4T实现了语音和语音之间的直接转换,免除了中间的文本转录过程,能够更好地保留语音特征。
而其他语音转录软件,如Whisper,由于接受了大量的噪音数据的训练,转录的文本中包含实际没说的单词的可能性更高,当语音中包含多种语言的时候,Whisper的转录效果似乎并不那么令人满意。
SeamlessM4T则在这个方面进行了改进,大大增强了模型处理背景杂音和多语言语音的能力。
目前,Meta将以研究许可证的形式向公众免费提供该模型(仅限非商业用途),以便研究人员和开发人员在此基础上进一步研究。
来源:公开网络
更重要的是,Meta还将发布SeamlessM4T的关键训练数据集之一SeamlessAlign。
这个数据集通过语音识别和文本挖掘技术,从公开渠道抓取并对齐了大量语音和文本数据,覆盖了37种语言,包含了超过44万小时的语音和文本数据,是迄今为止用于多模式翻译的最大的公开数据集。
另外,在测试中团队发现,SeamlessM4T的鲁棒性也灰常不错!
与此同时,Meta还专门做了研究表示,相较于当前最先进的模型,SeamlessM4T在语音转文本任务中处理背景音和变化的语音的能力更强(平均水平分别提高了37%和48%)。
SeamlessM4T鲁棒性测试结果
但和其他众多的AI模型一样,SeamlessM4T也并不是完美的存在,仍然存在多种形式的偏见和误差。
当输入中性词语时,输出的结果偏“男性”。例如,在不明确性别的时候,SeamlessM4T大约有10%的概率倾向将性别表示为男性。Meta推测,这可能是由于训练数据的“男性”倾向更加明显。
除了性别输出偏好,SeamlessM4T还有一些其他的问题。
例如在孟加拉语和吉尔吉斯语等一些语言中,SeamlessM4T对社会经济地位和文化进行了恶意翻译,这类情况在涉及性取向和宗教的翻译中更加严重。而这一点也得到了网友的验证,并表示对此现象的出现十分失望。
来源:Cuenta Libra推特
但是,Meta声称,SeamlessM4T的公开版本中包含了恶意评论的过滤器,能够阻止恶意言论的输入和输出。
但实际情况确是,在模型的开源版本中,默认情况下并没有这个过滤器。也正是由于这个原因,Meta不建议将SeamlessM4T用于过长文本和严肃内容转录翻译。
SeamlessM4T可谓Meta多年来在翻译器开发领域的集大成者。去年,Meta发布了一个能够支持200种语言的文本转文本翻译模型NLLB(No Language Left Behind),还推出了第一个针对闽南语的语音转语音翻译器。
今年5月,Meta推出了一个多模语言翻译器,能够识别并合成1100多种语言的语音。SeamlessM4T综合了上述所有项目的研究成果。
未来,Meta希望基于SeamlessM4T在翻译器开发领域进一步探索,最终创造一个没有语言障碍的世界。
X 关闭
Copyright © 2015-2022 起点纸业网版权所有 备案号:皖ICP备2022009963号-12 联系邮箱: 39 60 29 14 2@qq.com