追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事:在古代,人们说着同一种语言,决定建造一座高耸入云,塔顶能触及天堂的塔,被称为巴别塔,以彰显人类的力量和创造力。然而上帝看到人类的意图,并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同,使他们无法相互理解。这导致了混乱和分裂,无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日,Meta推出AI模型SeamlessM4T,该模型可翻译和转录近百种语言,似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。
Meta 表示,SeamlessM4T可以在近 100 种语言之间进行文本到语音的翻译,并支持 36 种语言的完全语音到语音翻译,而此前要想实现类似的操作只能在单独的 AI 模型中分别进行翻译。这项技术相比于传统的文本翻译,最大的价值和挑战,在于可以直接对人类的语音进行端到端的翻译,从一种语言的语音直接翻译到另一种语言。这就可以使得人和人直接通话,不再需要复杂的中间模块来转换。
支持SeamlessM4T的模型进行语音到语音翻译需要大量高质量端到端数据。而数据资源稀缺也是端到端语音翻译方法最大的挑战之一。更具体地来说,是因为语音翻译数据集构建流程复杂、成本高:在获取授权音频的前提下进行对应的转写和翻译。接着需要对音频、转写和翻译进行切分,最后还要对齐以及过滤以获得有效的数据。
晴数智慧布局对话式AI数据集多年,关注到大模型带来了大规模的对话式场景落地,在3年前开始规划语音翻译数据集产品设计。高质量的语音翻译数据集成为基础能力制约的关键。晴数智慧并设计生产了各个语言(方言)的端到端翻译数据集:MagicData-CLAM-E2E数据集。今天,当所有的AIoT设备和人类对话的时候,我们可以基于这样的高质量语音翻译数据集,完成多语言间的自然转换。通天巴别塔的道路即在脚下。
晴数智慧MagicData-CLAM-E2E数据集样例展示:
上海话-中文普通话
WAV
TRANSCRIPTION
姑娘,吾敬侬是条汉子!
TRANSLATION
妹子,我敬你是条汉子!
广式粤语-中文普通话
WAV
TRANSCRIPTION
我手机坏咗,唔可以上网啦,第日啦瞓啦
TRANSLATION
我手机坏了,不能上网了,来日吧,睡了
英语-中文 (MDT2019S004)
WAV
TRANSCRIPTION
It is on a two-hectare farm in southern California.
TRANSLATION
它位于加利福尼亚南部的一个占地两公顷的农场上。
西班牙语-中文 (MDT2018S021)
WAV
TRANSCRIPTION
Mi abuelo llegó a ganar un café a las cartas.
TRANSLATION
我的祖父甚至在牌桌上赢了一杯咖啡。
晴数智慧希望能通过高质量MagicData-CLAM系列数据集帮助更多企业科研机构用高效、低成本地构筑高性能端到端语音翻译模型,打造AI时代的巴别塔。