Meta 开源语音 AI 模型支持 1,100 多种语言

news2024/11/24 11:06:12

自从ChatGPT火爆以来,各种通用的大型模型层出不穷,GPT4、SAM等等,本周一Meta 又开源了新的语音模型MMS,这个模型号称支持4000多种语言,并且发布了支持1100种语言的预训练模型权重,最主要的是这个模型不仅支持ASR,还支持TTS,也就是说不仅可以语音转文字,还可以文字转语音。

因为以前对语音方面没有研究,所以我就查阅了一下资料,世界上一共有 7,000 多种语言(我一直以为只有几百),目前的语音识别技术目前仅能覆盖100多种,其实我觉得100多种已经够用了,当然如果有特殊的研究需要那要另说。

Facebook (Meta) AI 的最新大型多语言语音 (MMS) 项目可以为 1,100 多种语言提供语音转文本、文本转语音等功能。这是现有模型的 10 倍!它的官网blog上特别提到了Tatuyo 语,只有几百人在使用。这其实对于日常来说没什么用,但是对于研究来说这是一个很好的例子,因为只有几百人如何找到并有效的提炼数据集呢?

Meta 与 OpenAI 的 Whisper 做了详细的对比,在数据上训练的模型实现了一半的单词错误率,并且训练数据更少:

可以看到它的训练数据只有45k 小时的标注数据,要比Whisper少10倍,而语言支持也多了10倍,这是一个大的提高。在blog中还特意提到了使用了 《圣经》这种流传广泛,翻译语种多的内容作为数据集,我觉得这是一个很好方向。

MMS 项目还利用了 wav2vec 2.0 自监督语音表示学习技术的优势。在 1,400 种语言的大约 500,000 小时的语音数据上进行自监督的训练,明显减少了对标记数据的依赖。然后针对特定的语音任务对生成的模型进行微调,例如多语言语音识别和语言识别。

Whisper 的效果对于我来说就已经非常好了,我也一直在使用他做为语言转文字的工具,如果MMS的效果更好,那对于我们来说简直太棒了,并且MMS还支持 language identification (LID) 也就说可以自动识别所说的语言,但是经过我的测试,这个对于支持这么多种语言的模型来说有一个致命的错误,就是转录或错误解释可能会导致冒犯性或不准确的语言。

还记得大张伟吗,越是准确的模型越会出问题:

这种多语言语音模型的出现使得语言障碍将被打破,来自全球每个角落人们都可以通过声音正常的交流。还记得META烂尾的VR和AR应用吗,我觉得MMS应该是它们VR的一个子项目,VR烂尾很正常,但是这个MMS会为我们带来更多的进步。

最后地址,里面有预训练模型下载和安装方法:

https://avoid.overfit.cn/post/b4e41042a2ee4a21a82e4a48f1061f05

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/566881.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

行业报告 | 2022文化科技十大前沿应用趋势(上)

文 | BFT机器人 前言 Introduction 文化科技是文化科技融合过程中诞生的系列新技术成果,是文化强国和科技强国两大战略的交又领域。2012 年 8月,科技部会同中宣部、财政部、文化部、广电总局、新闻出版总署发布《文化科技创新工程纲要》,开启…

为何AI无法完全理解人类情感?GPT-4能否理解人类的情绪?

在科幻小说和电影里,我们经常看到超级AI人工智能机器人可以理解、感知甚至模拟人类的情感,但在现实世界中,我们距离这个目标还有一段相当长的距离,即使是强大的GPT-4甚至未来的GPT-5。过高夸大AI的体验和性能,往往并不…

gin框架返回json

一、使用gin web框架开发的两种模式: 前端浏览器去请求服务器,服务器把完整的HTML文件的内容返回给前端浏览器Vue、reactor等前端框架都自己提前定义好模板,后端(服务器)只需要返回JSON格式的数据给前端框架即可&…

如何在MyEclipse中使用JavaScript编写代码?

MyEclipse v2022.1.0正式版下载 JavaScript 项目 在 MyEclipse 2021 及更高版本中,JavaScript 支持对大多数 JavaScript 源代码都是开箱即用的——不需要特殊的 JavaScript Eclipse 项目或 JavaScript facet。但是,我们建议使用jsconfig.json文件来指定…

SAP 物料主数据基本数据1视图 参数有效值 字段的作用测试 <转载>

原文链接:https://blog.csdn.net/weixin_40672823/article/details/104773643 1.在物料主数据基本数据1视图中有个字段 参数有效值 如下图 有什么用途? 这个字段作用主要用在 BOM里面,官方说明如下 看说明很难理解下面通过一个业务实例来说明 业务要…

HOOPS平台助力Xometry数字化转型:即时报价产品实现三维模型轻量化、Web端可视化!

所属行业:制造业 挑战:为在线客户的制造平台提供流畅的客户体验、支持使用多种类型CAD文件格式的不同客户群、根据模型提供准确的报价和可制造性反馈、快速准确地可视化定制零 解决方案: HOOPS Platform 提供web端和移动设备的3D数据转换、…

擎创技术流 | 一文读懂eBPF对kubernetes可观测的重要性

一、云原生技术发展的背景与问题 当前,云原生技术主要是以容器技术为基础围绕着 Kubernetes的标准化技术生态,通过标准可扩展的调度、网络、存储、容器运行时接口来提供基础设施,同时通过标准可扩展的声明式资源和控制器来提供运维能力。两层…

Servlet【最复杂的hello world】

目录 一、Hello World 1.创建项目 2.引入依赖 3.创建目录 4.编写代码 4.1 继承 HttpServlet 父类,重写 doGet 方法 4.2 在 doGet 中编写代码,打印 hello world 4.3 给 HelloServlet 加上注解 4.4 完整代码 5.打包代码 6.部署 7.验证程序 二…

分享一个403界面给大家

先看效果图&#xff08;说明&#xff1a;小鬼影会飘来飘去&#xff0c;长时间停留会有小惊喜&#xff0c;具体大家跑一下就知道&#xff09;&#xff1a; 代码如下&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UT…

depends_on 解决 docker 容器依赖问题

如果你经常使用docker-compose启动服务的话&#xff0c;可能会遇到下面的问题&#xff1a;服务 B 依赖服务 A&#xff0c;需要服务 A 先启动&#xff0c;再启动服务 B 举个例子&#xff0c;在部署 kafka 集群的时候&#xff0c;需要启动两个kafka&#xff0c;并使用zookeeper做…

基于云计算和物联网技术开发的智慧校园云平台源码

智慧校园系统是利用物联网和云计算&#xff0c;强调对教学、科研、校园生活和管理的数据采集、智能处理、为管理者和各个角色按需提供智能化的数据分析、教学、学习的智能化服务环境。它包含“智慧环境、智慧学习、智慧服务、智慧管理”等层面的内容。 文末获取联系 它描绘的是…

准备搞个大动作!

目前我们的会员群的同学越来越多&#xff0c;然后我们提供的内容已经从起步篇&#xff0c;趣味篇&#xff0c;工具篇到高级篇了。但是到了高级篇很多内容都跟编程相关&#xff0c;有一点门槛&#xff0c;如果单单看文字是肯定无法满足大家的需求。为了更好的服务大家&#xff0…

跃升数字生产力,九州云受邀出席闵行国际人才月

5月22日&#xff0c;由闵行人才工作领导小组办公室指导、中共闵行区马桥镇委员会及闵行区马桥镇人民政府主办、上海人工智能研究院协办的首届“大零号湾”国际人才月马桥人工智能周成功召开。 本届大会以“AI才共赢 智敬未来”为主题&#xff0c;探讨科技创新的最新动态和趋势&…

如何使用Linux Top命令

Linux中的top命令允许您监视当前正在运行的进程及其使用的系统资源。作为系统管理员&#xff0c;它可能是工具箱中最有用的工具&#xff0c;特别是如果您知道如何使用它的话。所有Linux发行版都预装了top实用程序。通过这个交互式命令&#xff0c;您可以自定义如何浏览进程列表…

电脑蓝屏该如何给电脑重装系统

电脑蓝屏问题是让人头疼的常见故障之一&#xff0c;而重装系统是解决蓝屏问题的有效方法。本文将为您详细介绍如何在电脑蓝屏的情况下进行系统重装&#xff0c;轻松摆脱蓝屏困扰。 工具/原料&#xff1a; 系统版本&#xff1a;windows10系统 品牌型号&#xff1a;华为MateBoo…

常见的黄金期货交易风险包含哪些内容?

黄金期货交易作为受市场欢迎的投资理财方式&#xff0c;兼具高风险和高收益并存的特性。黄金期货交易风险也同样存在&#xff0c;那常见的黄金期货交易风险包含哪些内容&#xff1f; 黄金期货交易风险一、市场风险 投资者在黄金期货交易中&#xff0c;主要的风险来源于市场价格…

快来试试!免费用上GPT-4 !!!

GPT-4 简介 GPT-4是OpenAI上个月推出的最新人工智能语言模型&#xff0c;它可以根据给定的文本或关键词生成各种类似于人类语言甚至超越人类语言的文本&#xff0c;例如文章、故事、诗歌、代码、对话等。 GPT-4拥有1750亿个参数&#xff0c;是目前最大的语言模型之一&#xf…

红米8a,刷机到安卓调用之路

什么是BL锁&#xff1f; https://baijiahao.baidu.com/s?id1614459630284912892&wfrspider&forpc bl锁简单来说&#xff0c;就是厂商为了自己的目的&#xff0c;为了避免刷机&#xff0c;而人为设置的一道障碍&#xff0c;我的第一步就需要等待168小时&#xff0c;经…

随想011:关于编程

1945 年时&#xff0c;刚开始有计算机&#xff0c;那时候使用二进制数编程到了40年代末期&#xff0c;出现了汇编器&#xff0c;可以自动将汇编程序转换为二进制数序列1951 年 Grace Hopper 发明了编译器1957 年&#xff0c;Fortran&#xff0c;第一个高级语言&#xff0c;首次…

npm 无法下载 win32-x64-72_binding.node

使用npm安装node-sass时&#xff0c;其依赖了win32-x64-72_binding.node&#xff0c;但是一直提示“cannot download http://xxx/win32-x64-72_binding.node”&#xff0c;有两种方案可以解决&#xff0c;一种是在有私服的情况下&#xff0c;可以通过设置 SASS_BINARY_SITE 环境…