阿里通义音频生成大模型 FunAudioLLM 开源!

news2024/10/7 15:28:28

01

导读

人类对自身的研究和模仿由来已久,在我国2000多年前的《列子·汤问》里就描述了有能工巧匠制作出会说话会舞动的类人机器人的故事。声音包含丰富的个体特征及情感情绪信息,对话作为人类最常使用亲切自然的交互模式,是连接人与智能世界至关重要的环节。

近日,阿里通义实验室发布并开源了语音大模型项目FunAudioLLM,旨在深化人类与大型语言模型(LLMs)之间的自然语音交互体验。这一框架的核心是两个创新模型:SenseVoice和CosyVoice。

图片

CosyVoice 致力于自然语音生成,支持多语言、音色和情感控制,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。

  • 多语言合成:采用了总共超15万小时的数据训练,支持中英日粤韩5种语言的合成,合成效果显著优于传统语音合成模型。

  • 极速音色模拟:仅需要3~10s的原始音频,即可生成模拟音色,甚至包括韵律、情感等细节。在跨语种的语音合成中,也有不俗的表现。

  • 富文本或自然语言的细粒度控制:支持以富文本或自然语言的形式,对合成语音的情感、韵律进行细粒度的控制,合成音频在情感表现力上得到明显提升。

SenseVoice 则专注于高精度多语言语音识别、情感辨识和音频事件检测。

  • 多语言识别:采用超过40万小时数据训练,支持超过50种语言,识别效果上优于Whisper模型,中文与粤语上提升50%以上。

  • 富文本识别:

  • 具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。

  • 支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。

  • 推理速度:SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-large。

02

应用场景

基于SenseVoice和CosyVoice模型,FunAudioLLM可支持较多的人机交互应用场景,例如音色情感生成的多语言语音翻译、情绪语音对话、互动播客、有声读物等。

同音交传:模拟音色与情感的多语言翻译

图片

通过结合SenseVoice、LLMs以及CosyVoice,我们可以无缝地进行语音到语音的翻译(S2ST)。需要注意的是,原始录音在文本中会以粗体显示。这种集成化的方法不仅提升了翻译的效率和流畅性,而且通过感知语音中的情感和语调,它能够在译文中复现原始语音的情感色彩,让对话的交流更加真实和动人。

无论是多语种的会议通译、跨文化的交流沟通,还是为非母语者提供即时语音翻译服务,这一技术都将大大缩小语言差距和沟通中的信息减损。

强情感交互的语音对话

图片

通过融合SenseVoice、大型语言模型(LLMs)和CosyVoice,能够支持开发一款情感语音聊天应用程序。

当SenseVoice解析出情绪/情感/咳嗽等副语言信息后,大模型输出相对应的反馈情绪,并由CosyVoice合成出适当的声音情绪,从而完成舒适自然的对话交互过程。在以下示例中,用户和助手的所有对话内容均由CosyVoice合成。

图片

专属AI博客电台

图片

通过将SenseVoice、基于LLM的具有实时世界知识的多代理系统和CosyVoice整合,我们能够创造一个互动式播客电台。

在这样的播客中,SenseVoice利用其高精度多语言语音识别功能,实时捕捉AI播客和用户的对话,甚至能够辨识环境音效和情感。LLM多代理系统则能够处理SenseVoice提供的语音数据,实时更新世界知识库,确保话题和信息的及时性和准确性。

在交互中,用户可以随时打断AI播客的对话,引导主题方向等,CosyVoice将用于生成AI播客的语音,具备多种语言、音色和情感的控制能力,为听众带来丰富多彩的听觉体验。

图片

有声读物

图片

借助LLMs出色的分析能力,可对书籍内容进行结构化并识别其中的情感,再与CosyVoice的语音合成技术结合,我们能够实现具有更高表现力的有声读物。

LLMs深入理解文本,捕捉每一个情感波动和故事弧线,而CosyVoice则将这些情感细腻地转化为语音,带有特定的情绪色彩和强调,为听众提供一个不仅丰富多彩而且情感充沛的听觉体验。

这样的有声读物不再是单一无变化的朗读,而是一场充满情感与生动表达的听觉盛宴,让每个故事和角色都栩栩如生。

图片

03

技术原理解析

CosyVoice

CosyVoice是一款基于语音量化编码的语音生成大模型。它对语音进行离散化编码,并依托大模型技术,实现自然流畅的语音合成体验。与传统语音合成技术相比,CosyVoice具有韵律自然、音色逼真等特点。CosyVoice支持多达5种语言,同时还支持以自然语言或富文本形式对合成语音进行情感等维度的细粒度控制。我们提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct,可满足不同场景下的使用需求。

图片

研究团队还使用预训练的情感分类模型评价了CosyVoice的情感控制能力,主要包括高兴/悲伤/生气/害怕/反感等5种高表现力的语音情感。CosyVoice-300M本身具备一定从文本内容中推断情感的能力,经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高,具备更强的情感控制能力。

SenseVoice

SenseVoice是一个基础语音理解模型,具备多种语音理解能力,涵盖了自动语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED)。该模型旨在提供全面的语音处理功能,从而支持构建更复杂的语音交互系统。

SenseVoice-Small 是一款仅含编码器的轻量级基础语音模型,设计用于快速语音理解。它可以快速处理语音数据,并在有需要时迅速做出响应,适用于对延迟敏感的应用场合,如实时语音交互系统。SenseVoice-Large 则是一个包含编码器和解码器的大型基础语音模型。这个版本的SenseVoice专注于更精确的语音理解,拥有对更多语言的支持能力。它适合于对识别精度有更高要求的场景,可以处理更复杂的语音输入,并生成更为准确的结果。

图片

SenseVoice-Small与SenseVoice-Large模型都能在语音中检测音频事件,包括音乐、掌声和笑声。SenseVoice-Large模型除了能够预测音频事件的类型,还能精准识别事件发生的起始和结束位置。与之相比,SenseVoice-Small模型虽然仅能预测音频中发生的事件类型(仅限于一个事件),但它能够检测到更多种类的事件,诸如在人机互动过程中可能出现的咳嗽、打喷嚏、呼吸和哭泣等。

04

魔搭社区体验

CosyVoice和SenseVoice相关的模型已在ModelScope上开源,同时在GitHub上发布了相应的训练、推理和微调代码,欢迎大家体验!

CosyVoice

  • **开源仓库:**https://github.com/FunAudioLLM/CosyVoice

  • 模型地址:

  • **CosyVoice-300M:**https://www.modelscope.cn/models/speech_tts/CosyVoice-300M

  • **CosyVoice-300M-SFT:**https://www.modelscope.cn/models/speech_tts/CosyVoice-300M-SFT

  • **CosyVoice-300M-Instruct:**https://www.modelscope.cn/models/speech_tts/CosyVoice-300M-Instruct

  • **在线体验:**https://www.modelscope.cn/studios/iic/CosyVoice-300M

选择【预置语音生成】

选择预制的几个不同性别/语种的音色,输入文本合成试听效果(可尝试输入[laughter],触发彩蛋~)

图片

效果试听:

选择【定制语音生成】

直接录一句话,即可用自己的音色输出更多合成文本,支持下载~

图片

一句话录音:

定制生成效果试听:

选择【高级语音生成(支持自然语言控制)】

在【预置语音生成】功能的基础上,可通过自定义情绪、语速等修饰,让合成文本的情景感更可控、生动。

图片

效果试听:

SenseVoice

  • **开源仓库:**https://github.com/FunAudioLLM/SenseVoice

  • **模型地址:**https://www.modelscope.cn/models/iic/SenseVoiceSmall

  • **在线体验:**https://www.modelscope.cn/studios/iic/SenseVoice

  • 小程序体验:

图片

<一起在线体验>

上传音频文件或通过麦克风输入,选择任务和语言

音频将被转录成相应的文本,并附带相关情感(😊 高兴,😡 生气/激动,😔 悲伤) 和 声音事件类型(😀 笑声,🎼 音乐,👏 掌声,🤧 咳嗽&打喷嚏,😭 哭泣)

让我们来试试同一句话的两个不同情绪的识别效果:

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1903055.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

gcc的编译C语言的过程

gcc的简介 GCC&#xff08;GNU Compiler Collection&#xff09;是由GNU项目开发和维护的一套开源编程语言编译器集合。它支持多种编程语言&#xff0c;包括但不限于C、C、Objective-C、Fortran、Ada等。GCC被广泛应用于编译和优化各种程序&#xff0c;是许多开发者和组织的首选…

【Unity数据交互】如何Unity中读取Ecxel中的数据

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 专栏交流&#x1f9e7;&…

picgo+gitee图床配置

node.js安装 刚开始顺着picgo操作,直接跳转到了node.js官网 下载的时候直接 Next,然后可以自定义安装路径,我的安装路径是C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Node.js 然后再在安装路径的根目录下新建两个文件夹,nodecache 和 nodeglobal, 如图所示:…

ida动态调试-cnblog

ida动态调试 传递启动ida服务 android_server在ida\dbgsrv目录中 adb push android_server /data/local/tmp/chmod 755 /data/local/tmp/android_server /data/local/tmp/android_serveradb forward tcp:23946 tcp:23946ida报错:大多是手机端口被占用 报错提示&#xff1a; …

GD32 MCU ADC采样率如何计算?

大家在使用ADC采样的时候是否计算过ADC的采样率&#xff0c;这个问题非常关键&#xff01; 以下为GD32F303系列MCU中有关ADC的参数&#xff0c;其中ADC时钟最大值为40MHz&#xff0c;12位分辨率下最大采样率为2.86MSPS.如果ADC时钟超频的话&#xff0c;可能会造成ADC采样异常&…

ARTS Week 36

unsetunsetAlgorithmunsetunset 本周的算法题为 1528. 重新排列字符串 给你一个字符串 s 和一个 长度相同 的整数数组 indices 。 请你重新排列字符串 s &#xff0c;其中第 i 个字符需要移动到 indices[i] 指示的位置。 返回重新排列后的字符串。 img 示例 1&#xff1a;输入&…

Google RichHF-18K 文本到图像生成中的丰富人类反馈

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

使用python编程的视频文件列表应用程序

简介&#xff1a; 在本篇博客中&#xff0c;我们将介绍一个基于 wxPython 的视频文件列表应用程序。该应用程序允许用户选择一个文件夹&#xff0c;并显示该文件夹中的视频文件列表。用户可以选择文件并查看其详细信息&#xff0c;导出文件列表为文本文件&#xff0c;以及播放…

Python酷库之旅-第三方库Pandas(008)

目录 一、用法精讲 16、pandas.DataFrame.to_json函数 16-1、语法 16-2、参数 16-3、功能 16-4、返回值 16-5、说明 16-6、用法 16-6-1、数据准备 16-6-2、代码示例 16-6-3、结果输出 17、pandas.read_html函数 17-1、语法 17-2、参数 17-3、功能 17-4、返回值…

68.WEB渗透测试-信息收集- WAF、框架组件识别(8)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a; 易锦网校会员专享课 上一个内容&#xff1a;67.WEB渗透测试-信息收集- WAF、框架组件识别&#xff08;7&#xff09; 右边这些是waf的…

C++ | Leetcode C++题解之第217题存在重复元素

题目&#xff1a; 题解&#xff1a; class Solution { public:bool containsDuplicate(vector<int>& nums) {unordered_set<int> s;for (int x: nums) {if (s.find(x) ! s.end()) {return true;}s.insert(x);}return false;} };

R语言fastshap包进行支持向量机shap可视化分析

1995年VAPINK 等人在统计学习理论的基础上提出了一种模式识别的新方法—支持向量机 。它根据有限的样本信息在模型的复杂性和学习能力之间寻求一种最佳折衷。 以期获得最好的泛化能力.支持向量机的理论基础决定了它最终求得的是全局最优值而不是局部极小值,从而也保证了它对未知…

揭秘Conda:Python开发者必备的包管理神器

conda 简介 Conda 是一个开源的包管理系统和环境管理系统&#xff0c;用于安装和管理软件包以及创建和维护不同的软件环境。 它最初是为 Python 语言设计的&#xff0c;但现在已经支持多种编程语言&#xff0c;包括 R、Ruby、Lua、Scala 等。 1、Anaconda&#xff1a;是一个…

041基于SSM+Jsp的高校校园点餐系统

开发语言&#xff1a;Java框架&#xff1a;ssm技术&#xff1a;JSPJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包…

在pycharm中使用jupyter

在pycharm中使用jupyter 前置条件&#xff1a;你的环境中应该有juptyer &#xff0c;没有的话 pip install jupyter 点击项目目录&#xff0c;右键->new->jupyter notebook 打开file settings 找到 jupyter server &#xff08;按照默认的用代理服务器就行&#xff09; P…

整洁架构SOLID-单一职责原则(SRP)

文章目录 定义案例分析重复的假象代码合并解决方案 小结 定义 SRP是SOLID五大设计原则中最容易被误解的一个。也许是名字的原因&#xff0c;很多程序员根据SRP这个名字想当然地认为这个原则就是指&#xff1a;每个模块都应该只做一件事。 在历史上&#xff0c;我们曾经这样描…

全网最适合入门的面向对象编程教程:10 类和对象的Python实现-类的继承和里氏替换原则,Python模拟主机和传感器自定义类

全网最适合入门的面向对象编程教程&#xff1a;10 类和对象的 Python 实现-类的继承和里氏替换原则&#xff0c;Python 模拟主机和传感器自定义类 摘要&#xff1a; 本文主要介绍了类的继承的基本概念和里氏替换原则&#xff0c;以模拟传感器数据串口输出-上位机串口接收为例…

Python结合MobileNetV2:图像识别分类系统实战

一、目录 算法模型介绍模型使用训练模型评估项目扩展 二、算法模型介绍 图像识别是计算机视觉领域的重要研究方向&#xff0c;它在人脸识别、物体检测、图像分类等领域有着广泛的应用。随着移动设备的普及和计算资源的限制&#xff0c;设计高效的图像识别算法变得尤为重要。…

【反悔贪心 反悔堆】1642. 可以到达的最远建筑

本文涉及知识点 反悔贪心 反悔堆 LeetCode1642. 可以到达的最远建筑 给你一个整数数组 heights &#xff0c;表示建筑物的高度。另有一些砖块 bricks 和梯子 ladders 。 你从建筑物 0 开始旅程&#xff0c;不断向后面的建筑物移动&#xff0c;期间可能会用到砖块或梯子。 当…

AJAX-个人版-思路步骤整理版

前置知识&#xff1a;老式的web创建工程方法就是创建项目然后添加web工件&#xff0c;然后添加lib依赖如&#xff1a;tomcat,servlet&#xff0c;等。 传统请求 对于传统请求操作&#xff1a;整体流程也就是创建静态页面&#xff0c; <!DOCTYPE html> <html lang&q…