NCMMSC论文介绍 | 探索语音自监督模型的高效融合算法

news2025/1/18 11:56:40

本文介绍了清华大学语音与音频技术实验室(SATLab)与上海交通大学跨媒体语言智能实验室(X-LANCE)合作的NCMMSC录用论文:Exploring Effective Fusion Algorithms for Speech Based Self-Supervised Learning Models。该论文提出了一系列语音自监督模型融合算法,并基于语音自监督模型的评测框架SUPERB展开一系列实验。实验结果表明,该论文中提出的融合算法,有效地结合了目前表现出色的语音自监督模型 HuBERT 与 Data2vec 的优势,提高了模型在说话人识别与语音识别任务上的表现。

01语音自监督模型各有偏好

近年来,自监督学习在语音领域取得巨大成功。语音自监督学习的一般思想,是基于语音的上下文信息进行重构或预测自身,使模型能够在无监督的情况下有效地学习底层结构信息。语音自监督模型可以在大量的无标记语音数据上进行预训练,然后在特定的下游任务上用少量的标注语音进行微调,以实现显著的性能提高。目前已涌现出一系列成功的语音自监督模型,如Wav2vec 2.0,HuBERT,WavLM,Data2vec等。

现有的研究表明,不同的语音自监督模型,对下游任务的偏好不同。在我们的工作中,我们基于SUPERB——一个语音自监督模型评测框架,首次评测了 Data2vec 在不同任务上的表现,并与现有的自监督模型进行对比。我们发现,一些模型在说话人相关的任务上表现出色,例如 HuBERT;一些模型在内容相关的任务上出类拔萃,例如 Data2vec。同时我们也发现,对于偏好不同的模型,其内部的transformer层编码了截然不同的信息,如图1所示。

图1. SUPERB评测系统中,HuBERT 与 Data2vec 在不同下游任务上的权重对比

我们思考,能否做到一种融合算法,将不同自监督模型的信息有效地提取并融合,使融合模型能够综合各模型的优点,在不同的下游任务上做到“十项全能”呢?基于此,我们提出了一系列融合算法,希望能够融合不同模型的优势。

02 语音自监督模型融合算法

我们提出并比较了四种针对多种自监督模型的融合方法(如图2所示):两种特征级融合和两种概率级融合。这四种方法的模型融合阶段,按照信息交互时间依次向后伸。

图2. 语音自监督模型的四种融合方式

设函数F表示下游模型,m为要融合的模型个数,l为每个模型的层数,wij,hij分别表示第 i 个模型的第 j 层特征的权值和隐层向量。

第一种融合算法,是简单地直接融合各模型特征。如图(2)a 图所示,我们直接将各模型各层特征进行线性加权,得到的融合特征送入下游模型中。这里,不同模型在前向传播后直接进行信息交流,最终针对特定任务的概率分布为

第二种融合算法,是对各模型进行结构化的融合。如图(2)b 图所示,首先,我们对每个自监督模型的不同层的特征进行加权求和;然后,我们应用第一步中这些输出再进行结构化的加权,以得到下游模型的输入。这里,不同模型提取的信息经历了各自的特征融合器之后才进行交流融合,最终得到针对特定任务的概率分布为

第三种融合算法,是在概率层面进行融合。如图(2)c 图所示,对于每个自监督模型,我们对不同层的特征进行加权,并将结果输入下游模型。下游模型的输出形成了一个任务标签的概率分布。我们在这里融合不同模型得到的概率分布,并使用融合的概率分布进行推理。不同模型提取的信息经过相同的下游模型后相互融合,最终得到的概率分布可表示为

第四种融合算法,与第三种类似,但不同自监督模型各自享有独立的下游模型,如图(2)d 图所示。不同下游模型产生的概率分布将被融合,融合的分布将用于最终的推断,最终的概率分布可表示为

03 模型融合实验与分析

为了更好地对比模型融合的效果,我们基于SUPERB,令自监督模型在微调过程中被冻结,只有较小的下游模型与模型的特征融合器(Featurizer)可以被更新。我们选择 Data2vec 和 HuBERT 作为待融合的模型,因为他们对下游任务不同的偏好,正是我们想要的。我们主要分析两大任务:说话人识别与语音识别,它们分别是说话人相关任务与内容相关任务的典型代表。

如图3所示,实验结果表明,对于说话人相关任务,仅仅是简单的特征融合,会大幅降低识别的准确率。这一大幅衰减,可以通过结构化的模型融合来避免。这一结论同样对语音识别任务有效。这可能是因为,如果直接融合往往会混淆信息,因为不同模型的内在特征有很大的不同,进行结构化加权后能够更好地利用模型的能力,而不会引起模型间的信息混淆。

同时,我们发现,对于说话人识别任务,信息交换的阶段越接近任务的标签,融合效果就越加有效。

图3. 四种融合方式在 SID 任务与 ASR 任务的表现

在大模型上,结构化融合同样适用。我们尝试了语音识别任务上大模型的结构化融合,词错率降低了7%,目前仍然是SUPERB上的最佳结果。

    图4. 结构化融合有利于大模型语音识别

我们提出了一系列模型融合方法,旨在综合不同语音自监督模型的优势。实验结果表明,我们提出的方法有效地综合了不同语音自监督模型在不同任务上的能力,相对于单个模型而言,融合模型的能力取得了显著的提升。

第一作者简介

 唐昌礼,清华大学电子工程系2020级本科生,曾于清华大学语音与音频技术实验室、上海交通大学跨媒体语言智能实验室参与 SRT 项目。

王与进,清华大学电子工程系2020级本科生,曾于清华大学语音与音频技术实验室、上海交通大学跨媒体语言智能实验室参与 SRT 项目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/116912.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动态列合并更新

【问题】 I have one query, would be great if anyone can help me out on this. In SQL, I have two tables with same column names. Want to query if there is any difference in the column values and if yes will update the values(in the first table) else if the…

【工具类】后台Mock工具类

目录一、介绍二、使用方法1. Controller层定义接口2. 编写json文件3. 开启AOP4. 调用接口验证三、源码一、介绍 Controller层定义完接口后,不需要写业务逻辑。编写Json文件,调用接口时返回json文件的数据。 优点: 设计阶段即可定义好接口&…

Centos 图形化yum管理工具 - yum Extender

文章目录背景安装开启yum-GUI工具 - yumexyum list installed列出软件包的依赖yum cleam背景 作为一个yum工程师,长期备受yum 命令的煎熬。 难道yum就乜有一个GUI管理界面吗? yum Extender (简称 yumex ) , 是 yum 的图形化操作界面。可以通过 yumex 方…

ActiveMQ高级特性和大厂面试常考重点

目录 一、引入消息队列之后该如何保证其高可用性 二、异步投递Async Sends 三、延迟投递和定时投递 四、ActiveMQ消费重试机制 五、死信队列 六、如何保证消息不被重复消费呢?幂等性问题你谈谈 一、引入消息队列之后该如何保证其高可用性 ActiveMQ集群模式_zoeil的博客-…

【机器学习】KNN 算法介绍

文章目录一、KNN 简介二、KNN 核心思想实例分析:K 值的影响三、KNN 的关键1. 距离计算1. 闵可夫斯基距离2. 曼哈顿距离3. 欧氏距离4. 切比雪夫距离5. 余弦距离总结2. K值选择四、KNN 的改进:KDTree五、KNN 回归算法参考链接一、KNN 简介 KNN 算法&#…

想在微信上使用chatGPT?小程序?公众号?企业微信,最终还是选择了企业微信版本的chatgpt

chatgpt的接口现在都可以正常用了,但是怎么把这个功能放在手机上随用随开呢?微信个人聊天版本小程序版本公众号版本企业微信版本逻辑实现方式微信个人聊天版本 网上很多微信机器人版本的,但是原理是网页版微信,很多账号都不能登陆…

golang指针

指针 区别于C/C中的指针,Go语言中的指针不能进行偏移和运算,是安全指针。 要搞明白Go语言中的指针需要先知道3个概念:指针地址、指针类型和指针取值。 1.1. Go语言中的指针 Go语言中的函数传参都是值拷贝,当我们想要修改某个变…

Linux中如何理解线程?线程ID到底是什么?

朋友们好,这里简要介绍了进程和线程的区别以及对LINUX中线程ID的理解,本人目前理解尚浅,若文中有表述不当的地方还望理解并指正,谢谢大家! 文章目录一:进程和线程二:线程ID和进程地址空间布局一…

5 项目部署

5.1 Linux-项目部署 5.1.1 环境 5.1.1.1 开发环境(dev) 外部用户无法访问,开发人员使用,版本变动很大 平时大家大多是在Windows或者Mac操作系统下去编写代码进行开发. 在开发环境中安装大量的软件,这样会导致环境的稳…

2022 年度盘点 | 更成熟的 AI,更破圈的技术狂欢

By 超神经内容一览:2022 年 AI 领域发展不断提速,新技术成果纷纷落地,模型迭代加速升级。本文总结了 2022 年 AI 领域各大公司的技术成就。关键词:年终盘点 大厂 技术创新2022 年在此起彼伏的咳嗽声中接近尾声,这一…

onCreate、onSaveInstanceState、onRestoreInstance一个参数和两个参数

Android Studio移动应用开发——onCreate、onSaveInstanceState、onRestoreInstance一个参数和两个参数_dear_jing的博客-程序员宅基地 - 程序员宅基地 在做Android生命周期实验过程中,把 Log.i(TAG, "(1) onCreate()") 写到了含有两个参数的函数 onSave…

HTML5 元素拖放

文章目录HTML5 元素拖放概述触发事件实现元素拖放功能dataTransfer元素拖动效果垃圾箱效果HTML5 元素拖放 概述 在HTML5中,我们只需要给元素添加一个draggable属性,然后设置该属性值为true,就能实现元素的拖放。 拖放,指的是“…

【Python】Numpy分布函数总结

文章目录总表均匀分布和三角分布幂分布与正态分布相关的分布与Gamma相关的分布极值分布总表 np.random中提供了一系列的分布函数,用以生成符合某种分布的随机数。下表中,如未作特殊说明,均有一个size参数,用以描述生成数组的尺寸…

【综合笔试题】难度 1.5/5,常规二叉树爆搜题

题目描述 这是 LeetCode 上的 95. 不同的二叉搜索树 II ,难度为 中等。 Tag : 「树」、「二叉搜索树」、「BST」、「DFS」、「递归」、「爆搜」 给你一个整数 n,请你生成并返回所有由 n 个节点组成且节点值从 1 到 n 互不相同的不同 二叉搜索树 。可以…

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

这些机器学习领域的研究你都读过吗? 2022 年即将步入尾声。在这一年里,机器学习领域涌现出了大量有价值的论文,对机器学习社区产生了深远的影响。 今日,ML & NLP 研究者、Meta AI 技术产品营销经理、DAIR.AI 创始人 Elvis S.…

CSRF漏洞渗透与攻防(一)

目录 前言 什么是CSRF漏洞 CSRF实现流程 CSRF漏洞危害 XSS漏洞危害 CSRF与XSS区别 CSRF分类 GET型: POST型: CSRF漏洞案列模拟 CSRF常用Payload: CSRF漏洞挖掘 检测工具 CSRF漏洞防御 防御思路 我们该如何去防御CSRF漏洞…

LeetCode动态规划—打家劫舍从平板板到转圈圈(198、213)

打家劫舍平板板打家劫舍转圈圈打家劫舍(进阶版)平板板打家劫舍 转化子问题: 按顺序偷n间房子,就是考虑偷前n-1间房子还是偷前n-2间房子再偷第n间房子。 列出公式: res[n] max{ res[n-1] , 数组中最后一个数据res[n-…

企业信息化之源代码防泄密场景分析

场景描述 随着企业信息化发展迅速,越来越多的无形资产面临着被泄露,被盗取的,或员工无意导致的数据泄密风险。尤其是有源码开发的企业,源代码的安全更是重中之重,一旦泄密,有可能给企业带来不可估量的损失…

全程数字化的企业电子招标采购管理系统源码

全程数字化的采购管理 智能化平台化电子化内外协同 明理满足采购业务全程数字化, 实现供应商管理、采购需求、全网寻源、全网比价、电子招 投标、合同订单执行的全过程管理。 传统采购模式面临的挑战 如何以最合适的价格,找到最优的供应商,购买到最好的产品和服务?…

程序员必备网站,建议收藏!

俗话说的好,一个程序员,20%靠知识储备,80%靠网络搜索。 打开代码,打开Google,开始工作。 那么常用的写码软件,你知道几个呢? 下面我们来一起看一下常用的写码软件吧~ 建议收藏本文&#xff…