达摩院开源工业级说话人识别模型CAM++

news2024/11/18 5:30:30

近日,达摩院正式向公众开源工业级说话人识别通用模型CAM++,兼顾准确率和计算效率,训练labels类别达20万,每类含20~200条梅尔频谱特征。当前该模型已上线Modelscope魔搭社区,后续将陆续开源针对各场景优化的工业级模型。

模型下载地址👇:

https://www.modelscope.cn/models/damo/speech_campplus_sv_zh-cn_16k-common/summary

模型效果

CAM++在公开的英文数据集VoxCeleb中文数据集CN-Celeb上通过实验验证,获得了0.73%和6.78%的EER,优于ECAPA-TDNN和ResNet34。使用20万类别训练的CAM++更是将CN-Celeb测试集EER刷新到4.32%

同时我们比较了三者的参数量,计算量和推理实时率,结果显示CAM++在计算量和推理速度上有非常明显的优势,相比ECAPA-TDNN有着不到一半的计算量和RTF(实时率)。高准确率低实时率意味着实际应用中CAM++可以快速地提取准确的说话人特征,更加容易的应用于各种任务和实时场景下。

表1. 在单核CPU上推理时,CAM++的RTF显著优于ResNet34和ECAPA-TDNN

表2. 各模型在CN-Celeb上错误率(EER)对比

表3. 使用VoxCeleb训练集和相同的数据增广时,CAM++错误率(EER)依然低于ResNet34和ECAPA-TDNN

在说话人识别领域中,主流的说话人识别模型大多是基于时延神经网络或者二维卷积网络,比如ECAPA-TDNN和ResNet模型,这些模型获得理想性能的同时,通常伴随着较多的参数量和较大的计算量。如何兼具准确识别和高效计算,实现整体优解,是当前说话人识别领域的研究热点之一。

为此,达摩院提出说话人识别模型CAM++。该模型主干部分采用基于密集型连接的时延网络(D-TDNN),每一层的输入均由前面所有层的输出拼接而成,这种层级特征复用和时延网络的一维卷积,可以显著提高网络的计算效率。

同时,D-TDNN的每一层都嵌入了一个轻量级的上下文相关的掩蔽(Context-aware Mask,CAM)模块。CAM模块通过全局和段级的池化操作,提取不同尺度的上下文信息,生成的mask可以去除掉特征中的无关噪声。TDNN-CAM形成了局部-段级-全局特征的统一建模,网络可以学习到特征中更加丰富的说话人信息。CAM++的前端模块是一个轻量的残差卷积网络,采用时频维度的二维卷积。相比一维卷积,二维卷积的感受野更小,可以捕获更加局部和精细的频域信息,同时,还对输入特征中可能存在的说话人特定频率模式偏移具有鲁棒性。

(CAM++模型结构图)

References:

[1]训练环境代码:

https://github.com/alibaba-damo-academy/3D-Speaker/tree/main/egs/sv-cam%2B%2B

[2]论文地址:https://arxiv.org/abs/2303.00332

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/445232.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TCP协议三次握手过程分析

TCP(Transmission Control Protocol) 传输控制协议 TCP是主机对主机层的传输控制协议,提供可靠的连接服务,采用三次握手确认建立一个连接: 位码即tcp标志位,有6种标示:SYN(synchronous建立联机) ACK(acknowledgement 确认) PSH(push传送) FIN(finish结…

Vue3技术4之watch监视属性、watch时value问题

Vue3技术4 watch监视属性watch监视ref定义的数据情况一:监视ref所定义的一个响应式数据App.vueDemo.vue 情况二:监视ref所定义的多个响应式数据App.vueDemo.vue 添加immediate属性Demo.vue watch监视reactive定义的数据情况一:监视reactive所…

直播带货冲击实体生意,杭州四季青打响禁止直播带货第一枪

最近,“杭州四季青部分市场禁止直播”的话题冲上热搜。 身处“直播电商之城”杭州的“中国服装行业第一街”杭州四季青的部分市场,打响了“驱逐直播第一枪”! 杭州四季青部分市场内为什么要明令禁止直播,直播卖货对实体商户带来了…

华锐3d虚拟数字人提供哪些智能化服务?

虚拟数字人的诞生是互联网时代的产物,它的出现为数字化经济提供了全新解决方案。数字化技术和网络使人类得以进入以“智能机器数据算法”为主线的新生态之中。 广州华锐互动作为专业的AI虚拟数字人开发商,拥有成熟的技术团队和一流的解决方案&#xff0…

零售数据分析操作篇15:用总聚合做销售分析

上一讲讲了内存计算筛选,又可称之为自定义计算成员筛选,即当某列是通过自定义计算成员得到的时候,还要想利用其作为筛选条件,就需要用到自定义计算成员筛选功能。 上一讲还给大家出了道作业,就是:想知道哪…

RHCE-DNS服务器

主机名称解析服务器配置 要求: 1、建立DNS服务器,负责解析的域为openedu.com; 建立DNS首先需要在服务器端配置主配置文件: (1)临时关闭防火墙和selinux:systemctl stop firewalld;…

靶机精讲之HackademicRTB1

主机发现 nmap扫描 端口扫描 只有80端口开放 UDP扫描 web渗透 服务扫描 脚本扫描 DOS攻击漏洞 枚举漏洞 查看web端 进行目录爆破 点击 点击后发现地址结构像有目录爆破 接上面枚举漏洞 复制那枚举目录到web 接目录爆破 apeache服务器 查看内容管理系统是否是自建的 在库搜索…

【rustdesk】rust入门及 windows尝试编译

rustup 微软建议用vs code开发 下载了64位的版本: vs code 插件 rust-analyer 介绍Better TOML,用于更好的展示.toml文件Error Lens, 更好的获得错误展示 One Dark Pro, 非常好看的Vscode主题 CodeLLDB, debugger程序 安装

2023年工商管理在职研究生择校、择专业指南

工商管理在职研究生是许多管理岗位从业者提升职业素质、竞争力的重要途径。 工商管理在职研究生学习的内容更加专业、深入,涵盖的领域更加广泛,通过学习,可以提高专业素养,掌握更深入的理论和实务知识,拓宽人脉&#…

爆爆爆!!Deep Mind与Google Brain合并,成立 Google DeepMind 新部门

图|2010-2023,从 DeepMind 到 Google DeepMind,再到 DeepMind,再到 Google DeepMind 来源: 学术头条 微信号:SciTouTiao 或许是深深感受到了来自 OpenAI 与微软一起给到的巨大压力,以及加速实现通用人工智…

基于 VITA57.4 标准的 8 路 500MSPS/1GSPS/1.25GSPS 采样率 14 位 AD 采集 FMC 子卡模块

板卡概述 FMC148 是一款基于 VITA57.4 标准的 JESD204B 接口 FMC 子卡模块,该模块可以实现 8 路 14-bit、500MSPS/1GSPS/1.25GSPS ADC 采集功能。该板卡 ADC 器件采用 ADI 公司的 AD9680 芯片,全 功率-3dB 模拟输入带宽可达 2GHz。该 ADC 与 FPGA 的主机接口通 …

【PyQt】QGraphicsItem的setPos和transformation的平移并不等效

1. 结论 今天才知道,改变图元的位置的两个方法: setPos() 和 transform.translate() 的本质是不同的! 2. 缘由 在调试代码时,获取某个位置不在原点的图元的坐标总是返回(0,0),百思不得其解,后仔细研究发…

prometheus监控之pushgateway

prometheus监控之pushgateway 文章目录 prometheus监控之pushgatewaypushgateway是什么pushgateway使用场景架构图安装pushgateway配置说明 prometheus配置pushgateway的使用数据推送默认格式入门操作较为复杂数据的推送一次性推送多个指标(命令行方式)一次性推送多条数据&…

QML地图绘制虚线

QML提供了MapPolyline用于在地图上绘制线段,该线段是实线,因此我使用Canvas自定义绘制的方式在地图上绘制线段,如图: 鼠标在地图上点击后,在点击位置添加图标 ,当有多个图标被添加到地图上后,计…

让你立刻学会指针

☃️个人主页:fighting小泽 🌸作者简介:目前正在学习C语言和数据结构 🌼博客专栏:C语言学习 🏵️欢迎关注:评论👊🏻点赞👍🏻留言💪&am…

NumberPicker分析(三)

NumberPicker分析(三) 这一节主要用来分析NumberPicker的事件处理及滚动 NumberPicker继承自LinearLayout,是一个ViewGroup,ViewGroup事件处理的顺序大致如下: dispatchTouchEventonInterceptTouchEventonTouchEvent 另外,源码中…

ADSP21489之CCES开发笔记(十)

ADI21489定时器设计思路&#xff1a; 1、配置Power management control register. 2、定义时钟中断调用函数接口及实现。。 3、指定时钟中断间隔。 4、启用时钟timer。 demo代码实现2~4,如下代码 #include <services/int/adi_int.h> #include <stdio.h> #include &…

consul集群搭建教程 - 单机器集群

简言 1. 上一篇博客我们讲了consul多机器集群的部署&#xff0c;consul集群搭建教程 - 多机集群_YZF_Kevin的博客-CSDN博客 2. 很多同学没有多个机器&#xff0c;只想在单台机器上实验下consul集群&#xff0c;所以这篇博客我们讲单台机器的consul集群部署 3. consul的各个版…

mapreduce打包提交执行wordcount案例

文章目录 一、源代码1. WordCountMapper类2. WordCountReducer类3. WordCountDriver类4. pom.xml 二、相关操作和配置1. 项目打包2. 带参测试3. 上传打包后的jar包和测试文档4. 增大虚拟内存5.启动集群6.在hdfs上创建输入文件夹和上传测试文档Hello.txt7. 利用jar包在hdfs实现文…

TX-LCN:分布式事务框架

文章目录 概念LCN模式创建父工程parent创建子工程TxManager: 管理事务创建子工程: Eureka Server 注册中心创建子工程: book: 被远程调用方创建子工程: student: 远程调用方 TCC模式在lcn的基础上创建子工程: redistest在student 调用 redistest 概念 TX-LCN由两大模块组成&am…