第二期丨INTERSPEECH 2023 论文预讲会

news2024/11/20 3:36:14

INTERSPEECH 2023 论文预讲会是由CCF语音对话与听觉专委会语音之家主办,旨在为学者们提供更多的交流机会,更方便、快捷地了解领域前沿。活动将邀请 INTERSPEECH 2023 录用论文的作者进行报告交流。

INTERSPEECH 2023 论文预讲会第二期邀请到华南理工大学专场分享,欢迎大家预约观看。

第二期

华南理工大学【专场

时间:6月20日(周二) 19:00-21:00

形式:线上

议程:每位嘉宾分享30分钟(含5分钟QA)

嘉宾&主题

嘉宾简介:工学博士,毕业于华南理工大学信息与通信工程专业,主要研究方向为信号分析与深度学习。

分享主题:基于自适应精炼原型的小样本类别增量音频分类

摘要:新的声音类别不断涌现于开放环境中,给声音识别模型在适应动态声学环境方面带来了巨大挑战。这一挑战促使本文研究一个新问题,即少样本类别增量音频分类。本文旨在研究如何使模型能够在仅利用少量新类别训练样本的情况下,持续识别新类别的声音,同时不遗忘旧的类别。为实现这一目标,本文提出了一种模型动态扩展的方法,通过持续生成具有强区分性的原型并应用于扩展模型的分类器,以实现模型对新旧类别声音的准确识别。该方法采用随机情景训练策略和动态关系投影模块增强原型的区分性。在Nsynth-100和FSC-89这两个数据集的实验结果中,本文所提出的方法在平均准确率和性能下降速率方面优于对比方法。
 

嘉宾简介:华南理工大学电子与信息学院一年级硕士生,研究方向为语音情感识别。

分享主题:用于语音情感识别的多尺度时空Transformer模型

摘要:语音情感识别(SER)在人机交互系统中起着至关重要的作用。最近,各种不同架构的Transformer模型已经成功地应用于语音领域。然而,现有的Transformer模型更加注重全局信息,庞大的计算量带来了很大的计算压力。另一方面,情感信息是以多粒度的形式存在于帧/音素/单词/话语中的,这意味着除了语音信号的全局表征,细节信息也是很重要的。为了解决上述问题,本文为语音情感识别任务提出了一个多尺度Transformer架构(MSTR),包括三个主要部分:多尺度时间特征提取器,分形自注意模块以及尺度混合器模块。这三个部分能够有效地降低Transformer架构的计算量以及提高多尺度情感表征能力。实验结果表明,所提出的MSTR模型在语音情感数据集中的表现明显优于基线模型。

嘉宾简介:华南理工大学电子与信息学院博士生,主要研究方向为语音信号处理,情感识别。

分享主题:语音情感识别中自监督特征的下游迁移研究

摘要:最近自监督表征学习在语音领域取得了巨大的进展,基于transformer的下游模型在下游语音任务上提供了良好的迁移性能。然而,其固有结构是否真的适合于下游迁移是不确定的。在本文中,我们打破了传统多头自注意力和前馈神经网络(MSA-FFN)结构,采用block结构搜索策略(BAS)来研究合适的下游迁移方式。在语音情感识别任务中,我们发现:

(1)在下游模型的早期阶段,应该避免采用MSA先行的设计。

(2)在使用自监督特征的情况下,使用一个简单的FFN就可以进行良好的下游迁移。论文所提出的方法也可以应用于其它基于自监督特征的下游语音任务。

嘉宾简介:华南理工大学电子与信息学院二年级硕士生,研究方向为语音信号处理,音频识别,说话人识别,小样本类增量学习。

分享主题:基于随机分类器的小样本类别增量音频分类

摘要:对于当前的音频分类方法来说,类别的数量往往是固定不变的,并且模型只能识别预先给定的类别。当出现新类时,模型需要使用之前类别的充足样本再次训练。如果新的类别不断出现,上述方法的工作将受到负面影响甚至无法正常工作。在这项研究中,我们提出了一种用于小样本类增量音频分类的方法,该方法能够在识别新类的同时保持旧类的识别率。我们的模型由特征提取器和随机分类器组成。特征提取器在初始阶段训练完成后被冻结,随机分类器则会在增量阶段被不断扩展和训练。以NSynth语料库和LibriSpeech语料库为基础,我们构造了NS-100数据集和LS-100数据集,实验结果表明我们的方法在平均准确率和性能下降速率方面优于对比方法。

参与方式

直播将通过CSDN进行直播,手机端、PC端可同步观看

👇👇👇

https://live.csdn.net/room/weixin_48827824/bUPkzEod

论文征集

INTERSPEECH 2023 论文预讲会面向全球线上招募,结合定向邀请与自选投稿的方式,来选择预讲会的嘉宾。

投稿邮箱:jack@speechhome.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/653576.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无线耳机什么牌子的好?质量好性价比高 ?八款蓝牙耳机分享

随着TWS技术在应用层面的日益完善,真无线蓝牙耳机就越来越受欢迎了,完全摒弃了线材的束缚,做到了真正的无线耳机,这简直是无法忍受耳机线的强迫症的福音,而且现在不仅是佩戴时会格外的舒适,随着无线技术的不…

【面试题必问】浏览器是如何实现生成HTTP消息的

我们经常会使用浏览器访问各种网站,获取各种信息,帮助解决工作生活中的问题。那你知道,浏览器是怎么帮助我们实现对web服务器的访问,并返回给我们想要的信息吗? 1. 浏览器生成HTTP消息 我们平时使用的浏览器有很多种&…

图解LeetCode——437. 路径总和 III

一、题目 给定一个二叉树的根节点 root ,和一个整数 targetSum ,求该二叉树里节点值之和等于 targetSum 的 路径 的数目。 路径 不需要从根节点开始,也不需要在叶子节点结束,但是路径方向必须是向下的(只能从父节点到…

AI智能视频技术在安防监控领域的场景应用

AI智能视频技术是一种基于人工智能、深度学习和计算机视觉等技术的视频处理技术。它可以通过对视频进行分析和识别,实现各种智能化应用,如视频监控、智能家居、自动驾驶等。 目前,AI智能视频技术已经实现了人脸识别、行为分析、智能跟踪、场…

测试用例excel转word(Office word篇)

场景 我们在项目中,默认情况下是用我们的Excel用例模版输出测试用例。但是有的项目中,会要求在Word版本的测试计划或者测试报告中,写明测试用例。而我们的测试用例,有的项目有上千条,这个时候如果从Excel往Word中复制…

【支付宝小程序】医保接入文档网址

【支付宝小程序】医保接入文档 自己注意事项: 授权 my.getAuthCode跳转与参数 处理 my.ap.navigateToAlipayPage联调 测试开发者加入 白名单

【前端播放器】修改前端参数,减少时延

目录 程序修改 海康 CM8 换上新的jessibuca-3 好像提高到了1S内 与2.8的旧版本比下 191-196-2.8三个对比 jessibuca-pro 延时测试 jessibuca-pro 300ms 超低延迟 wvp-webrtc wvp-webrtc vs vms webrtc > jessibuca-pro > jessibuca 总体 参考资料 程序修改 …

不要把异常当做业务逻辑,这性能可能你无法承受

一:背景 1. 讲故事 在项目中摸爬滚打几年,应该或多或少的见过有人把异常当做业务逻辑处理的情况(┬_┬),比如说判断一个数字是否为整数,就想当然的用try catch包起来,再进行 int.Parse,如果抛异常就说明不…

基于Java家居商城系统设计实现(源码+lw+部署文档+讲解等)

博主介绍: ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精…

pl/sql developer oracle生僻字显示问题

一、问题由来 随着国标GB18030的推行,各行各业都在如火如荼的落实改造。自己在工作中也发现很多问题,查阅了很多资料都未解决自己的问题。经过慢慢摸索,对生僻字经常出现的问题进行总结,现分享如下。 二、问题描述 1. or…

超声功率放大器的工作原理和特点是什么

超声功率放大器是一种利用超声波振动产生机械振动的装置,通过将输入信号放大后输出到负载中,以实现对超声能量的有效利用。其工作原理和特点如下: 超声功率放大器的工作原理 超声功率放大器的工作原理是基于压电效应和磁致伸缩效应。当输入电…

2023亚马逊科技中国峰会之Amazon DeepRacer赛车比赛

目录 一、前言 二、什么是 Amazon DeepRacer 三、如何构建自己的第一个强化学习模型 1、创建 Amazon DeepRacer 资源 2、自定义你的赛道 3、开始你的模型 4、关于优化模型 5、在仿真器中测试 6、在真实赛道上测试你的模型 四、中国峰会总决赛 五、自动驾驶赛车名校邀…

使用PlotNeuralNet绘制深度学习网络图的基本操作(二)

使用PlotNeuralNet绘制深度学习网络图的基本操作(二) 接下来我们利用pycharm来绘制当中我们的神经网络模型架构,目标是直接将.tex文件生成为pdf和png。我在学习的过程中参考了一些学习视频,觉得这个up主讲的还不错: 1…

CH583,CH582,CH581 国产蓝牙芯片RISC-V内核BLE 5.3无线MCU

概述 CH583是集成BLE无线通讯的32位RISC微控制器。片上集成2Mbps低功耗蓝牙BLE 通讯模块、2个全速USB主机和设备控制器及收发器、2个SPI、4个串口、ADC、触摸按键检测模块、RTC等丰富的外设资源。 CH583相比CH582多了SP11主机,支持最低1. 7V电源电压。CH581 基于CH…

Java实现动态生成word报告

Java实现动态生成word报告 1.准备好docx文件模板 举例&#xff1a;动态生成表格数据&#xff0c;以下是list数组类型的freemarker语法 将写好的word模板加入到templates目录下 2.在pom.xml中导入相关依赖 <dependency><groupId>fr.opensagres.xdocreport</g…

react antd checkbox实现全选,多选

背景 目前好像只有table组件有实现表格数据的全选功能&#xff0c;如果说对于list&#xff0c;card&#xff0c;collapse等其他组件来说&#xff0c;需要自己结合checkbox来手动实现全选功能。 Checkbox.Group有实现全选功能&#xff0c;但是对于需要遍历出来的数据&#xff…

人民大学与加拿大女王大学金融硕士——原来“鱼和熊掌”可以兼得

“鱼和熊掌”不可兼得&#xff0c;我们从小就听到过这句话。随着长大&#xff0c;随着能力增强&#xff0c;两者我们都想要。就像在中国人民大学与加拿大女王大学金融硕士项目读研&#xff0c;我们不只要获得毕业证书&#xff0c;我们还要学到真本领。你的愿望在人大女王金融硕…

Ubuntu18.04离线安装Nginx

因需要安装nginx的服务器无法连接互联网&#xff0c;所以需要离线安装。首先需要下载nginx的安装包&#xff0c;之后进行安装&#xff0c;在安装之前需要保证gcc&#xff0c;g&#xff0c;make等依赖包已经安装。 因为是需要离线安装&#xff0c;所以在之前是用的一台互联网下载…

Java选择题刷题记录1

LinkedList类继承自AbstractSequentialList ArrayList listnew ArrayList(); 这种是默认创建大小为10的数组&#xff0c;每次扩容大小为1.5倍&#xff1b;ArrayList listnew ArrayList(20);这种是指定数组大小的创建&#xff0c;创建时直接分配其大小&#xff0c;扩充0次 Ite…

naive-ui NPopconfirm怎么用vue3的h()渲染

先看效果 然后我先贴代码&#xff0c; 你们看懂的先运行下&#xff0c; 文章后面我教你怎么 添加这种有template&#xff0c;有slot插槽的组件 h(NPopconfirm,{positiveButtonProps: {size: tiny,color: #007293,bordered: true,},negativeButtonProps: {size: tiny,color: #…