【AI视野·今日Sound 声学论文速览 第四十八期】Mon, 15 Jan 2024

news2025/4/7 18:55:57

AI视野·今日CS.Sound 声学论文速览
Mon, 15 Jan 2024
Totally 5 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

LCB-net: Long-Context Biasing for Audio-Visual Speech Recognition
Authors Fan Yu, Haoxu Wang, Xian Shi, Shiliang Zhang
在线会议和课程的日益普及对利用视频幻灯片中丰富的文本信息改进自动语音识别 ASR 提出了新的挑战。与罕见的短语列表相比,视频中的幻灯片与语音实时同步,从而能够提取长上下文偏差。因此,我们提出了一种用于视听语音识别 AVSR 的新型长上下文偏置网络 LCB net,以有效地利用视频中可用的长上下文信息。具体来说,我们采用双编码器架构来同时对音频和长上下文偏置进行建模。此外,我们还提出了一个偏置预测模块,利用二元交叉熵 BCE 损失来明确确定长上下文偏置中的偏置短语。此外,我们引入了动态上下文短语模拟,以增强 LCB 网络的泛化性和鲁棒性。在 SlideSpeech(一个富含幻灯片的大规模视听语料库)上进行的实验表明,我们提出的 LCB 网络在测试集上的 WER U WER B WER 相对减少量优于一般 ASR 模型 9.4 9.1 10.9,具有较高的无偏和有偏性能。

Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints
Authors Giampiero Salvi
本文描述了连接主义技术在具有强延迟约束的语音识别中的使用。这些约束是通过将语音字符串输入到发音合成器中,从语音信号中实时导出合成面部的嘴唇运动的任务所施加的。特别注意分析在不同延迟条件下多层感知器学习的时间演化模型与维特比解码器施加的转换模型之间的相互作用。进行了两个实验,其中语言模型 LM 中的时间依赖性由参数控制。

Contrastive Learning With Audio Discrimination For Customizable Keyword Spotting In Continuous Speech
Authors Yu Xi, Baochen Yang, Hao Li, Jiaqi Guo, Kai Yu
连续语音中可定制的关键字识别 KWS 由于其现实世界的应用潜力而引起了越来越多的关注。虽然对比学习 CL 已被广泛用于提取关键词表示,但之前的 CL 方法都对预先分割的孤立词进行操作,并且仅采用音频文本表示匹配策略。然而,对于连续语音中的 KWS,协同发音和流式分词很容易为不同的文本产生相似的音频模式,从而可能引发误报。为了解决这个问题,我们提出了一种新颖的具有音频辨别 CLAD 的 CL 方法来学习具有音频文本匹配和音频音频辨别能力的关键字表示。这里,训练期间的每个滑动窗口都采用考虑音频音频和音频文本 CL 数据对的 InfoNCE 损失。对开源 LibriPhrase 数据集的评估表明,与之前的 CL 方法相比,使用滑动窗口级 InfoNCE 损失可产生可比的性能。此外,在连续语音数据集 LibriSpeech 上进行的实验表明,通过结合音频辨别,CLAD 比没有音频辨别的 CL 实现了显着的性能提升。

Towards High-Quality and Efficient Speech Bandwidth Extension with Parallel Amplitude and Phase Prediction
Authors Ye Xin Lu, Yang Ai, Hui Peng Du, Zhen Hua Ling
语音带宽扩展BWE是指拓宽语音信号的频率带宽范围,提高语音质量,使其更加明亮、饱满。本文提出了一种基于生成对抗网络 GAN 的 BWE 模型,具有并行预测幅度和相位谱的能力,称为 AP BWE,它实现了高质量和高效的宽带语音波形生成。所提出的 AP BWE 生成器完全基于卷积神经网络 CNN。它具有相互交互的双流架构,其中幅度流和相位流相互通信,并分别从输入窄带幅度和相位谱中扩展高频分量。为了提高扩展语音信号的自然度,我们在波形级别采用多周期鉴别器,并在频谱级别分别设计一对多分辨率幅度和相位鉴别器。实验结果表明,我们提出的 AP BWE 在针对 16 kHz 和 48 kHz 采样率的 BWE 任务的语音质量方面实现了最先进的性能。在生成效率方面,由于采用全卷积架构和全帧级操作,所提出的 AP BWE 可以生成 48 kHz 波形样本,在单个 RTX 4090 GPU 上比实时快 292.3 倍,在单个 RTX 4090 GPU 上比实时快 18.1 倍。中央处理器。

Remixing Music for Hearing Aids Using Ensemble of Fine-Tuned Source Separators
Authors Matthew Daly
本文介绍了我们为 Cadenza ICASSP 2024 Grand Challenge 提交的系统,该系统提出了为助听器用户重新混合和增强音乐的问题。我们的系统在挑战中名列第一,在评估数据集上获得了最佳的平均助听器音频质量指数 HAAQI 分数。我们描述了该系统,该系统使用了一组深度学习音乐源分离器,这些分离器根据挑战数据进行了微调。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1425794.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VUE PC端可拖动悬浮按钮

一、实现效果&#xff1a; 二、FloatButton.vue <template><div><div class"sssss"><div class"callback float" mousedown"down" touchstart"down" mousemove"move" touchmove"move" mous…

Python爬虫学习之解析_jsonpath

一、jsonpath的基本使用 import json import jsonpath obj json.load(open(json文件,r,encodingutf-8)) ret jsonpath.jsonpath(obj,jsonpath语法) 二、jsonpath语法 e.g. import json import jsonpathobj json.load(open(jsonpath.json,r,encodingutf-8))#书店所有的书的作…

HashCat 恢复Excel、Word、PPT密码保姆教程

HashCat 恢复Excel、Word、PPT密码 一、流程 整体需要两个步骤 先用office2john.py获取下文件的hash值 python office2john.py 1.xlsx > hash这个命令需要你电脑有python环境&#xff0c;然后在cmd命令窗口中执行此命令就行 文件链接&#xff1a;https://github.com/magnu…

Spring-集成Web

一、引子 前面我们在Spring集成Junit中为读者引出了Spring善于集成其它框架的优势&#xff0c;而Spring项目不可能仅限于小范围的某个方法的测试&#xff0c;终究会落脚于Web项目上。于是&#xff0c;我们就从这里正式进入Spring集成Web的话题。由于笔者会从原生的Java Web开发…

Kotlin中的内置函数-apply、let

在使用Kotlin的过程中会经常用到其内置函数&#xff0c;包括apply&#xff0c;let&#xff0c;run&#xff0c;with&#xff0c;also&#xff0c;takeIf,takeUnless函数等&#xff0c;想要更好熟悉Kotlin&#xff0c;这些函数必须烂熟于心&#xff0c;接下来让我们来逐步了解&a…

7.1、一致公钥密码系统

7.1、一致公钥密码系统 一、引言 在本节中&#xff0c;我们将描述一个真实公钥密码系统的玩具模型。这个模型与维数为 2 的格有着意想不到的联系&#xff0c;由于维数太低&#xff0c;因此存在致命漏洞。不过&#xff0c;它也是一个具有启发性的例子&#xff0c;说明了即使基…

【Pytorch】CNN中的Attention

目录 更大层面上的Attention在attention中&#xff0c;怎么分区channel-wise还是spatial-wise举一个Spatial-Channel Attention的例子 使用广泛的Dot-product Attentionattention机制中的query,key,value的概念解释Attention的一个例子 更大层面上的Attention 在attention中&a…

网络服务综合实验项目

目录 实验要求 运行环境 基础配置 业务需求 实验步骤 一、基础配置 1.1、配置静态IP 1.1.1、 在192.168.159.130中配置 1.1.2、 在192.168.159.131中配置 ​编辑 1.2、修改主机名及hosts映射 1.2.1、在192.168.159.130中配置 1.2.2、 编辑配置hosts文件 1.2.3、重启…

1. 两数之和(C++)(map)(哈希算法)

✨欢迎来到脑子不好的小菜鸟的文章✨ &#x1f388;创作不易&#xff0c;麻烦点点赞哦&#x1f388; 所属专栏&#xff1a;刷题 我的主页&#xff1a;脑子不好的小菜鸟 文章特点&#xff1a;关键点和步骤讲解放在 代码相应位置 前提&#xff1a; 看本文章之前&#xff0c;建…

前端开发项目技术总结

前端 vue框架简单学了一遍&#xff0c;也做了demo&#xff0c;主要学了创建项目、路由、状态管理、UI组件库等。 最近在做前端的项目&#xff0c;总结一些开发遇到的问题和解决方案 数据绑定模型 vue框架的标签 :data 和prop标签 data绑定对应的模型&#xff0c;prop是对应…

【C++杂货铺】详解类和对象 [下]

个人博客&#xff1a;代码菌-CSDN博客 专栏&#xff1a;C杂货铺_代码菌的博客-CSDN博客 目录 &#x1f308;前言&#x1f308; &#x1f4c1; 初始化列表&#xff08;灰常重要&#xff09; &#x1f4c2; 引入 &#x1f4c2; 概念 &#x1f4c2; 特性 &#x1f4c1; 拓展构…

【计算机二级考试C语言】C递归

目录 C 递归 数的阶乘 实例 斐波那契数列 实例 C 递归 递归指的是在函数的定义中使用函数自身的方法。 举个例子&#xff1a; 从前有座山&#xff0c;山里有座庙&#xff0c;庙里有个老和尚&#xff0c;正在给小和尚讲故事呢&#xff01;故事是什么呢&#xff1f;"从…

关闭idea之后,项目还在运行,端口被占用

今天在写项目的时候&#xff0c;中途安装了一个插件&#xff0c;而且插件显示需要重启idea&#xff0c;重启的时候项目正在运行&#xff0c;重启之后发现idea没有显示有项目正在运行&#xff0c;当我要开启项目的时候&#xff0c;发现无法开启&#xff0c;显示端口被占用了&…

您企业的(AI)人工智能处于哪个准备阶段?

全新AI准备度评估工具现已推出 根据Gartner 2020年CIO调查报告&#xff0c;仅19%的首席信息官声称其AI项目已投产。这意味着&#xff0c;如果要将AI计划部署到生产过程中&#xff0c;高达80%的企业无法实现。我们发现&#xff0c;澳鹏客户取得成功的几率要高出三倍&#xff0c…

@Test Annotation属性- dependsOnMethods属性

目录 语法 如果test1&#xff08;&#xff09;失败了怎么办&#xff1f;test2&#xff08;&#xff09;测试会发生什么&#xff0c;因为它依赖于test1&#xff1f; 如果我们在test1&#xff08;&#xff09;方法上不使用Test注释&#xff0c;但在test 2&#xff08;&#xf…

放弃Nacos作为配置中心,转而选择这款神器~

目前&#xff0c;我们所有微服务的配置中心都没有采用Nacos&#xff0c;而是选择了另一款携程开源的分布式配置中心Apollo&#xff0c;今天就跟大家详细介绍一下这款神级配置中心 1. 基本概念 由于 Apollo 概念比较多&#xff0c;刚开始使用比较复杂&#xff0c;最好先过一遍…

YOLOv5改进系列(29)——添加DilateFormer(MSDA)注意力机制(中科院一区顶刊|即插即用的多尺度全局注意力机制)

【YOLOv5改进系列】前期回顾&#xff1a; YOLOv5改进系列&#xff08;0&#xff09;——重要性能指标与训练结果评价及分析 YOLOv5改进系列&#xff08;1&#xff09;——添加SE注意力机制 YOLOv5改进系列&#xff08;2&#xff09;——添加CBAM注意力机制 YOLOv5改进系列&…

【Java 数据结构】栈和队列

栈和队列 1. 栈(Stack)1.1 概念1.2 栈的使用1.3 栈的模拟实现1.4 栈的应用场景1.5 概念区分 2. 队列(Queue)2.1 概念2.2 队列的使用2.3 队列模拟实现2.4 循环队列 3. 双端队列 (Deque)4. 面试题 1. 栈(Stack) 1.1 概念 栈&#xff1a;一种特殊的线性表&#xff0c;其只允许在…

STM32入门教程-2023版【5-1】NVIC

关注 点赞 不错过精彩内容 大家好&#xff0c;我是硬核王同学&#xff0c;最近在做免费的嵌入式知识分享&#xff0c;帮助对嵌入式感兴趣的同学学习嵌入式、做项目、找工作! 四、NVIC &#xff08;1&#xff09;NVIC基本结构 外部中断的整体结构图如下&#xff1a; 这个NVI…

代码随想录算法训练营29期|day37 任务以及具体任务

第八章 贪心算法 part06 738.单调递增的数字 版本2 class Solution {public int monotoneIncreasingDigits(int n) {String s String.valueOf(n);char[] chars s.toCharArray();int start s.length();for (int i s.length() - 2; i > 0; i--) {if (chars[i] > chars…