【AI视野·今日Sound 声学论文速览 第三十三期】Wed, 25 Oct 2023

news2024/11/27 2:44:28

AI视野·今日CS.Sound 声学论文速览
Wed, 25 Oct 2023
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

CDSD: Chinese Dysarthria Speech Database
Authors Mengyi Sun, Ming Gao, Xinchen Kang, Shiru Wang, Jun Du, Dengfeng Yao, Su Jing Wang
我们推出中文构音障碍语音数据库 CDSD,作为构音障碍研究的宝贵资源。该数据库包含 24 名构音障碍参与者的语音数据。在这些参与者中,一名参与者额外录制了 10 小时的演讲数据,而每人则录制了 1 小时,最终获得了 34 小时的演讲材料。为了适应不同认知水平的参与者,我们的文本库主要由 AISHELL 1 数据集的内容和中小学生的演讲组成。当参与者阅读这些文本时,他们必须使用移动设备或ZOOM F8n多轨现场录音机来录制他们的演讲。在本文中,我们阐明了数据收集和注释过程,并提出了一种建立构音障碍语音识别基线的方法。此外,我们还使用一位参与者额外 10 小时的语音数据进行了依赖于说话者的构音障碍语音识别实验。我们的研究结果表明,通过广泛的数据驱动模型训练,微调有限数量的特定个体数据在依赖于说话者的构音障碍语音识别中产生了值得称赞的结果。然而,我们观察到不同构音障碍说话者的识别结果存在显着差异。

Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models
Authors Florian Schmid, Khaled Koutini, Gerhard Widmer
大规模音频数据集(例如 AudioSet)的引入,为 Transformer 征服音频领域并取代 CNN 成为许多任务的最先进的神经网络架构铺平了道路。音频频谱图转换器非常擅长利用大型数据集,创建强大的预训练模型,当对下游任务进行微调时,这些模型超越了 CNN。然而,与 CNN 相比,当前流行的音频频谱图转换器在计算复杂性方面要求更高。最近,我们已经证明,通过使用 Transformer 进行 CNN 知识蒸馏,高效的 CNN 可以在大型数据集上赶上甚至超越 Transformer。在这项工作中,我们通过引入由动态非线性、动态卷积和注意力机制构成的动态 CNN 块,扩展了这一研究方向并提高了高效 CNN 的容量。我们证明,在大规模 AudioSet 上的音频标记任务中,这些动态 CNN 在性能复杂性权衡和参数效率方面优于传统的高效 CNN。

Modality Dropout for Multimodal Device Directed Speech Detection using Verbal and Non-Verbal Features
Authors Gautam Krishna, Sameer Dharur, Oggi Rudovic, Pranay Dighe, Saurabh Adya, Ahmed Hussen Abdelaziz, Ahmed H Tewfik
设备定向语音检测 DDSD 是一种二元分类任务,用于区分针对语音助手的查询与侧面对话或背景语音。最先进的 DDSD 系统使用语言提示,例如声学、文本和/或自动语音识别系统 ASR 功能,将语音分类为设备定向或其他,并且通常必须应对这些模式中的一种或多种在实际部署时不可用的情况世界设定。在本文中,我们研究了 DDSD 系统的融合方案,该方案可以使缺失的模态更加稳健。同时,除了 DDSD 的言语线索外,我们还研究非言语线索的使用,特别是韵律特征。我们提出了不同的方法,将韵律的分数和嵌入与相应的语言线索相结合,发现韵律通过非线性中间融合在给定的固定操作点上将错误接受率 FA 的 DDSD 性能提高了高达 8.5,而我们使用模态

SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis
Authors Marco Comunit , Riccardo F. Gramaccioni, Emilian Postolache, Emanuele Rodol , Danilo Comminiello, Joshua D. Reiss
声音设计涉及为电影、视频游戏和虚拟增强现实等各种媒体创造性地选择、录制和编辑声音效果。设计声音时最耗时的步骤之一是将音频与视频同步。在某些情况下,可以使用视频拍摄的环境记录,这可以帮助完成此过程。然而,在视频游戏和动画中,不存在参考音频,需要手动注释视频中的事件时序。我们提出了一种从视频中提取重复动作起始点的系统,然后将其与音频或文本嵌入结合使用,以调节经过训练以生成新的同步音效音轨的扩散模型。通过这种方式,我们将完全的创意控制权交给了声音设计师,同时消除了与视频同步的负担。此外,编辑起始轨道或更改调节嵌入所需的工作量比编辑音轨本身要少得多,从而简化了可听化过程。

How Much Context Does My Attention-Based ASR System Need?
Authors Robert Flynn, Anton Ragni
对于语音识别任务,在训练期间使用超过 30 秒的声学上下文并不常见,并且文献中对此进行了研究。在这项工作中,我们研究了缩放用于训练评估基于密集注意力的声学和语言模型的序列长度对语音识别性能的影响。在这些实验中,使用了大约 100,000 个伪标记 Spotify 播客的数据集,并探索了 5 秒到 1 小时的上下文长度。对长格式数据集 Earnings 22 和 Tedlium 的零样本评估表明,使用大约 80 秒的声学环境进行训练有好处,与有限的环境基线相比,相对提高了 14.9。

FOLEY-VAE: Generación de efectos de audio para cine con inteligencia artificial
Authors Mateo C mara, Jos Luis Blanco
在这项研究中,我们提出了一个基于变分自动编码器的界面,该编码器经过各种自然声音的训练,用于创新地创建拟音效果。该模型可以将新的声音特征传输到预先录制的音频或麦克风实时捕获的语音中。此外,它还允许交互修改潜在变量,促进精确和定制的艺术调整。以我们之前在去年同一大会上提出的变分自动编码器研究为起点,我们分析了现有的实现 RAVE 1 。该模型经过专门针对音频效果制作的训练。已成功生成各种音频效果,包括电磁、科幻和水声等随本作品发布的声音。这种创新方法成为西班牙第一部人工智能辅助音效短片的艺术创作基础。

The Mason-Alberta Phonetic Segmenter: A forced alignment system based on deep neural networks and interpolation
Authors Matthew C. Kelley, Scott James Perry, Benjamin V. Tucker
给定正字法转录后,强制对齐系统自动确定语音数据中片段之间的边界。这些工具在语音学中很常见,以方便使用无法手动转录和分段的语音数据。在本文中,我们描述了一种新的基于神经网络的强制对齐系统,Mason Alberta Phonetic Segmenter MAPS。 MAPS 对准器可作为我们对强制对准系统追求的两项可能改进的测试平台。第一个是将强制对齐器中的声学模型视为标记任务,而不是分类任务,其动机是基于语音片段并不是真正离散且通常重叠的共识。第二种是插值技术,使边界比现代强制对准系统中常见的 10 毫秒限制更精确。我们将我们的系统配置与最先进的系统蒙特利尔强制对准器进行比较。与蒙特利尔强制对准器相比,标记方法通常不会产生更好的结果。然而,使用插值技术的系统在测试集上目标 10 毫秒内的边界数量相对于蒙特利尔强制对准器增加了 27.92。我们还反思了强制对齐中声学建模的任务和训练过程,强调这些模型的输出目标如何与语音学家对音素之间相似性的概念不匹配,并且这种张力的协调可能需要重新思考任务和输出目标或语音如何

GESI: Gammachirp Envelope Similarity Index for Predicting Intelligibility of Simulated Hearing Loss Sounds
Authors Ayako Yamamoto, Toshio Irino, Fuki Miyazaki, Honoka Tamaru
我们提出了一种新的客观清晰度测量 OIM ,称为 Gammachirp 包络相似度指数 GESI ,它可以预测正常听力 NH 听众的模拟听力损失 HL 声音的语音清晰度 SI 。 GESI 是一种侵入式方法,它使用 gammachirp 滤波器组 GCFB、调制滤波器组和扩展余弦相似性度量来计算 SI 度量。 GESI 可以接受参考声音和测试声音的水平不对称性,并反映听力图上显示的 HI 听众的听力水平。 GESI 的一个独特功能是它能够将单个参与者的收听条件纳入 SI 预测中。我们在实验室和众包远程环境中对男性和女性语音进行了四次 SI 实验。然后,我们评估了 GESI 和传统的 OIM、STOI、ESTOI、MBSTOI 和 HASPI,了解它们在使用或不使用模拟 HL 声音的情况下预测平均 SI 值和单个 SI 值的能力。 GESI 在所有评估中均优于其他 OIM。即使使用模拟的 HL 声音,STOI、ESTOI 和 MBSTOI 也根本无法预测 SI。 HASPI 没有预测实验室和远程实验对男性语音和个体 SI 值的差异。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1216747.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Notepad++ 和正则表达式 只保留自己想要的内容

一、需求 如下文本,三段相同结构的数据,想要获取每段结构中‘重复的Ids ’后面的数字 2023-10-26 18:49:49 重复的Ids 26443,26575 要删除的Ids 4174,4199,4200,55502023-10-26 18:49:49 重复的Ids 26436,26443,26575 要删除的Ids 4166,4199,4200,5550…

WEB 自动化神器 TestCafe(一)—安装和入门篇

今天小编给大家带来WEB 自动化神器 TestCafe(一) —安装和入门篇 一、TestCafe 介绍: TestCafe 是一款基于 Node.js 的端到端 Web 自动化测试框架,支持 TypeScript 或 JavaScript 来编写测试用例,运行用例,并生成自动化测试报告。…

软件外包开发文档工具

有许多工具可用于生成和管理软件开发文档。这些工具可以帮助团队更有效地协作、记录和维护文档。以下是一些常用的软件开发文档生成工具,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 Javadoc&#…

ESP8266跟ESP-01S区别

看到了吧:ESP8266是一个芯片;ESP8266芯片是由外国的乐鑫公司生产的 ESP8266 Wi-Fi SoC | Espressif Systems ESP-01包含了ESP8266芯片,并且有一些外围电路,这个模块(不是芯片)是由中国的安可信公司生产的。…

2023最新软件测试20个基础面试题及答案

什么是软件测试? 答案:软件测试是指在预定的环境中运行程序,为了发现软件存在的错误、缺陷以及其他不符合要求的行为的过程。 软件测试的目的是什么? 答案:软件测试的主要目的是保证软件的质量,并尽可能大…

【深度学习实验】网络优化与正则化(六):逐层归一化方法——批量归一化、层归一化、权重归一化、局部响应归一化

文章目录 一、实验介绍二、实验环境1. 配置虚拟环境2. 库版本介绍 三、优化算法0. 导入必要的库1. 随机梯度下降SGD算法a. PyTorch中的SGD优化器b. 使用SGD优化器的前馈神经网络 2.随机梯度下降的改进方法a. 学习率调整b. 梯度估计修正 3. 梯度估计修正:动量法Momen…

linux进程间通信之管道通信

Linux 进程间通信机制分三类:数据交互,同步,信号。理解了这些机制才能灵活运用操作系统提供的 IPC 工具。 一.管道 管道是一种文件形式,是内核的一块缓冲区。匿名管道只能用于具有亲缘关系的进程间通信,命名管道可以用…

C语言对10个数进行排序,使用快速排序算法

完整代码&#xff1a; // 对10个数进行排序&#xff0c;使用快速排序算法 #include<stdio.h>//用第一个元素将待排序序列划分成左右两个部分&#xff0c;返回排序后low的位置&#xff0c;即枢轴的位置 int partition(int arr[],int low,int high){//让待排序序列中的第一…

操作系统OS/存储管理/内存管理/内存管理的主要功能_基本原理_要求

基本概念 内存管理的主要功能/基本原理/要求 **内存管理的主要功能&#xff1a; ** 内存空间的分配与回收。由操作系统完成主存储器空间的分配和管理&#xff0c;使程序员摆脱存储分配的麻烦&#xff0c;提高编程效率。地址转换。在多道程序环境下&#xff0c;程序中的逻辑地…

【Git 全功能解析: 探索版本控制的强大工具】

文章目录 概要集中式版本管理和分布式版本管理Git 基础命令基本流程开发管理 概要 “Git 的历史与现状” Git是Linux的创始人Linus Torvalds的又一力作。在2002年&#xff0c;他在Linux内核的版本控制中使用Bitkeeper&#xff0c;但由于Bitkeeper是一款受版权保护的软件&…

什么是脏读、不可重复读、幻读讲解

数据库隔离级别是数据库管理系统中一个重要的概念&#xff0c;它定义了事务之间的可见性和影响。在多用户并发访问数据库时&#xff0c;隔离级别能够确保事务之间的相互独立性&#xff0c;避免数据不一致的问题。本文将深入探讨三种常见的并发问题&#xff1a;脏读、不可重复读…

TikTok运营干货——养号篇

随着国内抖音红利的进一步释放&#xff0c;越来越多人涌入了TikTok国内外市场。而TikTok作为海外新兴的社媒平台&#xff0c;也在迅速的发展着&#xff0c;吸引了大批的跨境电商玩家入驻。然而&#xff0c;TikTok运营的一大难点就是养号&#xff0c;许多人还没开始转化号就被封…

vue3别名配置(vite)

1、配置别名的优点&#xff1a; 在VUE项目中import导入文件时&#xff0c;可以写相对路径. 2、在vite.config.js中配置 a. 首先引入path import path from "path"/* */ b.在resolve添加别名&#xff0c;例如&#xff1a; alias:{"~":path.resolve(__di…

零基础快速上手FFmpeg!一篇就够啦~

在这个自媒体盛行的时代&#xff0c;音视频&#xff08;电影、音乐&#xff09;对于我们来说是再熟悉不过了吧。那么对于一个音视频文件&#xff0c;都有哪些属性呢&#xff1f;以视频为例&#xff0c;我们可以通过如下命令查看其信息。 > ffmpeg -i .\demo.mp4 ffmpeg ver…

探索arkui(2)--- 布局(列表)--- 2(支持分组/实现响应滚动位置)

前端开发布局是指前端开发人员宣布他们开发的新网站或应用程序正式上线的活动。在前端开发布局中&#xff0c;开发人员通常会展示新网站或应用程序的设计、功能和用户体验&#xff0c;并向公众宣传新产品的特点和优势。前端开发布局通常是前端开发领域的重要事件&#xff0c;吸…

通义灵码,阿里巴巴的编程辅助工具

一、官网 通义灵码_智能编码助手_AI编程_人工智能-阿里云 二、安装VSCode 如何下载安装VSCode 三、VSCode安装通义灵码 1.访问扩展详情界面 方式1 访问通义灵码安装教程页面 方法2 访问VSCode市场中的TONGYI Lingma 点击 Install 按钮访问扩展详情界面 2.打开VSCode …

udp多点通信-广播-组播

单播 每次只有两个实体相互通信&#xff0c;发送端和接收端都是唯一确定的。 广播 主机之间的一对多的通信所有的主机都可以接收到广播消息(不管你是否需要)广播禁止穿过路由器&#xff08;只能做局域网通信&#xff09;只有UDP可以广播广播地址 有效网络号全是1的主机号 192.1…

《成为一名优秀的架构师:从基础到实践》

文章目录 前言《高并发架构实战&#xff1a;从需求分析到系统设计》《架构师的自我修炼&#xff1a;技术、架构和未来》《中台架构与实现&#xff1a;基于DDD和微服务》《分布式系统架构&#xff1a;架构策略与难题求解》《流程自动化实战&#xff1a;系统架构和软件开发视角 》…

人工智能-深度学习之序列模型

想象一下有人正在看网飞&#xff08;Netflix&#xff0c;一个国外的视频网站&#xff09;上的电影。 一名忠实的用户会对每一部电影都给出评价&#xff0c; 毕竟一部好电影需要更多的支持和认可。 然而事实证明&#xff0c;事情并不那么简单。 随着时间的推移&#xff0c;人们对…

使用VC++实现分段线性变换,直方图均衡化、锐化处理(使用拉普拉斯算子)

图像锐化1 实验要求 5.1实验目的、要求 实验目的&#xff1a; &#xff08;1&#xff09;掌握图像增强的原理与相关方法。 &#xff08;2&#xff09;能使用VC实现图像增强的一些相关功能。 实验要求&#xff1a; A部分&#xff1a; &#xff08;1&#xff09;对一幅256级灰度…