【AI视野·今日Sound 声学论文速览 第三十九期】Tue, 2 Jan 2024

news2024/9/23 9:31:58

AI视野·今日CS.Sound 声学论文速览
Tue, 2 Jan 2024
Totally 7 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Enhancing Pre-trained ASR System Fine-tuning for Dysarthric Speech Recognition using Adversarial Data Augmentation
Authors Huimeng Wang, Zengrui Jin, Mengzhe Geng, Shujie Hu, Guinan Li, Tianzi Wang, Haoning Xu, Xunying Liu
迄今为止,构音障碍语音的自动识别仍然是一项极具挑战性的任务。神经运动状况和同时发生的身体残疾给 ASR 系统开发的大规模数据收集带来了困难。通过数据密集型参数微调,使 SSL 预训练的 ASR 模型适应有限的构音障碍语音,会导致泛化能力较差。为此,本文对各种数据增强方法进行了广泛的比较研究,以提高预训练的 ASR 模型对构音障碍语音进行微调的鲁棒性。这些包括对受损语音的传统说话人独立扰动、与说话人相关的速度扰动、或基于 GAN 的正常控制语音的对抗性扰动(基于与并行构音障碍语音的时间对齐)、基于谱基础的 GAN 对非并行数据进行对抗性数据增强。在 UASpeech 语料库上进行的实验表明,基于 GAN 的数据增强始终优于微调的 Wav2vec2.0 和 HuBERT 模型,在不同的数据扩展操作点上不使用数据增强和速度扰动,字错误率 WER 降低了统计显着性,分别达到 2.01 和 0.96 绝对值 9.03 和4.63 相对于 16 个构音障碍说话者的 UASpeech 测试集。

E-chat: Emotion-sensitive Spoken Dialogue System with Large Language Models
Authors Hongfei Xue, Yuhao Liang, Bingshen Mu, Shiliang Zhang, Qian Chen, Lei Xie
本研究重点关注人机语音交互中的情感敏感口语对话。随着大型语言模型法学硕士的进步,对话系统可以处理包括音频在内的多模态数据。最近的模型通过整合各种音频事件增强了对复杂音频信号的理解。然而,他们无法根据情绪化的言语产生适当的反应。为了解决这个问题,我们引入了情感聊天模型 E 聊天,这是一种新颖的口语对话系统,能够理解并响应语音传达的情感。该模型利用语音编码器提取的情感嵌入,并结合 LLM,使其能够根据不同的情感上下文做出响应。此外,我们还介绍了 E chat200 数据集,该数据集专为情感敏感的口语对话而设计。

Sounding Out Reconstruction Error-Based Evaluation of Generative Models of Expressive Performance
Authors Silvan David Peter, Carlos Eduardo Cancino Chac n, Emmanouil Karystinaios, Gerhard Widmer
通常通过将其预测与参考人类演奏进行比较来评估富有表现力的钢琴演奏的生成模型。如果生成算法产生的性能更接近人类参考性能,则该生成算法被认为比竞争算法更好。然而,专业的人类表演者可以并且确实以不同的方式解释音乐,从而提供不同的可能参考,并且定量的接近度不一定与感知相似性一致,这引发了人们对这种评估方法有效性的担忧。在这项工作中,我们提出了一些实验来阐明这个问题。使用精确测量的古典钢琴音乐的高质量演奏,我们进行了听力测试,结果表明听众有时可以察觉到在定量评估中被忽视的细微演奏差异。我们进一步提出的测试表明,这种评估框架在不同的参考表演和作品中表现出可靠性和有效性的很大差异。

Online Symbolic Music Alignment with Offline Reinforcement Learning
Authors Silvan David Peter
符号音乐对齐是将演奏的 MIDI 音符与相应乐谱音符进行匹配的过程。在本文中,我们介绍了一种基于强化学习的在线符号音乐对齐技术。强化学习代理是一种基于注意力的神经网络,根据本地得分和表现上下文迭代地估计当前得分位置。对于这个符号对齐任务,可以对环境状态进行详尽的采样,并且奖励是密集的,从而将公式呈现为简化的离线强化学习问题。我们通过三种方式评估训练有素的代理。首先,它能够为采样的测试上下文识别正确的乐谱位置;其次,作为符号在线音符对齐的完整算法的核心技术;最后,作为实时符号乐谱跟随器。我们进一步研究用作代理输入的基于音高的分数和表现表示。为此,我们开发了第二个模型,即基于两步动态时间规整 DTW 的离线对齐算法,利用相同的输入表示。

AI and Tempo Estimation: A Review
Authors Geoff Luck
作者在本文中的目标是探索如何利用人工智能来帮助我们理解和大规模估计音乐创造力和音乐节奏的关键方面的能力。节奏对音乐创造力的核心重要性可以体现在如何使用它来表达特定的情感 Eerola 和 Vuoskoski 2013 、提出特定的音乐风格 Li 和 Chan 2011 、影响表达的感知 Webster 和 Weir 2005 以及调解移动的冲动。身体随着音乐的节奏伯格等人。 2014年。传统的节奏估计方法通常使用振幅包络的某种形式的自相关来检测反映音乐的潜在节奏结构的信号周期性Lartillot and Toiviainen 2007。最近,基于人工智能的方法利用卷积或循环神经网络 CNN、RNN 来表示音频信号的频谱,其准确性得到了显着提高 Aarabi 和 Peeters 2022。常见的基于人工智能的技术包括基于概率的技术(例如贝叶斯方法、隐马尔可夫模型 HMM)、分类和统计学习(例如支持向量机 SVM)以及人工神经网络 ANN(例如自组织映射 SOM、CNN、RNN、深度学习 DL)。本文的目的是概述一些更常见的基于人工智能的节奏估计算法,并阐明每种算法的显着优点和潜在缺点。

Ultraspherical/Gegenbauer polynomials to unify 2D/3D Ambisonic directivity designs
Authors Franz Zotter
这份关于轴对称超球面 Gegenbauer 多项式及其在 2D 和 3D 立体混响指向性设计中的应用的报告提出了另一种数学形式,可以在我和 Matthias Frank 的 Ambisonics 书籍或 J r me Daniel 的论文(Gary Elko)中阅读。

Boosting Large Language Model for Speech Synthesis: An Empirical Study
Authors Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei
大型语言模型法学硕士在自然语言处理方面取得了重大进展,同时将语言能力扩展到其他模式,例如语音和视觉。然而,之前的大部分工作都集中在培养法学硕士的听觉理解等感知能力,而增强法学硕士语音合成能力的有效方法仍然不明确。在本文中,我们通过结合预训练的LLM LLaMA OPT和文本到语音合成模型VALL E,对提升LLM生成语音的能力进行了全面的实证探索。我们比较了LLM和语音合成模型之间的三种集成方法,包括直接微调 LLM、LLM 和 VALL E 的叠加层,以及使用 LLM 作为强大的文本编码器耦合 LLM 和 VALL E。实验结果表明,直接使用LoRA方法微调LLM来提升语音合成能力的效果并不理想,而叠加LLM和VALL E可以在说话人相似度和误词率WER两方面提高生成语音的质量。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1360679.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《微机原理与应用》期末考试题库(附答案解析)

第1章 微型计算机概述 1.微型计算机的硬件系统包括___A _____。 A.控制器、运算器、存储器和输入输出设备 B.控制器、主机、键盘和显示器 C.主机、电源、CPU和输入输出 D.CPU、键盘、显示器和打印机 2.微处…

LLM Agent零微调范式 ReAct Self Ask

前三章我们分别介绍了思维链的使用,原理和在小模型上的使用。这一章我们正式进入应用层面,聊聊如何把思维链和工具使用结合得到人工智能代理。 要回答我们为什么需要AI代理?代理可以解决哪些问题?可以有以下两个视角 首先是我们…

算法训练day60|单调栈part0

参考:代码随想录 84.柱状图中最大的矩形 要求当前柱形的左右两边第一个比他小的位置 对于高度为5的柱子(index为2) mid 他的左边第一个比他小的柱子为1,index为1 left 他的右边第一个比他小的柱子高度为2,index为4…

Springcloud 微服务实战笔记 Eureka

服务治理 服务注册 在服务治理框架中,通常都会构建一个注册中心,每个服务单元向注册中心登记自己提供的服务,将主机与端口号、版本号、通信协议等一些附加信息告知注册中心,注册中心按服务名分类组织服务清单。当服务启动后&…

DBeaver 连接mysql 报错 Public Key Retrieval is not allowed

问题描述 一段时间没有用本地数据库,使用dbeaver连接mysql报错:Public Key Retrieval is not allowed 原因分析: Public Key Retrieval is not allowed:不允许进行公钥检索。 解决方案: 在编辑连接中找到allowPu…

swift ——多行文字前面内容省略

首先来说一说ios中的 lineBreakModelineBreakMode : 设置文字过长时的显示截断样式 可选值如下 byWordWrapping : 以单词为单位换行,以单词为单位截断。byCharWrapping :以字符为单位换行,以字符为单位截断。byClipping &#x…

Note: A Journey Across Canada

A Journey Across Canada 一场横穿加拿大的旅行 across journey After a quiz last autumn, Kuang crossed the continent eastward to Toronto to visit his schoolmate, the distance measuring approximately 5000 kilometers. 去年秋天一次考试后,Kuang向东穿…

计算机毕业设计 基于SpringBoot的公司资产网站的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

MyBatis-Plus框架学习笔记

先赞后看,养成习惯!!!❤️ ❤️ ❤️ 文章码字不易,如果喜欢可以关注我哦! ​如果本篇内容对你有所启发,欢迎访问我的个人博客了解更多内容:链接地址 MyBatisPlus (简称…

CodeWave智能开发平台--03--目标:应用创建--03页面子页面设计

摘要 本文是网易数帆CodeWave智能开发平台系列的第06篇,主要介绍了基于CodeWave平台文档的新手入门进行学习,实现一个完整的应用,本文主要完成页面子页面设计 CodeWave智能开发平台的06次接触 CodeWave参考资源 网易数帆CodeWave开发者社…

【算法】链表-20240105

这里写目录标题 一、LCR 023. 相交链表二、142. 环形链表 II 一、LCR 023. 相交链表 给定两个单链表的头节点 headA 和 headB ,请找出并返回两个单链表相交的起始节点。如果两个链表没有交点,返回 null 。 提示: listA 中节点数目为 m list…

如何在 ChatGPT 上使用 Wolfram 插件回答数学问题

这里写自定义目录标题 写在最前面Wolfram是什么?ChatGPT 如何与 Wolfram 相结合,为什么有效?如何在 ChatGPT 上安装 Wolfram 插件? 写在最前面 参考:https://clickthis.blog/zh-CN/how-to-answer-math-questions-usin…

老师必备的办公AI工具

随着人工智能技术的不断发展,越来越多的AI工具开始进入教育领域,为老师的教学工作带来了极大的便利。本文将介绍一些老师必备的办公AI工具,帮助老师更好地进行教学工作。 ​一、智能发布成绩 智能发布成绩工具可以帮助老师快速发布学生的成绩…

霍尔传感器测速测距实验——STM32驱动(课程设计)

———————实验效果——————— 🎄图片演示测距 🎄视频演示测速 基于STM32单片机 霍尔传感器测速度,测圈数 🎄模块介绍 测距使用HC-SR04模块 测距使用测速使用霍尔传感器 ———————代码获取查看下方———————…

Linux离线安装MySQL(rpm)

目录 下载安装包安装MySQL检测安装结果服务启停MySQL用户设置 下载安装包 下载地址:https://downloads.mysql.com/archives/community/ 下载全量包如:(mysql-8.1.0-1.el7.x86_64.rpm-bundle.tar) 解压:tar -xzvf mysql-8.1.0-1.el7.x86_64.…

软件验收测试计划、验收测试报告案例模板参考

1. 概述 1.1. 编写目的 1.2. 测试背景 1.3. 测试依据 1.4. 测试对象 1.5. 测试资源 2. 测试方式与环境 2.1. 测试方式 2.2. 测试环境 3. 测试结果 3.1. 功能适合性和准确性 3.1.1. 总体统计 3.1.2. 详细结果 3.2. 安全性 3.3. 可靠性和性能 4. 总体分析 5. 测试…

J2 - ResNet-50v2实战

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 目录 环境步骤环境设置数据准备图像信息查看 模型设计ResidualBlock块stack堆叠resnet50v2模型 模型训练模型效果展示 总结与心得体会 环境…

第四节-MAC地址+网络层

MAC地址由两部分组成,分别是供应商代码和序列号。其中前24位代表该供应商代码,由IEEE管理和分配。剩下的24位序列号由厂商自己分配。 mac地址显示16进制12个16进制数 二进制(逢2进1) 102 113 1004 二进制4位数最大代表15 十…

【AI视野·今日CV 计算机视觉论文速览 第281期】Tue, 2 Jan 2024

AI视野今日CS.CV 计算机视觉论文速览 Tue, 2 Jan 2024 Totally 95 papers 👉上期速览✈更多精彩请移步主页 Daily Computer Vision Papers Refining Pre-Trained Motion Models Authors Xinglong Sun, Adam W. Harley, Leonidas J. Guibas考虑到在视频中手动注释运…

【管理篇 / 恢复】❀ 08. 文件权限对macOS下用命令刷新固件的影响 ❀ FortiGate 防火墙

【简介】虽然上篇文章中成功的在macOS下刷新了固件,但是很多小伙伴在实际操作中碰到了无法成功的状况,我们来看看最常见的一种。 在/private/tftpboot目录拷贝另一个版本的固件文件,具体拷贝过程不再详述。 打开终端,输入命令 sud…