【AI视野·今日Sound 声学论文速览 第二十四期】Thu, 12 Oct 2023

news2024/11/25 2:41:31

AI视野·今日CS.Sound 声学论文速览
Thu, 12 Oct 2023
Totally 12 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Enhancing expressivity transfer in textless speech-to-speech translation
Authors Jarod Duret LIA , Benjamin O Brien LIA , Yannick Est ve LIA , Titouan Parcollet CAM
由于自我监督学习技术的集成,无文本语音到语音翻译系统正在迅速发展。然而,现有的最先进的系统在跨不同语言准确捕获和传输表达性方面存在不足。表现力在传达情感、细微差别和文化微妙之处方面发挥着至关重要的作用,从而增强了不同语言之间的交流。为了解决这个问题,本研究提出了一种新颖的方法,该方法在离散语音单元级别上运行,并利用多语言情感嵌入来捕获与语言无关的信息。具体来说,我们演示了如何使用这些嵌入来有效预测目标语言中语音单元的音调和持续时间。

Vec-Tok Speech: speech vectorization and tokenization for neural speech generation
Authors Xinfa Zhu, Yuanjun Lv, Yi Lei, Tao Li, Wendi He, Hongbin Zhou, Heng Lu, Lei Xie
语言模型 LM 最近在自然语言处理和计算机视觉领域蓬勃发展,可在各种任务中生成高保真文本或图像。相比之下,当前的语音生成模型在语音质量和任务泛化方面仍然举步维艰。本文提出了 Vec Tok Speech,这是一个可扩展的框架,类似于多个语音生成任务,生成富有表现力和高保真度的语音。具体来说,我们提出了一种基于语音向量和语义标记的新型语音编解码器。语音向量包含有助于高保真语音重建的声学细节,而语义标记则侧重于语音的语言内容,有助于语言建模。基于所提出的语音编解码器,Vec Tok Speech 利用 LM 承担语音生成的核心。此外,引入字节对编码 BPE 来减少令牌长度和比特率,以降低曝光偏差和更长的上下文覆盖范围,从而提高 LM 的性能。 Vec Tok Speech 可用于语言内和跨语言零样本语音转换 VC、零样本说话风格文本到语音 TTS 传输、语音到语音翻译 S2ST、语音去噪以及说话人识别和匿名化。实验表明,基于 5 万小时语音构建的 Vec Tok Speech 的性能优于其他 SOTA 模型。

Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms
Authors Joseph Konan, Ojas Bhargave, Shikhar Agnihotri, Shuo Han, Yunyang Zeng, Ankit Shah, Bhiksha Raj
在 VoIP 互联网协议语音电信领域内,声学变换带来的复杂性值得严格分析。这项研究植根于对专有的发送方降噪效果的探索,仔细评估了 Google Meets 和 Zoom 等平台。该研究利用了 Deep Noise Suppression DNS 2020 数据集,确保针对各种去噪设置和接收器接口进行结构化检查。通过瓦哈卡分解引入了一种方法论上的新颖性,瓦哈卡分解传统上是一种计量经济学工具,在本文中被重新用于分析 VoIP 系统内的声学语音扰动。为了进一步确定这些转变的影响,利用心理声学指标,特别是 PESQ 和 STOI,来提供对言语改变的全面理解。总的来说,获得的见解强调了 VoIP 对声学动态影响的复杂情况。除了主要发现之外,还报告了多种指标,扩大了研究范围。

LLark: A Multimodal Foundation Model for Music
Authors Josh Gardner, Simon Durand, Daniel Stoller, Rachel M. Bittner
音乐具有独特而复杂的结构,对于专家和现有的人工智能系统来说都难以理解,并且相对于其他形式的音频也提出了独特的挑战。我们推出了 LLark,一种用于音乐理解的指令调整多模态模型。我们详细介绍了数据集创建过程,其中涉及增强不同开源音乐数​​据集的注释并将它们转换为统一的指令调整格式。我们为 LLark 提出了一种多模式架构,将预训练的音乐生成模型与预训练的语言模型集成在一起。在对音乐理解、字幕和推理三类任务的评估中,我们表明我们的模型在音乐理解的零样本泛化方面匹配或优于现有基线,并且人类在字幕和推理方面与模型的响应表现出高度一致。推理任务。 LLark 完全根据开源音乐数​​据和模型进行训练,我们随本文的发布提供了训练代码。

Acoustic Model Fusion for End-to-end Speech Recognition
Authors Zhihong Lei, Mingbin Xu, Shiyi Han, Leo Liu, Zhen Huang, Tim Ng, Yuanyuan Zhang, Ernest Pusateri, Mirko Hannemann, Yaqiao Deng, Man Hung Siu
深度学习和自动语音识别 ASR 的最新进展使端到端 ASR 系统成为可能,并将准确性提高到了新的水平。 E2E 系统在受音频文本对训练的单个网络中隐式建模所有传统 ASR 组件,例如声学模型 AM 和语言模型 LM 。尽管系统架构更简单,但将专门在文本语料库上训练的单独的语言模型融合到 E2E 系统中已被证明是有益的。然而,LM融合的应用存在一定的缺点,例如它无法解决内部AM固有的域失配问题。受到 LM 融合概念的启发,我们提出将外部 AM 集成到 E2E 系统中,以更好地解决域不匹配问题。通过实施这种新颖的方法,我们显着降低了单词错误率,在不同的测试集中,单词错误率下降了高达 14.3,令人印象深刻。

Neural Harmonium: An Interpretable Deep Structure for Nonlinear Dynamic System Identification with Application to Audio Processing
Authors Karim Helwani, Erfan Soltanmohammadi, Michael M. Goodwin
提高深度神经网络的可解释性最近引起了越来越多的关注,特别是当利用深度学习的力量来解决物理问题时。可解释性帮助我们了解模型概括和揭示其局限性的能力。在本文中,我们介绍了一种用于动态系统建模的因果可解释深层结构。我们提出的模型通过在时频域中对系统进行建模来利用谐波分析,同时保持高时间和频谱分辨率。此外,该模型以阶递归方式构建,允许快速、鲁棒且精确的二阶优化,而不需要显式的 Hessian 计算。为了避免系统构建块的高维性,设计了神经网络来识别频率相互依赖性。所提出的模型在音频信号处理任务所需的非线性系统识别问题上进行了说明和验证。

Prosody Analysis of Audiobooks
Authors Charuta Pethe, Yunting Yin, Steven Skiena
文本到语音的最新进展使得从文本生成自然声音的音频成为可能。然而,有声读物的叙述涉及读者戏剧性的发声和语调,更多地依赖叙述中的情感、对话和描述。使用 93 个对齐的有声读物对的数据集,我们提出了使用语言建模从叙述文本中预测音调、音量和语速的韵律属性的改进模型。与最先进的商业 TTS 系统的结果相比,我们预测的韵律属性与人类有声读物阅读的相关性要好得多。我们预测的音调显示出 24 本书中 22 本书与人类阅读的相关性更高,而我们预测的音量属性则与人类的阅读更相似。阅读 24 本书中的 23 本书。

Deep Video Inpainting Guided by Audio-Visual Self-Supervision
Authors Kyuyeon Kim, Junsik Jung, Woo Jae Kim, Sung Eui Yoon
人类可以根据他们对视听事件的先验知识,轻松地从听觉信息中想象出场景。在本文中,我们在深度学习模型中模仿人类这种与生俱来的能力,以提高视频修复的质量。为了实现先验知识,我们首先训练视听网络,该网络学习听觉和视觉信息之间的对应关系。然后,视听网络被用作引导器,将视听对应的先验知识传递给视频修复网络。这种先验知识通过我们提出的两种新颖的损失来转移:视听注意力损失和视听伪类一致性损失。这两种损失通过鼓励修复结果与其同步音频具有高度对应性,进一步提高了视频修复的性能。

Audio-Visual Neural Syntax Acquisition
Authors Cheng I Jeff Lai, Freda Shi, Puyuan Peng, Yoon Kim, Kevin Gimpel, Shiyu Chang, Yung Sung Chuang, Saurabhchand Bhati, David Cox, David Harwath, Yang Zhang, Karen Livescu, James Glass
我们从视觉基础语音中研究短语结构归纳。其核心思想是首先将语音波形分割成词段序列,然后使用推断的段级连续表示来归纳短语结构。我们推出了视听神经语法学习器 AV NSL,它可以通过听音频和查看图像来学习短语结构,而无需接触文本。通过对配对图像和语音字幕进行训练,AV NSL 展现出推断有意义的短语结构的能力,这些结构与自然监督的文本解析器导出的英语和德语短语结构相当。

Adapting the adapters for code-switching in multilingual ASR
Authors Atharva Kulkarni, Ajinkya Kulkarni, Miguel Couceiro, Hanan Aldarmaki
最近,大型预训练多语言语音模型已显示出将自动语音识别 ASR 扩展到许多低资源语言的潜力。其中一些模型在其公式中采用了语言适配器,这有助于提高单语言性能并避免在资源丰富的语言上进行多语言建模的一些缺点。然而,这种表述限制了这些模型在代码交换语音上的可用性,其中两种语言在同一个话语中混合在一起。在这项工作中,我们提出了通过在网络中每个语言适应点吸收来自两种语言适配器的信息来有效地微调代码交换语音的此类模型的方法。我们还将代码交换建模为一系列潜在的二进制序列,可用于在帧级别引导来自每个语言适配器的信息流。

DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation
Authors Qingkai Fang, Yan Zhou, Yang Feng
直接语音到语音翻译 S2ST 使用单一模型将语音从一种语言翻译成另一种语言。然而,由于语言和声学多样性的存在,目标语音遵循复杂的多模态分布,这对 S2ST 模型实现高质量翻译和快速解码速度提出了挑战。在本文中,我们提出了 DASpeech,一种非自回归直接 S2ST 模型,它实现了快速且高质量的 S2ST。为了更好地捕获目标语音的复杂分布,DASpeech 采用两通道架构将生成过程分解为两个步骤,其中语言解码器首先生成目标文本,然后声学解码器根据隐藏状态生成目标语音语言解码器的。具体来说,我们使用DA Transformer的解码器作为语言解码器,并使用FastSpeech 2作为声学解码器。 DA Transformer 使用有向无环图 DAG 对翻译进行建模。为了在训练期间考虑 DAG 中的所有潜在路径,我们通过动态编程计算每个目标标记的预期隐藏状态,并将它们输入声学解码器以预测目标梅尔声谱图。在推理过程中,我们选择最可能的路径并将该路径上的隐藏状态作为声学解码器的输入。 CVSS Fr En 基准测试表明,DASpeech 可以实现与最先进的 S2ST 模型 Translatotron 2 相当甚至更好的性能,同时与自回归基线相比保持高达 18.53 倍的加速。与之前的非自回归S2ST模型相比,DASpeech不依赖知识蒸馏和迭代解码,在翻译质量和解码速度上均实现了显着提升。

Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers
Authors Zijian Yang, Wei Zhou, Ralf Schl ter, Hermann Ney
在这项工作中,我们研究了在基于音素的神经传感器的序列判别训练中使用的具有不同上下文长度和标签单元音素与单词的语言模型 LM 的效果。检验了无格方法和 N 最佳列表方法。对于具有音素级 LM 的无格方法,我们提出了一种近似上下文历史的方法,以使用具有完全上下文依赖性的 LM。这种近似可以扩展到任意上下文长度,并允许在无格方法中使用字级语言模型。此外,还对无格方法和基于 N 最佳列表的方法进行了系统比较。 Librispeech 上的实验结果表明,在训练中使用单词级 LM 优于音素级 LM。此外,我们发现用于概率计算的 LM 的上下文大小对性能的影响有限。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1091701.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】 局部对象,引用返回

1、new 关键字 会在堆内申请空间,如果仅仅是普通调用构造函数,不会在堆内开辟空间。 2、函数调用会形成栈帧,进行压栈操作,函数调用结束,会进行弹栈。 函数内的局部对象,会随着弹栈,而被销毁(…

关于github申请学生认证-卡在证明上传环节解决方案

在持有学信网英语翻译(30)某宝请人代注册(80) 通过github security log和聊天记录我大致猜想了下做法,前面的学校邮箱其实都好说主要是下面的那个上传照片的环节卡了我很久

生活空间中,餐桌该如何选择?福州中宅装饰,福州装修

餐桌设计 如何选择 不同的餐桌,定义不同的餐桌礼仪 在家的装修设计上, 很多人的关注点是这样的: 玄关收纳要强、客厅颜值要高、阳台功能要全、厨房要好用、卧室要舒适......餐厅、几把椅子一张长桌,够了吧。 餐厅说:“…

20.2 FMC驱动SDRAM的时序初始化实现及内存测试

继续上一篇的话题,写到SDRAM通过CubeMx配置后,在工程代码编写时直接引用的是我事先写好的时序初始化、内存测试文件,而未对其进行详细的解释,所以本篇文章就来娓娓道来。不多说,开始吧 SDRAM的初始化流程简述 SDRAM初…

在不同版本的linx编译erLang时出现./configure使用--prefix指定路径后,总在指定的另前多了/usr/local路径

昨天别的项目同事遇到一个编译遇到在不同linx版本下编译erLang的源码时,其中有一个版本的编译出现在./configure时加入---prefix指定编译后的安装目录,总会在指定的安装另前多了/usr/local的目录,导致无法源码安装到普通用户指定的目录 安装…

目录启示:使用 use 关键字为命名空间内的元素建立非限定名称

文章目录 参考环境三种名称非限定名称限定名称完全限定名称举个栗子 useuse 关键字use ... as .. 命名冲突真假美猴王两个世界 参考 项目描述搜索引擎Bing、GoogleAI 大模型文心一言、通义千问、讯飞星火认知大模型、ChatGPTPHP 官方PHP ManualPHP 官方language.namespaces.ra…

乐器经营商城小程序的作用是什么

乐器产品覆盖的人群非常广,小学生、老年人都有不小需求,也因此市场中的从业商家相对较多,产品丰富可供消费者选购,然而在实际经营中,线上线下面临痛点不少。 通过【雨科】平台搭建乐器小程序商城,将所有产品…

数据中心机房供电配电及能效管理系统设计

安科瑞虞佳豪壹捌柒陆壹伍玖玖零玖叁 摘要:现代的数据中心中都包括大量的计算机,对于这种场所的电力供应,都要求供电系统需要在所有的时间都有效,这就不同于一般建筑的供配电系统,它是一个交叉的系统,涉及…

力扣第108题 将有序数组转二叉搜索树 c++

题目 108. 将有序数组转换为二叉搜索树 简单 相关标签 树 二叉搜索树 数组 分治 二叉树 给你一个整数数组 nums ,其中元素已经按 升序 排列,请你将其转换为一棵 高度平衡 二叉搜索树。 高度平衡 二叉树是一棵满足「每个节点的左右两个子树…

Python基础教程:print输出带颜色的方法详解

嗨喽~大家好呀,这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取 书写格式: 开头部分:\033[显示方式;前景色;背景色m 结尾部分:\033[0m 注意: 开头部分的三个参数:显…

Android ViewBinding和DataBinding功能作用区别

简述 ViewBinding和DataBinding都是用于在 Android 应用程序中处理视图的工具,但它们有不同的作用和用途。 ViewBinding: ViewBinding 是 Android Studio 的一个工具,用于生成一个绑定类,能够轻松访问 XML 布局文件中的视图。ViewBinding 为…

整理mongodb文档:搭建分片集群

个人博客 整理mongodb文档:搭建分片集群 分片集群在MongoDB中的的使用并没有那么多,更多的还是副本集,所以本文就不讲解那么多,只是搭建一个最基本的分片集群,让大家有个了解。个人公众号,求关注。 文章概叙 本文主…

光储直流微电网MATLAB/Simulink仿真

微❤关注“电击小子程高兴的MATLAB小屋”获得资料(专享优惠) MATLAB代码:光储直流微电网MATLAB/Simulink仿真 仿真软件:MATLAB2018b 光储并网直流微电网simulink仿真模型,光伏采用mppt实现最大功率输出。 图1 整体仿…

力扣-448.找到所有数组中消失的数字

Idea 模拟 class Solution { public:vector<int> findDisappearedNumbers(vector<int>& nums) {int n nums.size();vector<int> a(n 1, 0);for(int i : nums) a[i];vector<int> ans;for(int i 1; i < n; i) if(!a[i]) ans.emplace_back(i);r…

【Java】jdk9为何要将String的底层实现由char[]改为byte[]

问题&#xff1a;从jdk9 String 的底层实现由 char[] 改为了 byte[] 答案&#xff1a;节省 String 占用 jvm 的内存空间 JDK1.8 String类型底层实现 基于 char[] 类型数组实现 JDK1.9开始 String类 底层实现 char[] 类型数组改为 byte[],下面的是JDK11 下一篇文章&#xff1a; …

超详细的顺序表(附源码)

文章目录 前言线性表顺序表顺序表的分类静态顺序表动态顺序表 动态顺序表的实现&#x1f6a9;结构&#x1f6a9;初始化&#x1f6a9;销毁&#x1f6a9;插入&#x1f6a9;删除&#x1f6a9;查找&#x1f4c3;源代码 前言 顺序表是线性表的一种&#xff0c;代码量对于前面的学习…

年底旺季,Shopee、Lazada如何通过测评补单技术打造产品权重收割流量

当前Shopee和Lazada平台的主要推广方式仍然以广告为主&#xff0c;毕竟这是平台的主要收入来源之一。然而&#xff0c;由于近年来大量卖家涌入东南亚市场&#xff0c;导致卖家之间的竞争日趋激烈。高额的广告投入并不能带来预期的效果&#xff0c;因此越来越多的卖家开始自学测…

RK3588 USB蓝牙调试

一.蓝牙基本概念 蓝牙技术是一种无线通信的方式&#xff0c;利用特定频率的波段&#xff08;2.4GHz-2.485GHz左右&#xff09;&#xff0c;进行电磁波传输。蓝牙传输原理是主从关系&#xff0c;一个主设备可以与7个蓝牙从设备配对。 二.蓝牙标准 蓝牙标准版本发展如下&#x…

Redis五大数据类型的底层设计

SDS 无论是 Redis 的 Key 还是 Value&#xff0c;其基础数据类型都是字符串。虽然 Redis是使用标准 C 语言开发的&#xff0c;但并没有直接使用 C 语言中传统的字符串表示&#xff0c;而是自定义了一 种字符串。这种字符串本身的结构比较简单&#xff0c;但功能却非常强大&…

使用paddleX体验

首先paddlex的网址链接是&#xff1a;飞桨AI Studio星河社区-人工智能学习与实训社区 (baidu.com) 进入paddlex以后的界面如下所示&#xff1a; 首先说明paddlex的作用是&#xff1a; PaddleX是PaddlePaddle深度学习框架的一个扩展库&#xff0c;专注于为深度学习任务提供强大…