【AI视野·今日Sound 声学论文速览 第五十一期】Mon, 4 Mar 2024

news2024/9/24 15:21:49

AI视野·今日CS.Sound 声学论文速览
Mon, 4 Mar 2024
Totally 6 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

VoxGenesis: Unsupervised Discovery of Latent Speaker Manifold for Speech Synthesis
Authors Weiwei Lin, Chenhang He, Man Wai Mak, Jiachen Lian, Kong Aik Lee
实现对人类声音细致入微且准确的模拟一直是人工智能的长期目标。尽管近年来取得了重大进展,但语音合成模型的主流仍然依赖于有监督的说话人建模和显式参考话语。然而,人类声音的很多方面,如情感、语调、说话风格等,很难获得准确的标签。在本文中,我们提出了 VoxGenesis,一种新颖的无监督语音合成框架,可以在没有监督的情况下发现潜在的说话人流形和有意义的语音编辑方向。 VoxGenesis 在概念上很简单。 VoxGenesis 不是将语音特征确定性地映射到波形,而是将高斯分布转换为由语义标记调节和对齐的语音分布。这迫使模型学习与语义内容分离的说话人分布。在推理过程中,从高斯分布中采样可以创建具有独特特征的新颖扬声器。更重要的是,对潜在空间的探索揭示了与特定说话者特征(例如性别属性、音调、语气和情感)相关的人类可解释的方向,允许通过沿着这些识别的方向操纵潜在代码来进行语音编辑。我们进行了大量的实验,使用主观和客观指标来评估所提出的 VoxGenesis,发现它比以前的方法产生了更加多样化和现实的、具有独特特征的扬声器。我们还表明,潜在空间操纵会产生一致的、人类可识别的效果,并且不会损害语音质量,这是以前的方法不可能实现的。

The Impact of Frequency Bands on Acoustic Anomaly Detection of Machines using Deep Learning Based Model
Authors Tin Nguyen, Lam Pham, Phat Lam, Dat Ngo, Hieu Tang, Alexander Schindler
在本文中,我们提出了一种基于深度学习的机器声学异常检测模型,即通过分析机器声音来检测异常机器的任务。通过大量的实验,我们表明以特征工程为主的伪音频、音频分段、数据增强、马哈拉诺比斯距离和窄频带等多种技术可以有效提高系统性能。在评估技术中,窄频带具有显着的影响。事实上,我们提出的模型专注于窄频带,在 DCASE 2022 任务 2 开发集的基准数据集上优于 DCASE 基线。

Post-decoder Biasing for End-to-End Speech Recognition of Multi-turn Medical Interview
Authors Heyang Liu, Yu Wang, Yanfeng Wang
端到端 E2E 方法正在逐渐取代自动语音识别 ASR 任务的混合模型。然而,E2E模型的优化缺乏直观的方法来处理解码移位,特别是在具有大量具有特定重要含义的特定领域稀有词的场景中。此外,学术界缺乏知识密集型语音数据集一直是一个重要的限制因素,常用的语音语料库与现实对话表现出显着差异。为了应对这些挑战,我们提出了 Medical Interview MED IT,这是一个多轮咨询语音数据集,其中包含大量知识密集型命名实体。我们还探索了增强端到端模型稀有词识别性能的方法。我们提出了一种新颖的方法,即解码器后偏置,它根据训练转录的分布构建变换概率矩阵。这引导模型优先识别偏差列表中的单词。

Efficient Adapter Tuning of Pre-trained Speech Models for Automatic Speaker Verification
Authors Mufan Sang, John H.L. Hansen
凭借出色的泛化能力,自监督语音模型在预训练和微调范式中的各种下游语音任务中表现出了令人印象深刻的性能。然而,随着预训练模型规模的不断增大,由于大量的计算和存储开销以及过度拟合的风险,微调实际上变得不可行。适配器是插入预先训练的模型中的轻量级模块,以促进参数高效适应。在本文中,我们提出了一种有效的适配器框架,旨在使自监督语音模型适应说话人验证任务。通过并行适配器设计,我们提出的框架将两种类型的适配器插入到预先训练的模型中,从而允许调整中间 Transformer 层中的潜在特征和所有 Transformer 层的输出嵌入。我们进行了全面的实验来验证所提出框架的效率和有效性。

CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation
Authors Xi Liu, Ying Guo, Cheng Zhen, Tong Li, Yingying Ao, Pengfei Yan
听者头部生成旨在通过对说话者和听者之间动态转换的相关性进行建模来合成非语言响应的听者头部。听者代理生成在虚拟交互中的应用推动了许多实现多样化和细粒度运动生成的工作。然而,他们只能通过简单的情感标签来操纵动作,而无法自由地控制听者的动作。由于侦听器代理应该具有类似人类的属性,例如用户可以自由定制身份、个性,这限制了它们的真实性。在本文中,我们提出了一个名为 CustomListener 的用户友好框架,以实现自由格式文本优先引导侦听器生成。为了实现说话者听众的协调,我们设计了一个静态到动态肖像模块SDP,它与说话者信息交互,将静态文本转换为具有完成节奏和幅度信息的动态肖像标记。为了实现片段之间的连贯性,我们设计了过去引导生成模块PGG,通过运动先验保持定制听众属性的一致性,并利用基于肖像标记和运动先验的扩散结构来实现可控生成。为了训练和评估我们的模型,我们构建了两个基于 ViCo 和 RealTalk 的文本注释听力头数据集,它们提供文本视频配对标签。

Transcription and translation of videos using fine-tuned XLSR Wav2Vec2 on custom dataset and mBART
Authors Aniket Tathe, Anand Kamble, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra
这项研究解决了用最少的数据训练个性化语音 ASR 模型的挑战。我们仅利用 YouTube 视频中 14 分钟的自定义音频,采用基于检索的语音转换 RVC 来创建自定义 Common Voice 16.0 语料库。随后,跨语言自监督表示 XLSR Wav2Vec2 模型在此数据集上进行了微调。开发的基于 Web 的 GUI 可以有效地转录和翻译输入的印地语视频。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1491291.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

66-ES6:var,let,const,函数的声明方式,函数参数,剩余函数,延展操作符,严格模式

1.JavaScript语言的执行流程 编译阶段:构建执行函数;执行阶段:代码依次执行 2.代码块:{ } 3.变量声明方式var 有声明提升,允许重复声明,声明函数级作用域 访问:声明后访问都是正常的&…

最新LangChain+GLM4开发AI应用程序系列(三):RAG检索增强生成篇

最新LangChainGLM4开发AI应用程序系列(三):RAG检索增强生成篇 一、前言二、RAG介绍1、文档加载器2、文本分割器3、嵌入模型4、向量数据库 三、RAG开发案例1、创建智谱GLM4大模型对象2、加载文档3、文本分割4、向量化存储5、向量库检索6、生成…

初始网络 --- 网络基础

目录 0、 前言 1、 计算机网络发展背景 1.1. 局域网(LAN) && 广域网(WAN) 2、 认识并理解协议 3、 初始网络协议 3.1. 协议分层 4、 TCP/IP 五层(或四层)模型 4.1. 简单了解TCP/IP层状体系 4.2. TCP/IP协议层状结构和计算机层状结构的关系 5、 OSI七层模型 …

程序员如何选择职业赛道:探索未知,寻找激情

作为程序员,我们时常面临职业选择的难题。在这个充满变革的行业中,如何选择适合自己的职业赛道成为了我们关注的焦点。本文将探讨程序员如何选择职业赛道,帮助你找到适合自己的发展方向。 一、认识自己的兴趣和激情 首先,我们需要…

为什么要用云手机进行国外社媒监控?

随着全球化的不断发展,社交媒体已成为企业推动全球品牌知名度和业务流量的关键渠道。在这个数字时代,云手机作为一种强大的工具,为国外社交媒体监控提供了全新的可能性。在这篇文章中,我们将探讨使用云手机进行国外社媒监控的重要…

RHCSA练习2

一、实验题目 1、文件查找 (1)在当前目录及子目录中,查找小写字母开头的txt文件 [rootroot ~]# cd /etc [rootroot etc]# find . -type f -name [a-z]*.txt (2)在/etc及其子目录中,查找host开头的文件 …

Java解决杨辉三角

Java解决杨辉三角 01 题目 给定一个非负整数 *numRows,*生成「杨辉三角」的前 numRows 行。 在「杨辉三角」中,每个数是它左上方和右上方的数的和。 示例 1: 输入: numRows 5 输出: [[1],[1,1],[1,2,1],[1,3,3,1],[1,4,6,4,1]]示例 2: 输入: numRo…

人工智能-飞桨

文章目录 概要安装零基础教程基础知识小结 概要 集核心框架、基础模型库、端到端开发套件、丰富的工具组件于一体的深度学习平台 官方入口 安装 python安装 python官方下载 PaddlePaddle安装 python -m pip install paddlepaddle2.6.0 -i https://mirror.baidu.com/pypi/s…

【C++】类和对象终篇

个人主页 : zxctscl 文章封面来自:艺术家–贤海林 如有转载请先通知 文章目录 1. 前言2. 友元2.1 友元函数2.2 友元类 3. 内部类4. 匿名对象5. 拷贝对象时的一些编译器优化6. 再次理解类和对象 1. 前言 在上一篇博客中提到了类和对象中的构造函数与stat…

数据库系统概论(超详解!!!) 第二节 数据模型

1.数据模型分为两类(两个不同的层次) (1) 概念模型 ,也称信息模型,它是按用户的观点来对数据和信息建模,用于数据库设计。 (2) 逻辑模型 ,逻辑模型主要包括…

Mybatis实现分页查询数据(代码实操讲解)

在MyBatis中实现分页查询的常见方式有两种:使用MyBatis内置的分页插件如PageHelper,或者手动编写分页的SQL语句。下面我将为你提供两种方式的示例代码。 使用PageHelper分页插件 首先,确保你的项目中已经添加了PageHelper的依赖。在Maven项…

2023 2024年全国职业院校技能大赛中职组网络建设与运维赛项服务器Linux部分教程解析

欢迎合作 需要资料请私 Rocky 9 包含各种常考服务(包括新题型KVM等)

RabbitMQ是如何保证高可用的?

RabbitMQ可以通过多种方式来实现高可用性,以确保在硬件故障或其他不可预测的情况下,消息队列系统仍然能够正常 运行。RabbitMQ有三种模式:单机模式,普通集群模式,镜像集群模式。 其中单机模式一般用于demo搭建&#x…

unocss 究竟比 tailwindcss 快多少?

unocss 究竟比 tailwindcss 快多少? 前言 我们知道 unocss 很快,也许是目前最快的原子化 CSS 引擎 (没有之一)。 unocss 解释它为什么这么快的原因,是因为它不用去解析 CSS 抽象语法树,直接在 content 里面通过正则表达式从内容…

基本设计模式

单例模式 ES5 function Duck1(name:string){this.namenamethis.instancenull }Duck1.prototype.getNamefunction(){console.log(this.name) }Duck1.getInstancefunction(name:string){if(!this.instance){this.instance new Duck1(name)} } const aDuck1.getInstance(a) const…

【王道操作系统】ch2进程与线程-01进程与线程(长文预警)

文章目录 【王道操作系统】ch2进程与线程-01进程与线程01 进程的概念、组成和特征(1)进程的概念(2)进程(进程实体)的组成①PCB(给操作系统用的)②程序段(给进程自己用的&…

【YOLO v5 v7 v8 v9小目标改进】DWRSeg:优化的多尺度处理,传统的深度学习模型可能在不同尺度的特征提取上存在冗余

DWRSeg:优化的多尺度处理,传统的深度学习模型可能在不同尺度的特征提取上存在冗余 提出背景问题:实时语义分割需要快速且准确地处理图像数据,提取出有意义的特征来识别不同的对象。 小目标涨点YOLO v5 魔改YOLO v7 魔改YOLO v8 魔…

开发知识点-Python-爬虫

爬虫 scrapybeautifulsoupfind_all find祖先/父节点兄弟节点nextpreviousCSS选择器属性值 attrsselect 后 class 正则使用字符串来描述、匹配一系列符合某个规则的字符串组成元字符使用grep匹配正则组与捕获断言与标记条件匹配正则表达式的标志 特定中文 匹配 scrapy scrapy内…

ArcGIS学习(十三)多源数据下的城市街道功能评估

ArcGIS学习(十三)多源数据下的城市街道功能评估 本任务带来的内容是多元数据下的城市街道功能评估。本任务包括两个关卡: 城市街道空间中观解读 城市街道功能详细评价 首先,我们来看看本任务的分析思路。 1.城市街道空间中观解读 下面我们正式进入第一关的内容一- 城市…

[Flutter get_cli] 配置 sub_folder:false报错

flutter get_cli 配置 get_cli:sub_folder:false报错如下 Because getx_cli_learn01 depends on get_cli from unknown source "sub_folder", version solving failed. 原因是在 pubspec.yaml文件中, get_cli:sub_folder:false要和 dependencies: xxx dev_depe…