谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术

news2024/11/16 23:33:37

声学室模拟允许在AR眼镜上以最少的真实数据进行训练,用于开发鲁棒的语音识别声音分离模型。

随着增强现实(AR)技术的强大和广泛应用,它能应用到各种日常情境中。我们对AR技术的潜能感到兴奋,并持续不断地开发和测试新技术与体验。其中一个研究方向是探索语音模型对人际交流潜力的改变。例如,在我们之前进行的可穿戴字幕工作中,通过全天候语音转录来增强交流已经证明了其在聋哑人群体和听损人群等多个用户研究中的价值,也可以用于跨语言交流。这种增强尤其在群体对话或嘈杂环境中非常有用,在这些环境下,人们可能会遇到难以区分他人说话内容的困扰。因此,在可穿戴设备中准确地分离声音并进行语音识别是提供可靠且有价值用户体验所必需的关键要素。

在现实环境中,无论是在群体对话(左侧)还是周围存在多个说话者的嘈杂环境(右侧),语音字幕生成都面临着极大挑战

开发音频信号处理的深度学习解决方案需要访问大规模高质量数据集。对于训练声音分离模型而言,通过在实际设备上录制音频可以捕获到特定声学特性,然而考虑到需要在具有代表性的真实环境中使用实际设备,这一记录过程既耗时又困难。相比之下,利用模拟数据(例如房间模拟器)能够快速且低成本地进行操作,但可能无法准确捕捉到设备的良好声学特性。

在IEEE ICASSP 2024上发表的研究"基于模拟器的数据增强对增强现实眼镜语音识别性能的影响"证明了通过混合训练集,即由少量真实录音和大量模拟数据组成的配备麦克风头戴显示器原型,在提高模型性能方面具有显著效果。这种混合方法不仅可以捕获实际硬件声学特性(无法在模拟数据中获取),还可以便捷快速地生成适用于不同房间大小和配置声学场景的大量模拟数据,而使用实际设备记录这些数据则非常耗时。此外,该研究还对原型麦克风的方向性进行建模,以增加模拟结果的真实感,并进一步减少所需真实数据量。

室内声音传播机制

声波从A点到B点的传播模型如下:

其中,x(t)代表点A的时域声音信号,y(t)代表点B的声音信号。数学上通过脉冲响应(IR) h(t)来描述声波在经过A和B之间介质传播时的变化情况。

以下是一个在中度混响室内录制的红外信号示例。IR由三个主要部分组成:初始延迟、主峰和尾翼。初始延迟反映了声波从A点传播到B点所需时间延迟;主峰表示直接路径(即视距)上从A到B的声波传播;尾翼则由于墙壁、地板和天花板等处发生反射(也称为混响),导致较长距离和较晚到达以及振幅降低。

使用头戴式麦克风拍摄房间红外(IR)的示例。其中,(a)声波从扬声器传播到麦克风存在初始延迟,(b)主峰表示直接传播(即视距传播),(c)尾部代表来自房间的声音反射。

混合数据集

为了捕捉原型在一系列代表性环境中的独特声学特性,我们开发了一个混合数据集管道。通过使用头-躯干模拟器(HATS)在实际设备上记录房间脉冲响应(RIRs),我们能够获取真实数据。我们利用9个扬声器和一个嘴巴模拟器提供10个声源,并借助电动转台控制声源与原型之间的角度,从而记录每个房间720个RIRs(360°/ 5°增量× 10个声源)。这些扬声器分别放置在样机周围不同距离(1.0 - 4.2米)和高度(1.3 - 1.8米)的位置。所记录的RIR数据集被划分为训练集和评估集。对于模拟数据集,我们使用房间模拟器生成了8000个具有不同RT60混响时间(0.2-1.5秒)、房间体积(长/宽:2-6米,高度:2-6米)和扬声器位置(高度:1.3-2.1米,与原型距离:0.2-4米)的IRs。所有这些模拟RIR仅用于训练。

数据收集装置。麦克风原型安装在一个旋转平台上,周围有9个扬声器,另外还有一个10口模拟扬声器。在使用和不使用头部和躯干模拟器的情况下进行了720次RIR记录。

在训练过程中,我们使用了公共数据集(LibriTTS和FSD50K)以及记录和模拟的RIRs对语音和噪声样本进行了空间化处理,并将它们混合在一起。通过能够访问单独的预混合空间化源,我们可以获得用于监督训练的真实数据。根据所使用的训练集(记录的、模拟的或两者兼有)组合不同基于CNN的Conv-TasNet模型,并比较它们之间的性能。所有模型都保持相同的架构和超参数。

声学建模

在声学建模过程中,我们假设麦克风的指向性可以增强模拟的冲击响应(IRs)的真实感,因为麦克风指向性是录制IRs时关键的声学特征。因此,我们将模拟的RIRs扩展为具有麦克风指向性,并通过计算直达混响比(DRR)来衡量直达径(视线)音频与其混响部分之间功率上的差异。正如我们所假设的那样,我们得出了以下结论(见下文),即通过使模拟IRs更接近于录制IRs行为,并提高模拟数据集质量,从而进一步提升整体模型性能,而无需进行昂贵且耗时的录制过程。值得注意的是随着模拟IRs与录制IRs越来越接近,在混合数据集中以更多比例使用模拟IRs相对于记录IRs变得可行。因此,在不影响模型性能情况下,这种额外声学建模方法还可以进一步减少所需记录数据量。

结果

为了评估模型的性能,我们在预处理步骤上遵循与训练中相同的流程。不同之处在于,我们使用录制的IRs作为评估集,并排除了训练数据中的语音和噪声音频。推理后,分离出来的输出音频被传递到一个现成的自动语音识别(ASR)引擎进行计算单词错误率(WER)。我们使用未经修改过且与Pixel Recorder APP中使用的引擎相同的ASR引擎,在每个模型上重复执行相同推理过程以便与下面总结结果进行比较。

研究结果显示,使用混合数据集训练的模型相较于仅从记录数据集或模拟数据集训练的模型表现更优。混合模型S[4000]+M[720](包含4000个模拟和720个测量)与M[1440](包含1440个测量)具有类似性能,由于训练数据中已经包含了4000个模拟IRs,因此只需一半数量的记录- 1440→720 -。同时,S[4000]+M[720]也优于在S[8000](包含8000个模拟)上进行训练的模型,这说明小子集中所提取出来的记录IRs数量减少了所需的模拟IRs数量(8000→4000 )。

不同的数据增强方法与实测和模拟IRs进行比较。M表示测量,S表示模拟;括号中的内容分别代表IRs数量、D代表模拟中的麦克风指向性,G代表对被测房间使用匹配几何的模拟。WER的降低是相对于基线(没有声音分离)而言WER得到了改进。

结论

尽管可穿戴设备上的语音识别具有挑战性,特别是在噪声和混响条件下,但结论显示其具有解锁许多关键应用的潜力。本文量化了使用房间模拟器来训练作为语音识别前端的声音分离模型的有效性。通过(a)大幅增加可用模拟IRs数量、(b)利用麦克风指向性以及(c)与少量测量IRs合并,证明了模拟IRs对提高语音识别至关重要。

仿真技术成为开发可穿戴语音识别系统强有力的工具。我们得出一个重要结论:逼真的声学建模可以显著减少所需真实世界数据量,并且即使使用模拟数据来补充有限真实世界数据也能带来巨大性能提升。

这项研究为强大的语音驱动AR体验开辟了新途径,并为无数应用程序中增强通信铺平了道路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1621680.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

web前端框架设计第六课-样式绑定

web前端框架设计第六课-样式绑定 一.预习笔记 1.class属性绑定 给P标签绑定一个类样式,类名为active。当active取值为true时,表示绑定样式成功,取值为false时,取消绑定 以对象形式给P标签绑定多个类样式 以数组形式给P标签绑定多…

网络安全新挑战:通用人工智能(AGI)等级保护指南

通用人工智能(AGI)的发展现状及趋势 随着2023年大语言模型应用的划时代突破,以ChatGPT为杰出代表的此类技术犹如一股洪流,彻底颠覆了人类与机器智能交互的疆界,引领通用人工智能(AGI)步入一个崭…

网络基础(day3)建议在电脑端注册登陆观看!!!

【 理论重点】 网络是什么&#xff1f; &#xff08;网络是载体&#xff0c;目的是传输互联网中的数据&#xff0c;数据是终端产生<手机、电脑、服务器等>。&#xff09; 如何组件网络&#xff08;良性网络架构&#xff09;&#xff1f;有网络架构思维&#xff0c;得按层…

宜搜科技死磕港交所上市:从搜索引擎到广告投放,业绩疲态凸显

近日&#xff0c;宜搜科技控股有限公司&#xff08;下称“宜搜科技”&#xff09;向港交所递交招股书&#xff0c;计划在香港主板上市&#xff0c;中银国际为其独家保荐人。 值得注意的是&#xff0c;宜搜科技已在资本市场辗转多年。该公司曾于2014年向纽交所递交上市申请&…

easyExcel快速入门

目录 &#x1f9c2;1.简单介绍 &#x1f32d;2.快速入门 &#x1f953;1.导入依赖 &#x1f37f;2.导出到excel &#x1f38f;3.读入数据 &#x1f389;4.下载 1.简单介绍 传统操作Excel大多都是利用Apach POl进行操作的,但是POI框架并不完善,使用过程非常繁琐且有较多…

Github进行fork后如何与原仓库同步

前言 fork了一个仓库以后怎么同步源仓库的代码&#xff1f; 步骤 1、执行命令 git remote -v 查看你的远程仓库的路径。 以一个实际例子说明&#xff0c; 来源仓库&#xff1a; TheFirstLineOfCode/basaltgit remote -v得到&#xff1a; origin https://github.com/ghmi…

Redis之路系列(5)功夫在诗外

5 拓展篇—功夫在诗外 6.0新特性 相对都比较鸡肋&#xff0c;谨慎在生产环境使用 ACL安全策略 Redis6版本推出了ACL(Access Control List)访问控制权限 的功能&#xff0c;基于此功能&#xff0c;可以设置多个用户&#xff0c;并且给每个用户单独设 置命令权限和数据权限。 …

机器学习/算法工程师面试题目与答案-深度学习部分1

机器学习/算法工程师面试题目与答案-深度学习部分 BatchNormalization的作用梯度消失循环神经网络&#xff0c;为什么好?什么是GroupConvolution什么是RNN神经网络中权重共享的是&#xff1f;神经网络激活函数&#xff1f;为什么在深度学习中常进行finetuning画GRU结构图什么是…

python+django校园社交高校交友网站2x7r5.

本课题使用Python语言进行开发。代码层面的操作主要在PyCharm中进行&#xff0c;将系统所使用到的表以及数据存储到MySQL数据库中&#xff0c;方便对数据进行操作本课题基于WEB的开发平台&#xff0c;设计的基本思路是&#xff1a; 前端&#xff1a;vue.jselementui 框架&#…

探索Web3:去中心化的互联网新时代

引言 在过去的几十年里&#xff0c;互联网已经改变了我们的生活方式、商业模式以及社交互动方式。然而&#xff0c;一个新的技术浪潮——Web3正在崭露头角&#xff0c;预示着一个去中心化的互联网新时代的来临。本文将深入探讨Web3技术的定义、特点以及其对未来互联网发展的影…

跨平台SIP 客户端-linphone下载、使用、开启视频H264

linphone 介绍 Linphone 是一种开源的语音和视频通信应用程序&#xff0c;它提供了基于互联网协议&#xff08;IP&#xff09;的实时通信功能。用于语音/视频通话、即时消息和电话会议的开源 SIP 电话。它适用于移动和桌面环境&#xff08;iOS、Android、GNU/Linux、macOS、Win…

【ensp】网关冗余vrrp实验

基础文字知识复习时&#xff0c;添加&#xff0c;下文仅拓扑以及核心配置以及结果分析 冗余路由器 核心代码&#xff1a; int g0/0/0 [R1-GigabitEthernet0/0/0]vrrp vrid 1 virtual-ip 192.168.10.1 ###设置虚拟ip [R1-GigabitEthernet0/0/0]vrrp vrid 1 priority 120 …

Flutter-自定义画板

效果 功能 支持绘制线、圆、矩形&#xff0c;支持拓展支持撤回上一步支持清空画板支持自定义画笔颜色&#xff0c;宽度 实现 定义绘制类型 /// 类型 enum ShapeType {//线line,//圆circle,//矩形rectangle,//拓展 }定义绘制抽象类 import dart:ui;/// 绘制抽象类 abstract…

云原生Service Mesh服务网格简单介绍

serviceMesh是什么 Service Mesh是一个用于处理服务间通信的基础设施层&#xff0c;旨在实现云原生应用复杂服务拓扑中的可靠请求传递。其基本构成是一组与应用一起部署的轻量级网络代理&#xff0c;这些代理对应用来说是透明的。Service Mesh通过统一的方式来控制和处理服务间…

数据结构-二叉树-链式

一、链式二叉树的结构 typedef int BTNodeDataType; typedef struct BTNode {BTNodeDataType data;struct BTNode* left;struct BTNode* right; }BTNode; 二叉树的前中后序遍历 前序&#xff1a;根左右 中序&#xff1a;左根右 后序&#xff1a;左右根 void PreOrder(BTNo…

大语言模型Ollama

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl Ollama简介 Ollama是一个开源的大语言模型平台&#xff0c;它允许用户在本地环境中运行、创建和共享大型语言模型。Ollama提供了丰富的功能和特性&#xff0c;使得用户可以…

Jenkins - macOS 上安装

文章目录 关于 JenkinsmacOS 上安装 Jenkins方式一&#xff1a;brew方式二&#xff1a;tomcat Jenkins war 关于 Jenkins 官网上下载Jenkins并将其安装到持续集成服务器 https://jenkins.io/download/ macOS 上安装 Jenkins 现在本 macOS 上测试 https://www.jenkins.io/do…

更新至2022年上市公司数字化转型数据合集(四份数据合集)

更新至2022年上市公司数字化转型数据合集&#xff08;四份数据合集&#xff09; 一、2000-2022年上市公司数字化转型数据&#xff08;年报词频、文本统计&#xff09; 二、2007-2022年上市公司数字化转型数据&#xff08;年报和管理层讨论&#xff09;&#xff08;含原始数据…

Golang基础4-type、go测试

type相关 别名&#xff1a;本质上是更好的理解代码&#xff0c;比如byte(uint8)、rune(int32) 定义新类型&#xff0c;那么就相当于时struct了 package mainimport ("fmt""strconv" )// XInt 别名,在编译的时候会直接替换int type XInt int// YInt 自定…

线性代数基础1向量

1、向量是什么 1.1、向量的定义 在数学中&#xff0c;向量&#xff08;也称为欧几里得向量、几何向量、矢量&#xff09;&#xff0c;指具有大小和方向的量。它可以形象化地表示为带箭头的线段。箭头所指&#xff1a;代表向量的方向&#xff1b;线段长度&#xff1a;代表向量的…