Meta利用视觉信息来优化3D音频模型,未来将用于AR/VR

news2024/9/30 17:25:54

我们知道,Meta为了给AR眼镜打造智能助手,专门开发了第一人称视觉模型和数据集。与此同时,该公司也在探索一种将视觉和语音融合的AI感知方案。相比于单纯的语音助手,同时结合视觉和声音数据来感知环境,可进一步增强智能助手的能力,比如模拟人类感知世界的方式,来理解声音在空间的传播方式。

Meta表示:在元宇宙社交、AR观影等多种场景中,声音都扮演了重要的角色。为了满足沉浸式AR/VR场景的需求,Meta决定采用AI来实现高保真的音质,并与沉浸的空间逼真匹配。

https://v.qq.com/txp/iframe/player.html?vid=j3345qptjox

为此,Meta AI科研人员和Reality Labs音频专家、德克萨斯大学奥斯汀分校科研人员合作,开发了三个专为AR/VR打造的声音合成AI模型:Visual Acoustic Matching Model(视听匹配模型)、Visually-Informed Dereverberation(基于视觉信息的抗混响模型)、VisualVoice(利用视听提示将对话和背景音区分)。它们特点是可对视频中人类对话和声音进行视听理解,并与3D空间定位进行匹配,实现沉浸的空间音频效果。

简单来讲,这种AI模型根据外观和声音来理解物理环境。我们知道,声音在不同的物理空间中听起来也会有不同,比如在山洞里你会听到自己说话的回声,而在音乐厅和客厅两种不同规模的空间中,声音传播效果也不相同。这是因为,声音传播路径受到空间结构、材料和表面纹理、距离等因素影响,因此听起来会有所不同。

一,Visual Acoustic Matching Model(视听匹配模型)

在这个模型中输入在任何场景录制的音频片段,以及一张目标场景的图像,便可以将录音片段与目标场景融合,音频听起来就像是在目标场景中录制的那样。比如,可以将洞穴中录制的音频与餐厅图像融合,输出的语音听起来就会像在餐厅中录制的那样。

通常在看一段视频时,如果视频的声音和视觉不匹配(不符合传统认知),会造成不自然的体验,人可以轻易发现这种差异,并认为视频声音为后期配音。

利用声音模型,科研人员可模拟声音在房间中传播产生的脉冲,来重现空间的声学效果。但这种方式需要结合空间3D网格,来测定空间的几何结构、材料属性。在大多数情况下,这些信息并不是已知的,因此声学模型难以实现。

科研人员指出,也可以根据在特定空间中捕捉的音频,通过声音在目标空间中产生的混响,来预测声学特性,但缺点是智能获得有限的声音信息,因此模拟效果通常不够好。

为了解决上述问题,Meta科研人员创建了一个名为AViTAR的自监督视听匹配模型,特点是可通过调整音频,来与目标图像中的空间匹配。AViTAR是一个交叉感知模式转化模型,它可以通过复合模式推理,将输入的视听数据转化成视觉和听觉匹配的高保真数据。此外,AViTAR模型可利用任意网络视频,来进行自我监督训练,练习匹配声音和图像。

Meta为AViTAR创建了两个数据集,其中一个建立在开源AI视听平台SoundSpaces基础上,另一个数据集包含了29万个公开可用的英语对话视频(3到10秒片段)。据悉,SoundSpaces是Meta在2020年开源的AI平台,其特点是建立在虚拟仿真平台AI Habitat之上,可模拟高保真、逼真的声源,并插入到Replica、Matterport3D等开源的真实场景扫描环境中。

这两个数据集主要包含了室内场景中的对话,目的是为了探索未来AI语音和视觉助手在室内的应用场景。细节方案,数据集中的视频拍摄也有要求,麦克风和摄像头在同一个位置,并且远离声源。

为了训练AI模型识别声音和场景不匹配,Meta科研人员还制作了一系列音画不匹配的随机合成视频,并加入噪声。

利用这些数据,科研人员验证了视听匹配模型的效果,结果发现该模型可成功将对话与目标图像场景融合,效果比传统的纯音频声学匹配方案更好。

二,Visually-Informed Dereverberation(基于视觉信息的抗混响模型)

和上一个模型相反,Visually-Informed Dereverberation(VIDA)专注于消除混响,比如去除声音在洞穴中传播产生的回声。该模型根据视听提示,来优化、筛选音频中的混响。在热闹的火车站场景中,该模型可以提取小提琴演奏的声音,并去除小提琴声与火车站场景交互而产生的回响,好处是可以让小提琴声音听起来更纯粹。

在AR场景重现时,更沉浸、纯粹的声音可以让第一人称观看体验更加保真。

我们知道,回声指的是声源发出声波并到达场景中各表面后反射的现象。将回声、环境音、原声等声音混合并依次进入人耳的过程,则被视为混响。混响、回声通常会降低音频质量,降低人耳感知和分辨声音的能力。比如当你在大课堂给老师录音时,通常也会将同学产生的噪音收录进去。这种混响也会影响语音识别的准确性。

去除混响后,便可以增强声音的重点,帮助自然语言模型更好的识别对话,并生成更准确的字幕。

此前,人们通常直接处理音频来消除混响,但这并没有考虑到环境的完整声学特性。为了提升消混响的效果、更自然增强音频,Meta科研人员提出了搭配视觉分析的方案:VIDA,也就是说利用视觉数据来辅助混响消除。

VIDA模型基于视听数据来训练,可通过识别空间结构、材质和扬声器等线索,来消除混响。

三,VisualVoice(利用视听提示将对话和背景音区分)

VisualVoice模型利用视听提示,来区分对话和背景音,其好处是可以帮助人和AI更好的听清对话,从而提升多人VR社交的沟通效率、实时字幕效果等等。

Meta设想了一个未来场景,即人们通过AR眼镜以第一人称视角,重温沉浸的全息回忆,并获得保真的视觉和声音体验。或是在VR游戏中,空间音频可进一步增强沉浸感。

这个模型同时通过视听数据来分析对话,Meta认为,这项技术是改善人机感知的重要因素。

Meta指出,在复杂环境中,人类可以比AI更好的理解对话,这是因为人不止会用耳朵听,也会用眼睛辅助。举个例子,当你周围有人说话时,你可以用耳朵听到他的声音和声音来源,同时也可以用眼睛来定位这个说话人的具体位置。

因此,Meta AI决定开发一个同时模拟视觉和听觉感知的多模式对话模型,帮助AI更好的分析视觉和语音之间的细微关联。即使使用未标记的视频,也能训练VisualVoice模型提取对话中的视听信息。

未来应用场景

Meta表示:利用这些智能的AI语音分割模型,未来虚拟助手可以随时随地听到你的指令,不管是在音乐会、热闹的聚会还是其他环境音量大的场景。

接下来,若想要为AR/VR构建更加沉浸的体验,将需要这种多模式的AI模型,才能模拟人类感知的方式,通过音频、视频、文本等信号来更好的理解周围环境。

为了继续优化AViTAR、VITA等模型,Meta未来将使用视频来训练AI捕捉空间声学特性。参考:fb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/374930.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ERD Online 4.0.9 在线数据库建模、元数据管理平台(免费、私有部署)

ERD Online 是全球第一个开源、免费在线数据建模、元数据管理平台。提供简单易用的元数据设计、关系图设计、SQL查询等功能,辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能、方便我们快速、安全的管理数据库中的元数据。 4.0.9 ❝ feat(erd): 主键生…

Opencv项目实战:21 美国ASL手势识别

0、项目介绍 首先,我可以保证在这里,你并不需要多么了解深的机器学习算法,我的初衷是通过本项目,激发大家学习机器学习的动力。选择这种手势原因是因为只有24个字母,你的电脑足以带的动,虽然我只训练A、B、…

group by聚合分组后如何获取分组数据

之前用group by分组后一直困惑怎么把分组后的数据拿到,因为分组后同一组的只有一条数据,最后发现了group_concat函数。记录一下,以后能用。语法:group_concat( [distinct] 要连接的字段 [order by 排序字段 asc/desc ] [separator…

【MySQL - InnoDB 存储结构】行格式详解

我们平时对 MySQL 的了解都只是限制在使用层面上,但是难道你就没有一个时刻好奇 MySQL 的内部结构嘛,我们通过 SQL 语句插入的一条条记录在 MySQL 底层到底是以什么格式存储的呢 ? 本文就将以 InnoDB 存储引擎为例子,介绍 MySQL 存…

专科top4|临床医生CSC公派博士后美国凯斯西储大学医院赴职

Q医生符合CSC公派博士后申报条件,我们先为其取得Hopkins的邀请函并获CSC批准,后因导师失联,为保险起见,我们又继续申请并获得凯斯西储大学医学院彩虹宝宝和儿童医院的邀请函,该院连续20年被评为全美最好儿童医院&#…

【vulhub漏洞复现】CVE-2015-5254 ActiveMQ反序列化漏洞

一、漏洞详情Apache ActiveMQ是美国阿帕奇(Apache)软件基金会所研发的一套开源的消息中间件,它支持Java消息服务,集群,Spring Framework等。配置Apache ActiveMQ需要提前有jdk的环境。基于MQTT,消息订阅和分…

Javascript的API基本内容(三)

一、事件流 假设页面里有个div,当触发事件时,会经历两个阶段,分别是捕获阶段、冒泡阶段简单来说:捕获阶段是 从父到子 冒泡阶段是从子到父实际工作都是使用事件冒泡为主 二、页面加载事件 加载外部资源(如图片、外联CS…

Portraiture4免费磨皮插件支持PS/LR

Portraiture 4免去了繁琐的手工劳动,选择性的屏蔽和由像素的平滑,以帮助您实现卓越的肖像润色。智能平滑,并删除不完善之处,同时保持皮肤的纹理和其他重要肖像的细节,如头发,眉毛,睫毛等。 一键…

Python Flask + Echarts 轻松制作动态酷炫大屏( 附代码)

目录一、确定需求方案二、整体架构设计三、编码实现 (关键代码)四、完整代码五、运行效果1.动态实时更新数据效果图 说明: 其中 今日抓拍,抓拍总数,预警信息统计,监控点位统计图表 做了动态实时更新处理。 ​ 2.静态…

Java岗面试题--Java并发(volatile 专题)

目录1. 面试题一:谈谈 volatile 的使用及其原理补充:内存屏障volatile 的原理2. 面试题二:volatile 为什么不能保证原子性3. 面试题三:volatile 的内存语义4. 面试题四:volatile 的实现机制5. 面试题五:vol…

用c语言模拟实现常用字符串函数

目录 一.常用字符串函数介绍 1.strlen 2. strcpy 3.strcmp 4.strcat 5.strstr 二.模拟实现常用字符串函数 1.strlen 2.strcpy 3.strcmp 4.strcat 5.strstr 一.常用字符串函数介绍 1.strlen 字符串strlen是用来求字符串长度的,我们可以打开cpp网站查看有关…

浅谈模型评估选择及重要性

作者:王同学 来源:投稿 编辑:学姐 模型评估作为机器学习领域一项不可分割的部分,却常常被大家忽略,其实在机器学习领域中重要的不仅仅是模型结构和参数量,对模型的评估也是至关重要的,只有选择那…

vector迭代器失效与深浅拷贝问题

目录 1、vector迭代器失效问题 1.1、insert迭代器失效 扩容导致野指针 意义变了 官方库windows下VS和linux下对insert迭代器失效的处理 1.2、erase迭代器失效 官方库windows下VS和linux下对erase迭代器失效的处理 1.3、迭代器失效总结 2、深浅拷贝问题 1、vector迭…

GeoServer发布数据进阶

GeoServer发布数据进阶 GeoServer介绍 GeoServer是用于共享地理空间数据的开源服务器。 它专为交互操作性而设计,使用开放标准发布来自任何主要空间数据源的数据。 GeoServer实现了行业标准的 OGC 协议,例如网络要素服务 (WFS)…

Java【优先级队列】模拟实现 + 【PriorityQueue】介绍

文章目录一、什么是优先级队列二、模拟实现1, 实现堆的基本操作1.1, 创建堆1.2.1, 向下调整1.2, 堆的插入1.2.1, 向上调整1.2, 堆的删除2, 实现优先级队列2.1, offer -- 插入数据2.1, poll -- 删除数据三、Java提供的PriorityQueue1, PriorityQueue说明2, 使用PriorityQueue2.1…

【Linux】安装Tomcat教程

目录 1.上传安装包 2.解压安装包 3.启动Tomcat 4.查看启动日志 5.查看进程 6.开放端口 7.停止Tomcat 1.上传安装包 使用FinalShell自带的上传工具将Tomcat的二进制发布包上传到Linux(与前面上传JDK安装包步骤 一致)。 2.解压安装包 将上传上来的安装包解压到指定目录…

2023年想跳槽,什么类型的人才需求最多?

某招聘网站资深HR对此表示:纵观当前招聘市场,无论是比较火爆的互联网行业还是传统行业,技能型人才都是最受欢迎的人才之一;那些拥有职场一技之能的跳槽者往往跳的结果更好,包括薪酬水平和发展空间、重视程度等。 那选择…

一个更适合Java初学者的轻量级开发工具:BlueJ

Java是世界上最流行的编程语言之一,它被广泛用于从Web开发到移动应用的各种应用程序。大部分Java工程师主要是用IDEA、Eclipse为主,这两个开发工具由于有强大的能力,所以复杂度上就更高一些。如果您刚刚开始使用Java,或者您更适合…

如何简化跨网络安全域的文件发送流程,大幅降低IT人员工作量?

为什么要做安全域的隔离? 随着企业数字化转型的逐步深入,企业投入了大量资源进行信息系统建设,信息化程度日益提升。在这一过程中,企业也越来越重视核心数据资产的保护,数据资产的安全防护成为企业面临的重大挑战。 …

自动化测试学习步骤及路线(超详细)

随着测试行业的不断发展,目前企业对测试人员要求越来越高,仅仅响应需求的功能测试人员基本饱和或是留给了校招生。而对于社招渠道的应聘者,企业越来越多地要求有一定的自动化或是代码经验,能解决工作过程中遇到的问题,…