Cadenza 项目:机器学习如何改善听力受损人士的音乐聆听体验

news2024/9/20 15:16:07

       音乐,作为全人类共享的文化瑰宝,具有强大的凝聚力,它不仅塑造了我们的社会风貌,更为我们的身心健康带来诸多益处。然而,听力损失却无情地削弱了这份美妙的体验。据世界卫生组织预测,到2050年,全球将有高达25亿人口面临不同程度的听力损失,其中至少7亿人急需治疗。听力受损使得人们在聆听音乐时遭遇重重障碍,如细微之处难以捕捉、音高感知失准,以及歌词与乐器辨识困难等问题。

      鉴于此,研发更为先进的音乐处理技术,以优化助听器和消费级设备的音质表现,对于保障听力受损人群的音乐享受与福祉显得尤为重要。对于轻度至中度听力损失的患者而言,助听器是最常见的解决方案。尽管许多助听器配备了音乐模式,但实际效果却参差不齐,高达68%的用户反映在使用助听器聆听音乐时感到困扰。这一问题的复杂性在于,助听器需根据个体听力阈值进行频率依赖性的非线性放大,同时还需应对低强度声音的快速响度增长(即响度招募)以及避免过大声音带来的不适。为实现这一目标,宽动态范围压缩系统(WDRC)被广泛应用,旨在确保声音既清晰又舒适。然而,WDRC在调整信号时序包络的过程中,其变化程度受动态响应速度影响,可能引入“泵感”等动态伪影。此外,助听器还具备语音增强、反馈抑制、风噪降低及场景分析等多种功能。然而,这些功能主要针对语音进行优化,其频率依赖性增益和压缩器响应速度等设置可能并不适用于具有独特频谱和时序特征的音乐。

     在本文中,我们描述了Cadenza项目:挑战方法首次应用于改善听力损失者音乐音质的问题。报告了两个挑战,主要区别在于第一个挑战(CAD1)是用于通过耳机收听,而第二个挑战(ICASSP24),是用于通过扬声器收听。任务目标是对立体声音乐信号进行分解,然后进行重混,因为这样的系统可以帮助解决已知的音乐收听和听力损失问题

1 方法

两个场景均围绕听音乐构建:(a) 通过耳机听音乐,且不使用助听器;(b) 通过立体声扬声器使用助听器听音乐—见图。对于CAD1,需要处理的信号是输送到耳机的左右信号。对于ICASSP24,左右信号来自助听器麦克风在每只耳朵处的信号。这意味着对于ICASSP24,需要处理的音乐是左右扬声器信号的混合。扬声器到助听器麦克风的声音传播是使用头相关传递函数(HRTFs)建模的。左右信号在耳朵处的组合取决于声波在肩膀、头部、耳朵和助听器周围的衍射、反射和干涉。在某些频率和方位角上,它们可能会相加,在其他情况下可能会相减。因此,与原始立体声轨道相比,耳朵处左右VDBO(声乐、鼓、低音和其他乐器)组件的强度是不同的,为ICASSP24系统与CAD1和先前的分解挑战相比带来了额外的复杂性。

1.1 数据

1.1.1 音乐数据

  • MUSDB18-HQ 数据集: 包含流行/摇滚音乐的 VDBO 声部以及立体声混音,用于训练和验证分离算法。
  • MoisesDB 数据集: 从中随机选取了 50 首歌曲作为独立的验证集,用于评估算法的泛化能力。

1.1.2 听者数据

  • Clarity 项目数据: 包含 83 份听力图数据,用于训练和验证分离算法。根据我们更好的耳朵听力损失分类,没有无损害的人,17人轻度,44人中度,22人中重度,没有严重损害。
  • von Gablenz 等人数据: 包含 50 份听力图数据,用于验证分离算法。根据分类,没有无损害的人,24人轻度,22人中度,4人中重度,0人严重。
  • Cadenza 听音小组数据: 包含 53 份听力图数据,用于评估分离和重混后的音乐质量。根据分类,有3名听众无损害,13名轻度,17名中度,19名中重度,1名严重。

1.2 方法

1.2.1 分离算法

  • Hybrid Demucs: 基于深度学习的声源分离算法,结合时间域和频谱域信息进行分离。
  • Open-Unmix: 基于深度学习的声源分离算法,仅使用频谱域信息进行分离。
  • 其他算法: 部分参赛者使用了其他声源分离算法,例如 Spleeter 和 HT-Demucs。

1.2.2 音乐增强

  • NAL-R 算法: 基于听力图的频率依赖性放大算法,用于补偿听力阈值升高的影响。
  • 其他算法: 部分参赛者使用了其他音乐增强算法,例如多带压缩器和线性滤波器。

1.2.3 重混算法

  • 简单重混: 将分离后的 VDBO 声部直接混合成立体声信号。
  • 调整音量: 调整 VDBO 声部的音量,以突出特定声部或满足用户的个性化需求。
  • 均衡调整: 通过调整 VDBO 声部的均衡,改变音乐的频谱特性。
  • Mid-Side 重混: 通过调整 Mid 和 Side 信号的均衡,改变音乐的立体声效果。

1.2.4 评估方法

  • HAAQI (Hearing-Aid Audio Quality Index): 用于评估分离和重混后的音乐质量,考虑了听力损失和助听器的影响。
  • 主观评估: 通过听音小组对音乐进行主观评估,例如音质、清晰度、自然度等。

1.2.5 数据分析

  • CAD1 挑战: 由于基线算法的性能已经很高,参赛者难以取得突破性进展。
  • ICASSP24 挑战: 通过增加扬声器重放场景和音量调整步骤,提高了挑战难度,并促使参赛者探索更复杂的算法和方法。
  • 因果系统: 目前只有少数参赛者使用了因果系统,未来需要更多研究来探索低延迟的因果算法。

1.3 挑战赛基线架构

  • 输入立体声信号:系统接收的原始立体声音乐信号,作为源分离过程的输入。
  • 源分离(Source Separation):使用如Hybrid Demucs或Open-Unmix等算法将立体声音乐分解成不同的乐器和人声组件,如声乐、鼓、低音和其他乐器(VDBO)。
  • 增益应用(Gain Application):在重混之前,根据听力受损者的听力图谱,对分离出的各个组件(VDBO)应用特定的增益,以补偿听力损失。
  • 重混(Remixing):将经过增益调整的VDBO组件重新混合成新的立体声信号。
  • 频率依赖性放大(Frequency-Dependent Amplification):使用NAL-R或其他方法对重混后的信号进行频率依赖性放大,以进一步优化听力受损者的听觉体验。
  • 输出立体声信号:经过处理和优化的最终立体声音乐信号,可供听力受损者通过助听器或耳机聆听。

2 结论

2.1 CAD1 挑战赛

参赛系统数量: 7 个参赛系统,2 个基线系统,1 个不做任何处理的系统。

2.1.1 主要方法

  • 大多数系统使用 HDemucs 或 OpenUnmix 进行源分离。
  • 一些系统尝试了不同的重混音策略,例如改变 VDBO 信号的平衡或应用中-侧均衡。
  • 一些系统尝试了不同的放大策略,例如多带压缩或线性滤波器。

2.1.2 结果

  • 没有系统在 HAAQI 指标上超过最佳基线系统。
  • HAAQI 分数与听力损失程度呈负相关,即听力损失越严重,分数越低。
  • HDemucs 基线系统在重混音任务上表现最佳。

2.2 ICASSP24 挑战赛

参赛系统数量: 17 个参赛系统,来自 11 个团队。

2.2.1 主要方法

  • 大多数系统使用 HDemucs 或 OpenUnmix 进行源分离,并进行了一些改进。
  • 一些系统采用了集成学习方法,结合多个分离算法的输出。
  • 一些系统尝试了不同的重混音策略,例如添加原始立体声信号的一部分或应用中-侧均衡。
  • 只有一个系统尝试改进放大阶段,但由于与 HAAQI 评估中使用的 NAL-R 放大方法不一致,导致分数下降。

2.2.2 结果

  • 9 个系统在 HAAQI 指标上超过了最佳基线系统。
  • HAAQI 分数与听力损失程度呈负相关,即听力损失越严重,分数越低。
  • 使用集成学习方法的系统表现最佳。
  • 重混音前后 VDBO 信号增益差异越大,HAAQI 分数越低。

2.3 结论

D1 挑战赛表明,使用现有的源分离算法很难在 HAAQI 指标上取得突破。 ICASSP24 挑战赛通过引入扬声器重放和增益设置,使得任务更具挑战性,并鼓励了更多的创新。

两次挑战赛都表明,听力损失程度对音乐处理算法的性能有显著影响。

2.4 未来研究方向

鼓励开发低延迟、因果的信号处理算法,使其适用于助听器和现场音乐。

开发更适用于机器学习的音频质量指标,例如基于聆听测试的非侵入式指标。

扩展音乐数据集,包括更多类型的音乐,例如古典音乐。

将挑战赛任务扩展到其他领域,例如歌词清晰度。

期待下一次比赛CAD2!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2125198.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大模型技术场景与商业应用(2024):赋能千行百业产业链升级

大模型技术场景与商业应用(2024):赋能千行百业产业链升级 引言 随着人工智能技术的飞速发展,大模型(Large Language Models, LLMs)已成为推动各行业数字化转型的关键驱动力。从2023年的ChatGPT大模型爆火至…

低代码平台与统一待办:提升工作效率的新趋势

什么是低代码平台? 低代码平台是一种允许用户通过图形化界面和简单的拖放操作创建应用程序的开发工具。它极大地简化了应用程序的开发过程,使得非技术背景的用户也能够参与到应用开发中来。低代码平台通常包括预建的组件、模板和集成功能,大…

【论文阅读】视觉分割新SOTA: Segment Anything(SAM)

导言 随着基于对比文本—图像对的预训练(CLIP)方法或者模型、聊天生成预训练转换器(ChatGPT)、生成预训练转换器-4(GPT-4)等基础大模型的出现,通用人工智能( AGI)的研究…

web项目如何部署到服务器上呢?——麻烦的方法

只需关注web项目如何部署到服务器上,因为服务器运行时就可以访问web项目了。 一、麻烦的方法 1、首先启动服务器 (1)找到bin文件夹 (2)双击运行startup.bat文件 (3)运行之后的界面如下&#…

MongoDB日志级别

日志 查看当前的日志级别 根据你提供的 MongoDB 命令结果,命令 db.adminCommand({ getParameter: "logComponentVerbosity" }) 返回了 "ok" : 0,这意味着命令执行失败,没有成功获取到日志级别的配置信息。错误信息 &quo…

simulink基础-代码生成

模型相关设置 求解器设置 求解器选择设置为:定步长 离散 求解器详细设置为:0.01 (task1s,需要计数器100次) 保证仿真结果,在代码中无体现 代码生成设置 系统目标文件 grt.tlc 用于HIL或RCP 无法进行精确的调度要求 嵌入式选择…

深入理解TCP三次握手

在网络通信中,TCP(Transmission Control Protocol,传输控制协议)是一个可靠的、面向连接的协议,它保证了数据包的顺序和完整性。为了建立一个稳定的连接,TCP 使用了一个被称为 三次握手(Three-W…

[项目实战]EOS多节点部署

文章总览:YuanDaiMa2048博客文章总览 EOS多节点部署 (一)环境设计(二)节点配置(三)区块信息同步(四)启动节点并验证同步EOS单节点的环境如何配置 (一&#xf…

828华为云征文|华为云Flexus X搭建借贷管理系统、二次开发借贷小程序 前端源码uniapp

在华为云828 B2B企业节的盛宴中,Flexus X实例以其卓越的算力性能和灵活的资源配置脱颖而出。对于追求极致性能、渴望在借贷管理、电商交易等场景中脱颖而出的您来说,Flexus X无疑是最佳拍档。搭载创新加速引擎,让您的自建MySQL、Redis、Nginx…

MYTHOLOGICAL CREATURES PACK

这个包收集了5种神话生物:奇美拉、狮鹫、哈比、螳螂和狼人。型号注定是高端设备。支持PBR和LEGACY着色器。高分辨率4096*4096纹理,根运动动画以及到位。 下载:​​Unity资源商店链接资源下载链接 效果图:

C++里面的“百变怪”:模板

🌞0.前言 言C之言,聊C之识,以C会友,共向远方。各位博友的各位你们好啊,这里是持续分享C知识的小赵同学,今天要分享的C知识是模板 ,在这一章,小赵将会向大家聊聊C的模板知识 。✊ 相…

实时音视频之医疗手术示教技术方案探究

背景与重要性 医疗手术示教是现代医学教育中不可或缺的一环,它通过将手术室内医生的手术过程以及手术室内的各种医疗设备的视频资料真实呈现给实习医生或观摩人员,以达到教学或学术交流的目的。随着医疗技术的不断进步和医学教育的深入发展,…

各类软件在Linux上的安装

mysql安装 5.7版本 mysql的程序在centos官方的库中是没有的,需要切换到淘宝的镜像,这个前面有教程或者配置mysql的源 yum -y install rpm rpm --import https://repo.mysql.Com/RPM-GPG-KEY-mysqL-2022 rpm -Uvh http://repo.mysql.com//mysql57-commun…

自定义EPICS在LabVIEW中的测试

继续上一篇:LabVIEW中EPICS客户端/服务端的测试 变量定义 You can use CaLabSoftIOC.vi to create new EPICS variables and start them. CA Lab - LabVIEW (Realtime) EPICS INPUT: PV set Cluster-array of names, data types and field definitions to crea…

web前端-HTML常用标签(三)

一、表格标签 表格是实际开发中非常常用的标签: 1.表格的主要作用: 表格主要用于显示、展示数据,因为它可以让数据显示的非常的规整,可读性非常好。特别是后台展示数据的时候,能够熟练运用表格就显得很重要。一个清爽简约的表格…

多少岁转行网络安全不算晚?零基础想跳槽(转行)网络安全,看这篇就够了

🤟 基于入门网络安全/黑客打造的:👉黑客&网络安全入门&进阶学习资源包 奉劝所有零基础想入门(转行)网络安全的朋友,麻烦转行前,一定要对网络安全行业做一个大概了解,不要一点…

WriteUp - hackthebox-Labyrinth Linguist

题目靶场地址:https://ctf.hackthebox.com/ 先启动环境再下载项目文件: 项目文件压缩包解压密码:hackthebox 访问项目环境页面,是一个简单的web,输入什么就输出什么,直接看项目文件,是一个ja…

八叉树,分裂空间的魔法师【Unity】

八叉树,分裂空间的魔法师 前往我的博客阅读,享受免费无广告的体验 诞生 当我们要做物理碰撞检测的时候,例如一枚子弹射了出去,我们或许会选择遍历所有的物体,通过运算判断是否相交,是否发生碰撞,但这不理想,尤其是面对成千上万物体的时候,计算量极其恐怖。 同样的,…

在近一年内获得过新融资的中国独角兽企业

独角兽公司的概念源于 2013 年美国著名的 Cowboy venture 的投资人 Aileen Lee她将“成立时间较短、由投资人或者估值机构估值超过10 亿美元的未上市公司”定义为独角兽公司。独角兽也就是那些创业公司中的佼佼者。21 世纪至今,人类多个领域取得了显著的技术进步和突…

FreeRTOS(速记版)

第一章 初识 FreeRTOS 1.1 FreeRTOS简介 FreeRTOS 采用了 MIT 开源许可,这允许将 FreeRTOS 操作系统用于商业应用,并且不需要公开源代码。此外,FreeRTOS 还衍生出了另外两个操作系统:OpenRTOS 和 SafeRTOS,其中 OpenR…