AI在医学领域:谷歌的HeAR生物声学模型

news2024/9/23 15:21:34

       声学非语义属性的语音可以使机器学习模型执行诸如情绪识别、说话者识别和痴呆检测等副语言任务。脑卒中、帕金森病、阿尔茨海默病、脑瘫和肌萎缩侧索硬化症(ALS)等脑血管和神经退行性疾病也可以使用非语义语音模式,如发音、共鸣和发声等来检测和监测。与健康相关的非语义声学信号不仅限于对话语音数据。来自呼吸系统气流的健康相关声学线索,包括咳嗽声和呼吸模式等声音,可以用于健康监测。例如,临床医生使用类似“百日咳”的咳嗽声来诊断百日咳,并使用临终呼吸来检测急性心血管事件。前期针对各类疾病已经介绍了不少方法,然而,这些方法在健康声学领域仍未被充分探索。

       本文介绍谷歌研究团队开发的一种生物声学基础模型HeARHealth Acoustic Representations,旨在通过分析人体的声音信号来检测疾病。在6个数据集上的13个健康声学事件检测任务、14个咳嗽推断任务和6个肺活量推断任务的多样化集合上对HeAR进行了基准测试,在许多任务上的表现超过了现有技术

前期相关文章:

  • AI在医学领域:通过声纹特征来预测血糖水平
  • 如何使用预训练的通用音频表示进行心脏杂音检测
  • PPINtonus (深度学习音调分析)帕金森病早期检测系统
  • 人工智能 (AI) 应用:一个异常肺呼吸声辅助诊断系统
  • 首次使用回声状态网络 (ESN) 和语音特征进行帕金森病 (PD) 预测

1 方法

HeAR 包含三个主要组成部分:数据整理步骤(包括健康声学事件检测器)、通用目的训练步骤以开发音频编码器(嵌入模型),以及采用训练好的嵌入模型进行各种下游任务的特定任务评估步骤。系统设计用于对两秒长的音频片段进行编码,并生成用于下游任务的音频嵌入。图1展示了系统的这些高级组成部分。健康声学事件检测器是一个多标签分类卷积神经网络(CNN),它能够识别两秒音频片段中存在的六种非语音健康声学事件:咳嗽、婴儿咳嗽、呼吸、清嗓、笑声和说话。

1.1 数据整理步骤

  • 健康声学事件检测器: 一个多标签分类卷积神经网络 (CNN),用于识别 2 秒音频片段中是否存在六种非语音健康声学事件:咳嗽、婴儿咳嗽、呼吸、清嗓子、笑和说话。
  • 数据集构建: 利用健康声学事件检测器从 YouTube 视频中提取 2 秒长的音频片段,构建了一个名为 YT-NS 的数据集,包含约 3.13 亿个音频片段,总时长约为 174,000 小时。

1.2 通用训练步骤

  • 掩码自动编码器 (MAE): 使用 MAE 框架学习音频表示,训练一个自动编码器来重建掩码的 16x16 频谱图片段。75% 的输入片段被掩码并编码,然后通过添加可学习的掩码标记和 8 层 Transformer 解码器重建缺失的片段。
  • 训练细节: 使用 AdamW 优化器训练 950,000 步 (∼4 个周期),全局批量大小为 4096,学习率采用余弦衰减调度,起始值为 4.8e-4。

1.3 任务特定评估步骤

  • 线性探测器: 使用训练好的音频编码器对所有数据集中的音频进行编码,并训练单独的线性或逻辑回归模型来预测数据集上的标签。
  • 评估任务: 包括 13 个健康声学事件检测任务(呼吸、咳嗽、哭闹、清嗓子、笑声、说话声及子任务)、14 个咳嗽推理任务和 6 个肺功能测试推理任务(从呼气音频中推理出肺功能指标,强制呼气量(FEV1)、强制肺活量(FVC)、FEV1/FVC 比率、峰流速(PEF)、呼气持续时间(FET)、性别)
  • 评估指标: 对于二分类任务,报告 AUROC 或平均精度 (AP);对于回归任务,报告平均绝对误差。

1.4 基线模型

1.4.1 TRILL

  • 模型类型: 基于 ResNet50 的编码器。
  • 训练数据: AudioSet 数据集中带有语音标签的子集。
  • 训练目标: 优化三元组损失。
  • 特点: 针对非语义语音进行训练,但未针对健康声学进行优化。

1.4.2 FRILL

  • 模型类型: 基于 MobileNet 的编码器,是 TRILL 的蒸馏版本。
  • 训练数据: 与 TRILL 相同。
  • 训练目标: 与 TRILL 相同。
  • 特点: 专为移动设备设计,体积更小,速度更快,但性能略低于 TRILL。

1.4.3 BigSSL-CAP12

  • 模型类型: 基于 Conformer 的编码器。
  • 训练数据: YouTube 90,000 小时的语音数据和 LibriLight 数据集。
  • 训练目标: wav2vec 2.0 目标,类似于掩码语言模型。
  • 特点: 针对语音进行训练,性能优于 TRILL 和 FRILL,但未针对健康声学进行优化。

1.4.4 CLAP

  • 模型类型: 基于 CNN 的音频编码器。
  • 训练数据: 包括 FSD50K 在内的混合数据集。
  • 训练目标: 多模态对比学习。
  • 特点: 针对健康声学事件检测任务进行训练,性能在 FSD50K 数据集上表现最好。

2 结果

     HeAR 模型在多个健康声学任务中取得了优异的性能,并具有更高的数据效率和泛化能力,具有成为健康声学领域重要工具的潜力。

2.1 HeAR 在 33 个任务中取得了最佳性能

  • HeAR 在 17 个任务中排名第一,包括 3 个健康声学事件检测任务、10 个咳嗽推理任务和 5 个肺功能测试推理任务。
  • HeAR 的平均倒数排名 (MRR) 为 0.708,高于其他所有模型。

2.2 HeAR 在健康声学事件检测任务中表现良好

  • HeAR 在 FSD50K 和 FluSense 数据集上的表现仅次于 CLAP,但优于其他未使用 FSD50K 进行训练的模型。
  • 在 FSD50K 数据集上,HeAR 的性能随着序列长度的增加而显著下降,这可能是由于使用了固定的正弦位置编码。
  • 通过裁剪音频片段,HeAR 的性能得到显著提升。

2.3 HeAR 在咳嗽推理任务中表现出色

  • HeAR 在 10 个咳嗽推理任务中优于所有基线模型,包括人口统计、生活方式和 COVID 任务。
  • 在结核病和 CXR 任务中,HeAR 的性能与最佳模型相当。
  • HeAR 在不同录音设备上的性能保持稳定,而 TRILL 和 FRILL 的性能变化较大。

2.4 HeAR 在肺功能测试推理任务中表现良好

HeAR 在 SpiroSmart 数据集上的 4 个肺功能测试任务和性别分类任务中优于所有基线模型。

2.5  HeAR 具有更高的数据效率

HeAR 在使用更少训练数据的情况下,能够达到与其他模型相当甚至更好的性能。

2.6  HeAR 具有更好的泛化能力

HeAR 在未见过的录音设备上的性能保持稳定,而其他模型则表现出不稳定。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2074440.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

es 7.17.23安装ik插件启动失败,access denied,Permission

情况简述 windows平台,下载了7.17.23的es以及7.17.23的ik分词器的zip包之后( 下载地址(官方推荐的):Index of: analysis-ik/stable/ ),解压该ik的包到es的plugins下,目录结构&…

基于layui实现简单的计分板页面

使用Layui、HTML、CSS练手做了个简单的计分板页面(虽然HTML和CSS学的很烂,而且页面尺寸变化时对齐还有问题)。布局采用的Layui的栅格系统,同时使用Layui的按钮、弹出层模块设置样式及获取用户输入,同时调用jQuery相关功…

comfyUI使用flux模型报错got promptUsing pytorch attention in VAE,

使用的flux模型如下,应该下载的模型都已经下载好放在正确位置 但是执行之后报错如下 got prompt Using pytorch attention in VAE Using pytorch attention in VAE 然后comfyUI的命令行就强制退出了。 解决方法: 改虚拟内存为系统管理的大小即可

8月25日cs61c

小语 天主这样磨难你,试探你,终究是为了使你获得幸福。 1.啃黑书10页 14.23 1.本书着重展示硬件和软件的关系 2.学习时,除了掌握基本原理,还应了解该领域最新进展 3.为了使程序运行更快,必须将其并行化 4.量化&…

指针之旅(1)—— 指针基础概念知识(详细解析)

前言:该篇我将详细讲解指针当中的一些基本概念,有内存和地址的部分硬件知识,有专门服务于指针的操作符&和*,有指针大小固定不变的原因,还有专属于指针的运算规则。 目录 1. 内存和地址 1.1 内存地址的概念&…

力扣网页端无法进入(问题已解决)

力扣网页端无法进入(问题已解决) 这两天在刷leetcode的时候突然发现无法进入力扣主页,换了浏览器也不行,但其他网站都能正常进去,其它主机也可以。 可能是DNS解析错误 在实际应用过程中可能会遇到DNS解析错误的问题&am…

OpenCV Rect_< _Tp > 模版类详解及其成员函数用法示例

OpenCV Rect_< _Tp > 模版类是一个2维矩形模板类&#xff0c;其英文全称为Rect_< _Tp > Class Template Reference&#xff0c;其公有成员函数有以下几个&#xff1a; 其公有属性有&#xff1a; Rect_< _Tp > 模版类以左上角点tl&#xff0c;坐标_Tp x,Tp y及…

2023年高教社杯国赛b题详细代码 文章 教学 2024数模国赛教学: 多波束测深技术问题分析与建模

本系列专栏将包括两大块内容 第一块赛前真题和模型教学,包括至少8次真题实战教学,每期教学专栏的最底部会提供完整的资料百度网盘包括:真题、数据、可复现代码以及文章. 第二块包括赛中思路、代码、文章的参考助攻, 会提供2024年高教社国赛各个赛题的全套参考内容(一般36h内更新…

matlab与VS混合编程以及错误解决

目录 前言&#xff1a; 1. matlab打包生成dll文件 打包方法一&#xff1a; 打包方法二&#xff1a; 2. VS端配置 3. 代码测试 4. 错误解决 a. 1.0x0000000000000000 处有未经处理的异常(在 Project1.exe 中): 0xC0000005: 执行位置 0x0000000000000000 时发生访问冲突。…

Unity游戏开发——Unity脚本组件:游戏开发的灵魂

Unity游戏开发 “好读书&#xff0c;不求甚解&#xff1b;每有会意&#xff0c;便欣然忘食。” 本文目录&#xff1a; Unity游戏开发 Unity游戏开发Unity脚本组件&#xff1a;游戏开发的灵魂前言1.Standard Assets导入报错解决办法2. 什么是Unity脚本组件&#xff1f;3. 创建和…

vue 精选评论词云 集成echarts-wordcloud TF-IDF算法

这一期在我们的系统里集成词云组件&#xff0c;开发的功能是景区精选评论的词云展示功能。 这个界面的逻辑是这样的&#xff1a; 在数据框里输入城市&#xff0c;可以是模糊搜索的&#xff0c;选择城市&#xff1b; 选择城市后&#xff0c;发往后台去查询该城市的精选评论&a…

python,json数据格式,pyecharts模块,pycharm中安装pyecharts

json数据格式 JSON是一种轻量级的数据交互格式 可以按照JSON指定的格式去组织和封装数据 JSON本质上是一个带有特定格式的字符串 主要功能&#xff1a; json就是一种在各个编程语言中流通的数据格式&#xff0c;负责不同编程语言中的数据传递和交互. 类似于&#xff1a; 国…

P39-数据存储2

编程题 编程题 编程题

2024 年顶级 Flutter UI 框架和库

根据 2022 年 StackOverflow 调查显示&#xff0c;Flutter 是最受欢迎的跨平台工具之一。自发布以来的 16 个月内&#xff0c;已有超过 200 万开发者采用了 Flutter。在本博客中&#xff0c;我们将浏览 GitHub 上可用的顶级 Flutter 存储库。除了每个存储库之外&#xff0c;还提…

MySQL 系统学习系列 - 事务、视图与存储过程的使用《MySQL系列篇-06》

数据库事务、视图、存储过程 事务 1. 事务简介 事务&#xff08;transaction&#xff09;是指访问并更新数据库中各种数据的一个程序执行单元&#xff08;unit&#xff09; [最小执行单元] MySQL事务主要用于处理操作量大。复杂度高的数据 1.MySQL数据库只有InnoDB引擎支持事…

App应用冷启动耗时排查

1 查看冷启动耗时 adb shell am start -S -W com.gerry.lifecycle/com.gerry.lifecycle.MainActivity发现冷启动耗时居然要6s多&#xff0c;下面开始排查 2 生成trace文件 // Application中开始trace记录 override fun attachBaseContext(base: Context?) {super.attachBas…

虚幻5|简单的设置角色受到伤害,远程攻击机关设置,制作UI,低血量UI

虚幻5|制作玩家血量&#xff0c;体力&#xff08;还未编辑&#xff0c;只用于引用&#xff09;-CSDN博客 需完成制作玩家血量及体力部分 一.给角色添加死亡动画 1.为了保证角色在播放死亡蒙太奇的时候&#xff0c;不会重新播放&#xff0c;而是保持原来倒地的姿势&#xff0…

Renesa Version Board开发RT-Thread 之WIFI创建Client

概述 本文主要介绍使用Renesa Version Board中WIFI功能&#xff0c;该模块基于RW007模块设计&#xff0c;RT-Thread软件架构已经实现该硬件相关的驱动接口。笔者基于该模块的相关接口在LWIP软件框架的基础上实现Client功能。实现数据的发送和接收。 1 WLAN 框架简介 参考文档…

【Java】—— Java面向对象基础:使用Java创建和打印员工对象信息

在Java中&#xff0c;类的定义和使用是面向对象编程的核心。本文将通过一个简单的例子来展示如何定义一个员工类&#xff08;Employee&#xff09;&#xff0c;并在测试类中创建员工对象&#xff0c;为这些对象的属性赋值&#xff0c;并打印出它们的信息。 定义员工类&#xff…

大模型微调

文章目录 前言一、使用的库二、数据预处理1.引入库2.读入数据3.对数据进行预处理4.转换为json格式文件 三&#xff0c;使用算子分析数据并进行数据处理四&#xff0c;划分训练集和测试集五&#xff0c;编写训练脚本开始训练六&#xff0c;进行模型推理人工评估总结 前言 这是使…