AI在医学领域：谷歌的HeAR生物声学模型

news2026/2/11 9:42:01

声学非语义属性的语音可以使机器学习模型执行诸如情绪识别、说话者识别和痴呆检测等副语言任务。脑卒中、帕金森病、阿尔茨海默病、脑瘫和肌萎缩侧索硬化症（ALS）等脑血管和神经退行性疾病也可以使用非语义语音模式，如发音、共鸣和发声等来检测和监测。与健康相关的非语义声学信号不仅限于对话语音数据。来自呼吸系统气流的健康相关声学线索，包括咳嗽声和呼吸模式等声音，可以用于健康监测。例如，临床医生使用类似“百日咳”的咳嗽声来诊断百日咳，并使用临终呼吸来检测急性心血管事件。前期针对各类疾病已经介绍了不少方法，然而，这些方法在健康声学领域仍未被充分探索。

本文介绍谷歌研究团队开发的一种生物声学基础模型HeAR（Health Acoustic Representations），旨在通过分析人体的声音信号来检测疾病。在6个数据集上的13个健康声学事件检测任务、14个咳嗽推断任务和6个肺活量推断任务的多样化集合上对HeAR进行了基准测试，在许多任务上的表现超过了现有技术。

前期相关文章：

AI在医学领域：通过声纹特征来预测血糖水平
如何使用预训练的通用音频表示进行心脏杂音检测
PPINtonus （深度学习音调分析）帕金森病早期检测系统
人工智能 (AI) 应用：一个异常肺呼吸声辅助诊断系统
首次使用回声状态网络 (ESN) 和语音特征进行帕金森病 (PD) 预测

1 方法

HeAR 包含三个主要组成部分：数据整理步骤（包括健康声学事件检测器）、通用目的训练步骤以开发音频编码器（嵌入模型），以及采用训练好的嵌入模型进行各种下游任务的特定任务评估步骤。系统设计用于对两秒长的音频片段进行编码，并生成用于下游任务的音频嵌入。图1展示了系统的这些高级组成部分。健康声学事件检测器是一个多标签分类卷积神经网络（CNN），它能够识别两秒音频片段中存在的六种非语音健康声学事件：咳嗽、婴儿咳嗽、呼吸、清嗓、笑声和说话。

1.1 数据整理步骤

健康声学事件检测器：一个多标签分类卷积神经网络 (CNN)，用于识别 2 秒音频片段中是否存在六种非语音健康声学事件：咳嗽、婴儿咳嗽、呼吸、清嗓子、笑和说话。
数据集构建：利用健康声学事件检测器从 YouTube 视频中提取 2 秒长的音频片段，构建了一个名为 YT-NS 的数据集，包含约 3.13 亿个音频片段，总时长约为 174,000 小时。

1.2 通用训练步骤

掩码自动编码器 (MAE)：使用 MAE 框架学习音频表示，训练一个自动编码器来重建掩码的 16x16 频谱图片段。75% 的输入片段被掩码并编码，然后通过添加可学习的掩码标记和 8 层 Transformer 解码器重建缺失的片段。
训练细节：使用 AdamW 优化器训练 950,000 步 (∼4 个周期)，全局批量大小为 4096，学习率采用余弦衰减调度，起始值为 4.8e-4。

1.3 任务特定评估步骤

线性探测器：使用训练好的音频编码器对所有数据集中的音频进行编码，并训练单独的线性或逻辑回归模型来预测数据集上的标签。
评估任务：包括 13 个健康声学事件检测任务（呼吸、咳嗽、哭闹、清嗓子、笑声、说话声及子任务）、14 个咳嗽推理任务和 6 个肺功能测试推理任务（从呼气音频中推理出肺功能指标，强制呼气量（FEV1）、强制肺活量（FVC）、FEV1/FVC 比率、峰流速（PEF）、呼气持续时间（FET）、性别）。
评估指标：对于二分类任务，报告 AUROC 或平均精度 (AP)；对于回归任务，报告平均绝对误差。