情感推理在医疗领域的应用

news2025/1/13 15:34:14

关键词:情感推理、情感分类、多模态大模型、语音识别、思维链     

     医疗领域中人工智能(AI)的决策透明度至关重要,因为错误可能带来严重后果。这种透明度有助于建立AI与用户之间的信任。情感分析是自然语言处理(NLP)、机器学习和自动语音识别(ASR)交叉领域的一个重要分支,它专注于自动检测和解释通过语音传达的人类情感和态度。在医疗客户服务中,情感分析有助于实时评估客户满意度,增强富有同情心和响应性的互动。此外,情感分析还有助于监测患者的情绪福祉,包括那些有心理健康问题(如自杀倾向)的患者。

   尽管情感分析在医疗领域具有潜力,但它面临几个技术挑战:

  • 语音信号本质上是嘈杂的,并且由于口音、说话风格和录音条件的差异而表现出显著的变异性,这使得提取可靠的声学特征变得复杂。
  • 情绪是主观的、复杂的,并且是多维的,即使对人类来说,准确分类也很困难,因此需要可解释的人工智能(AI)。
  • 鉴于医疗决策的关键性质,AI决策过程中的透明度是必不可少的,以建立机器、医疗专业人员和患者之间的信任。

       为了应对这些挑战,本文引入了一个新的多模态框架,用于一个新的任务:情感推理。在AI中引入推理能力对于情感分析至关重要,因为它能够使AI在更广泛的语境中理解情绪,考虑到细微的表达,处理模糊的语言,并推断可能未明确表述的潜在意图或情感。

1 多模态多任务框架

1.1 框架组成

1.1.1 ASR 模型

     将语音信号转换为文本。该框架采用混合 ASR 系统,结合了 wav2vec 2.0 编码器和 n-gram 语言模型,在 VietMed 测试集上实现了 29.6% 的词错误率。

1.1.2 语言模型

  • 编码器: 用于情感分类,将 ASR 转写文本作为输入,输出情感标签。该框架使用了 phoBERT 和 ViHealthBERT 两种编码器,ViHealthBERT 在医疗领域表现更优。
  • 生成模型: 用于情感推理,将 ASR 转写文本作为输入,输出情感推理的依据(rationale)。该框架使用了 BARTpho、ViT5 和大型语言模型(LLM)等生成模型。

1.1.3 多任务学习

将情感分类和情感推理任务进行联合训练,以提高模型性能。通过调整超参数α平衡两个任务的权重。

1.2 框架流程

  • 语音信号输入: 将语音信号输入 ASR 模型进行转录。
  • 文本情感分类: 将 ASR 转写文本输入编码器进行情感分类,得到情感标签。
  • 文本情感推理: 将 ASR 转写文本输入生成模型进行情感推理,得到情感推理的依据。
  • 多任务学习: 联合训练情感分类和情感推理任务,提高模型性能。

1.3 框架优势

  • 多模态融合: 结合了语音和文本两种模态的信息,能够更全面地理解情感。
  • 情感推理能力: 能够生成情感推理的依据,解释模型的决策过程,提高模型的透明度和可解释性。
  • 可扩展性: 可以应用于不同的情感分类任务和推理任务。

1.4 框架局限

  • 混合 ASR 系统的复杂性: 混合 ASR 系统需要多个步骤,增加了模型复现的难度。
  • 级联方法: 使用级联方法进行语音情感推理,ASR 模型的权重保持不变,可能限制了模型性能的提升。

2 实验

2.1 数据集

2.1.1 数据收集

VietMed 数据集是迄今为止世界上最大的、最具泛化能力的、公开可用的医疗 ASR 数据集。它包含了真实世界中的医患对话,涵盖了所有可用的 ICD-10 代码,内容涉及诊断、解释医疗问题和提供治疗建议等。

 在 VietMed 数据集的基础上,研究人员对其进行了情感标签和依据的标注。情感标签包括负面、中性、正面三种,而依据则解释了为什么该文本被归类为特定的情感标签。

2.1.2 数据统计

  • 样本数量: 数据集包含 7878 个带有情感标签和依据的样本。
  • 情感标签分布: 数据集对中性内容略有侧重,这与医疗对话中详细解释和建议的特点相符。

2.1.3 数据标注流程

  • 初步标注: 使用 GPT-4 模型进行弱监督的 3 标签分类任务,为每个文本片段标注情感标签和依据。
  • 人工审核: 由 3 名开发人员对 GPT-4 生成的内容进行审核和修改。
  • 讨论和合并: 由 3 名标注人员和 2 名审核人员(1 名专业语言学家和 1 名具有医学背景的人员)进行讨论,并根据共识选择最终的情感标签和依据。

2.1.4 数据标注指南

  • 负面标签: 用于描述负面疾病、症状、风险、负面情绪或反正面陈述的文本片段。
  • 中性标签: 用于描述过程、提问、提供建议或过短的文本片段。
  • 正面标签: 用于描述积极结果、恢复过程、积极情绪或反负面陈述的文本片段。

2.1.5 数据质量控制

  • 标注者一致性: 由于情感标注的主观性,标注者之间的一致性较低。为了解决这个问题,研究人员采用了讨论和合并的方法,而不是多数投票。
  • 数据代表性: 数据集包含了真实世界中的医患对话,能够反映医疗场景下的情感表达特点。

2.1.6 数据应用

  • 情感分类: 用于识别语音或文本中的情感倾向。
  • 情感推理: 用于解释模型的决策过程,提高模型的透明度和可解释性。

2.2 实验设置

2.2.1 ASR 模型

实验中采用了wav2vec 2.0编码器进行混合ASR设置,用于将语音转录为文本。

  • 首先,使用高斯混合-隐马尔可夫模型(GMM/HMM)生成对齐,作为wav2vec 2.0神经网络训练的标签。
  • 在GMM/HMM过程中,使用分类回归树(CART)来绑定状态,生成了4501个CART标签。
  • 通过帧间交叉熵(frame-wise cross-entropy, fCE)损失来训练声学模型。
  • 为了根据声学观测转录语音,需要将声学模型和n-gram语言模型结合,使用Viterbi算法计算最佳路径。

最终的ASR模型有1.18亿个可训练参数,在VietMed测试集上的词错误率(Word-Error-Rate, WER)为29.6%。

2.2.2 语言模型

  • 编码器: 该框架使用了 phoBERT 和 ViHealthBERT 两种编码器,ViHealthBERT 在医疗领域表现更优。
  • 生成模型: 该框架使用了 BARTpho、ViT5 和大型语言模型(LLM)等生成模型,并对其进行了微调,以适应情感推理任务。

2.2.3 训练方法

  • 基于标签的训练: 将情感标签作为训练目标,训练语言模型进行情感分类。
  • 基于依据的训练: 将情感标签和依据作为训练目标,训练语言模型进行情感推理。
  • CoT 训练: 使用 CoT(Chain-of-Thought)方法训练语言模型,使其能够生成更详细的推理依据。

2.2.4 实验设置细节

  • 训练设备: 使用 2 个 NVIDIA A40 GPU 进行训练。
  • 训练参数: 编码器和编码器-解码器模型训练 30 个 epoch,LLM 模型训练 5 个 epoch。

2.2.5 评估指标

  • 对于情感分类任务,使用准确率和F1分数作为评估指标。
  • 对于情感推理,使用ROUGE分数和BERTScore来评估生成文本的质量。

2.3  实验结果

  • 编码器模型在情感分类任务中表现最佳: 与编码器-解码器模型和生成模型相比,编码器模型在准确率和 F1 值方面表现更优,且参数效率更高。这表明编码器模型更适合处理情感分类任务,并能有效地捕捉文本中的情感特征。
  • 基于依据的训练可以提高模型性能: 与仅使用标签的训练相比,基于依据的训练可以显著提高模型在情感分类任务中的准确率和 F1 值。这表明推理依据可以帮助模型更好地理解情感,并提高分类的准确性。
  • CoT 训练可以生成更详细的推理依据: 与基于标签的训练相比,CoT 训练可以使模型生成更详细的推理依据,但不同格式的依据对模型性能的影响并不显著。这表明 CoT 训练可以有效地提高模型的推理能力,但依据的格式对性能的影响不大。
  • 模型容易将正面和负面文本片段误分类为中性: 由于数据集中中性内容较多,模型容易将正面和负面文本片段误分类为中性。这表明情感分析任务存在一定的模糊性,需要进一步研究和改进。
  • 生成的推理依据与人类依据语义相似: 尽管生成的推理依据与人类依据在词汇上有所不同,但其语义仍然相似。这表明模型能够有效地学习人类的推理方式,并生成具有可解释性的推理依据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1968503.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【通俗理解】马尔科夫毯:信息屏障与状态独立性的守护者

【通俗理解】马尔科夫毯:信息屏障与状态独立性的守护者 马尔科夫毯的通俗比喻 你可以把马尔科夫毯想象成一个“信息屏障”,它隔绝了系统内部与外部的信息交流。在这个屏障之内,系统的状态是独立的,不受外界影响。 马尔科夫毯的核心…

【Kylin使用心得的介绍】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! 👻Kylin 👻Kylin是一款Linux发行版,由中国国内的开发者团队…

Web开发:小结Apache Echarts官网上常用的配置项(前端可视化图表)

目录 一、须知 二、Title 三、 Legend 四、Grid 一、须知 配置项官方文档:点此进入。 我总结了比较常用的功能,写进注释里面,附带链接分享和效果图展示。(更新中....) 二、Title option {title: {text: Weekl…

2-52 基于matlab局部信息的模糊C均值聚类算法(FLICM)

基于matlab局部信息的模糊C均值聚类算法(FLICM),是在FCM聚类算法的基础上结合了图像的邻域信息,有更好的鲁棒性。程序已调通,可直接运行。 2-52 局部信息的模糊C均值聚类算法 - 小红书 (xiaohongshu.com)

【Canvas与艺术】七角大楼

【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>七角大楼</title><style type"text/css">.cen…

【Python/PyCharm】卸载、安装、配置环境、及错误解决(保姆篇)

文章目录 卸载python安装python手动配置python环境变量安装pycharm创建一个工程错误解决 更多相关内容可查看 卸载python 卸载Python&#xff0c;建议去控制面板&#xff0c;找到Python.exe和python.launcher&#xff0c;右键卸载即可 安装python 点击windows官网下载链接选择…

AI模型离线测试指南:测试方法、评估指标与提升技巧

模型离线测试作为评估人工智能模型性能的重要手段&#xff0c;在人工智能系统测试技术中占据非常重要的位置。通过模型的离线测试&#xff0c;我们可以深入洞察模型的性能&#xff0c;为后续优化提供有效的数据支持。本文我们将从人工智能模型离线测试的概念入手&#xff0c;逐…

YOLO格式转Labelme | 标签信息 | 辅助标注 | txt转json

前言 本文分享将常规的YOLO检测信息&#xff0c;转为Labelme中的标签信息。 即&#xff1a;xxx.txt 转 xxx.json。YOLO版本支持YOLOv8、YOLOv5等。 通过模型预测的信息&#xff0c;有了大致的检测位置和类别信息&#xff0c;人工进行微调和审核即可&#xff0c;实现辅助标注…

手摸手教你撕碎西门子S7通讯协议17--【再爆肝】通讯库应用开发wpf版

1、先看颜值 这颜值是采用wpf渲染技术实现的&#xff0c;里面用到很多控件&#xff0c;有第三方控件&#xff0c;也有自定义控件&#xff0c;怎么样&#xff0c;比车模还漂亮吧&#xff0c;超过脸模。 2、实现思路 程序启动时&#xff0c;连接西门子PLC&#xff0c;然后主动读…

计算机基础(Windows 10+Office 2016)教程 —— 第5章 文档编辑软件Word 2016(下)

文档编辑软件Word 2016 5.4 Word 2016的表格应用5.4.1 创建表格5.4.2 编辑表格5.4.3 设置表格 5.5 Word 2016的图文混排5.5.1 文本框操作5.5.2 图片操作5.5.3 形状操作5.5.4 艺术字操作 5.6 Word 2016的页面格式设置5.6.1 设置纸张大小、页面方向和页边距5.6.2 设置页眉、页脚和…

【通俗理解】贝叶斯定理——证据如何更新信念

【通俗理解】贝叶斯定理——证据如何更新信念 信念更新的类比 你可以把贝叶斯定理比作一个“信念调节器”&#xff0c;它根据新的证据来调节我们对某一事件发生的信念强度。 贝叶斯定理的核心作用 组件/步骤描述先验概率在获得新证据之前&#xff0c;对某一事件发生的概率的估…

Mac电脑数据恢复软件 Disk Drill 企业版安装

Mac分享吧 文章目录 效果一、下载软件二、开始安装1、双击运行软件&#xff0c;将拖入文件夹中&#xff0c;等待安装完毕2、应用程序显示软件图标&#xff0c;运行软件&#xff0c;点击安装&#xff0c;软件页面打开表示安装成功 三、运行测试1、打开软件&#xff0c;恢复一个…

Jenkins自动化构建运行Springboot项目

通过在Jenkins中创建流水线任务&#xff0c;编写流水线脚本以实现自动化构建和部署SpringBoot项目 好处 自动化: 自动化整个部署流程&#xff0c;减少人工干预&#xff0c;降低出错率。 一致性: 确保每次部署都遵循相同的步骤和配置&#xff0c;提高部署的一致性。 快速反馈…

临沂厚朴里升腾的文旅“烟火气”为城市“夜”经济贡献新活力

“一街兴一城、一街促百业”的案例不胜枚举&#xff0c;一如北京王府井大街古今交融的馥郁人文、上海南京路万国风貌的时尚繁华、成都春熙路美食飘香的热辣滚烫…无不成为其所在城市的一张靓丽名片&#xff0c;吸引着大量的当地居民和外来游客&#xff0c;为城市的经济发展和人…

Matlab|考虑大规模电动汽车接入电网的双层优化调度策略

目录 1 主要内容 2 部分代码 3 程序结果 4 下载链接 1 主要内容 该程序复现文章《A bi-layer optimization based temporal and spatial scheduling for large-scale electric vehicles》&#xff0c;中文文献可对照《考虑大规模电动汽车接入电网的双层优化调度策略》&…

【C++】学习笔记——智能指针

文章目录 二十一、智能指针1. 内存泄漏2. 智能指针的使用及原理RAII智能指针的原理auto_ptrunique_ptrshared_ptrshared_ptr的循环引用weak_ptr删除器 未完待续 二十一、智能指针 1. 内存泄漏 在上一章的异常中&#xff0c;我们了解到如果出现了异常&#xff0c;会中断执行流…

4.5、作业管理

几乎不太会考 作业的状态 作业&#xff1a;系统为完成一个用户的计算任务&#xff08;或一次事务处理&#xff09;所做的工作总和。例如&#xff0c;对用户编写的源程序&#xff0c;需要经过编译、连接、装入以及执行等步骤得到结果&#xff0c;这其中的每一个步骤称为作业步…

【附安装包】CentOS7(Linux)详细安装教程(手把手图文详解版)

目前流行的虚拟机软件有VMware、Virtual Box和Virtual PC等等&#xff0c;其中最常用的就是VMware。 而centos是Linux使用最广泛的版本之一。 教程开始教程有许多不完备之处&#xff0c;大佬请忽略。。。 1.安装VMware 首先需要准备VMware的安装包以及Ubuntu的ISO镜像&#…

Shell编程——基础语法(2)和 Shell流程控制

文章目录 基础语法&#xff08;2&#xff09;echo命令read命令printf命令test命令 Shell流程控制if-else语句for 循环while 语句until 循环case ... esac跳出循环 基础语法&#xff08;2&#xff09; echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似&#xff0c;都是用于…

文档管理系统哪个好?优质8款系统深度比较

本文将分享8款文档管理系统&#xff1a;PingCode、Worktile、金山文档、腾讯文档、飞书文档、石墨文档、Confluence、Google Drive。 在寻找合适的文档管理系统时&#xff0c;你是否感到困惑和不安&#xff1f;市场上众多选项让人难以抉择&#xff0c;尤其是当你希望找到既能提…