论文笔记:D-vlog 用于抑郁症检测的多模态数据集

news2024/10/12 0:58:11

整理了AAAI2022 D-vlog: Multimodal Vlog Dataset for Depression Detection 论文的阅读笔记

  • 背景
  • 方法
    • 特征提取
    • 模型
  • 实验
    • 数据集
    • 主实验
    • 不同模态的性能
    • 性别的影响

背景

  以往关于抑郁症检测的工作大多集中在实验室环境下对抑郁症个体的检测,难以在实践中推广。本文提出了一个多模态抑郁症数据集D-Vlog,由从YouTube收集的961个vlog(即约160小时)组成,并手工标注为抑郁/非抑郁,表1展示了D-vlog与其他抑郁症检测数据集的比较。这是一个视听融合的多模态二分类任务。
在这里插入图片描述

方法

  本文提出了一个多模态深度学习模型从收集的数据中提取的声学和视觉特征来检测抑郁症。采用交叉注意机制来有效地捕捉声音和视觉特征之间的关系,并为抑郁检测生成有用的多模态表示。

特征提取

  首先将每个视频日志的音频序列分割成秒。从每个音频片段(一秒)中提取25个低电平声学描述符(LLDs)。对于每个片段的25个特征取平均值,将所有片段连接起来,得到音频向量。
  对于视觉特征,使用dlib,这是一个著名的用于人脸识别和验证等计算机视觉任务的开源软件。在vlog中每帧(1 FPS)提取68个面部坐标(即x和y坐标),并通过连接每个x和y坐标获得136维向量。如果在帧中没有检测到人脸,则用零向量替换。
  特征提取的过程如图二所示。
在这里插入图片描述

模型

  本文提出了一个基于多模态视听融合的深度学习方法,称之为“Depression Detector”,该模型由以下组件组成:(1) 单峰变压器编码器,(2) 多峰变压器编码器,以及 (3) 检测层。如图三所示:
在这里插入图片描述
  本文的模型实际上就是三个Transformer模块。以声学和视觉特征向量作为输入,两个单峰Transformer编码器生成单峰表示。接下来,多模态Transformer编码器整合声音和视觉单模态表示,以生成给定vlog的最终表示。通过学习多模态表示,抑郁检测层最终预测出vlog的抑郁标签。使用的损失函数就是二元交叉熵。

实验

数据集

  将数据集以7:1:2的比例分成训练集、验证集和测试集,数据集中还有一个性别参数,如表3所示:
在这里插入图片描述

主实验

  本文所用的baseline都是比较简单的,不再赘述,实验结果如表4所示。
在这里插入图片描述
  我们可以观察到,所有融合基线模型的性能都低于所提出的模型。这表明采用交叉注意的融合方法可以跨模态捕获有用的知识。与基线比较,发现BLSTM和TFN比传统的机器学习方法如LR、SVM和RF具有更高的性能。这是因为BLSTM和TFN被设计为考虑输入特征的顺序信息,而传统的机器学习模型无法学习这些信息。建议的模型达到65.57%的加权平均召回率和63.50%的加权平均f1得分。这表明所提出的两级变压器编码器和多模态融合方法可以生成捕捉抑郁说话人明显特征的表征。

不同模态的性能

  为了分析每种模态(即音频和视觉)对检测抑郁症的重要性,本文对每种模态训练的单模态模型进行了性能分析。结果如表5所示,用声学特征训练的模型比用视觉特征训练的模型获得了更高的性能(加权平均f1得分的58.55%)。也就是说,在抑郁症检测中,声学特征比视觉特征更有用。
在这里插入图片描述

性别的影响

为了研究性别如何影响对抑郁的感知。首先用特定的性别(即男性或女性)训练和验证建议的模型。与之前的工作一致,该模型在男性非语言特征集上的抑郁检测性能高于女性集。这意味着,在视频博客中,男性抑郁者的言语和面部表情往往表现出与非抑郁男性不同的明显指标。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2206427.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java之API

前言 这一篇讲API,有很多很多的API 1. Object 它是所有类的祖宗类,所以任何类都可以直接使用Object的一些方法 1.1 toString 从这个我们就可以看出,平时对s1的打印其实是默认调用了它的toString函数,因为toString是灰色的 但…

qt数据库的系统

pro文件 QT core gui sqlgreaterThan(QT_MAJOR_VERSION, 4): QT widgetsCONFIG c11# The following define makes your compiler emit warnings if you use # any Qt feature that has been marked deprecated (the exact warnings # depend on your compiler). Plea…

四款电脑录屏的软件,谁更胜一筹?

作为一名喜欢搜罗各种办公软件的打工人,我每天的工作都离不开电脑,而录屏软件就成了我工作中不可或缺的小帮手。最近,我试用了四款流行的录屏软件,今天就来跟大家分享一下我的使用感受,看看哪款软件更得我心。 一、福…

Python和C++及MATLAB低温磁态机器学习模型

🎯要点 使用小规模磁态训练模型,并在二维三维爱德华兹-安德森模型上使用四种算法测试:贪婪算法、模拟退火算法、并行回火算法和本模型。将磁态基态搜索视为马尔可夫决策过程 (MDP),学习最优策略以累积其最大回报。设计图神经网络…

从0开始深度学习(9)——softmax回归的逐步实现

文章使用Fashion-MNIST数据集,做一次分类识别任务 Fashion-MNIST中包含的10个类别,分别为: t-shirt(T恤)、trouser(裤子)、pullover(套衫)、dress(连衣裙&…

SSD |(二)SSD主控

文章目录 📚控制器架构🐇PCIe和NVMe控制器前端子系统🐇NAND闪存控制器后端子系统🐇内存子系统🐇安全子系统🐇CPU计算子系统 📚控制器架构 控制器作为一个片上系统,处理来自用户端的…

Linux下的Makefile基本操作

1.Makefile与 make介绍 在Linux中, Makefile 是⼀个⽂件, 令会在当前⽬录下找 make 是⼀个指令,当使⽤ Makefile ⽂件从⽽执⾏内部的内容 2.创建第一个 Makefile并使用make ⾸先,在当前⽬录下创建⼀个makefile文件 接下来在同级…

【小工具分享】下载保存指定网页的所有图片

一、保存百度首页所有的图片 先看一下保存的图片情况 二、思路 1、打开网页 2、获取所有图片 3、依次下载保存图片到指定路径 三、完整代码 from selenium import webdriver from selenium.webdriver.common.by import By b webdriver.Firefox() import urllib.request…

企业如何借力AI,提升人力资源管理的效率完成组织提效变革

大家好,我是Shelly,一个专注于输出AI工具和科技前沿内容的AI应用教练,体验过300款以上的AI应用工具。关注科技及大模型领域对社会的影响10年。关注我一起驾驭AI工具,拥抱AI时代的到来。 企业面临的压力: 在当今这个充…

LeetCode|70.爬楼梯

这道题很像斐波那契数列,但是初始值不同,也有动态规划的解法,但是一开始我想到的是递归写法。现在我们站在第n阶台阶,那么,我们上一步就有两种可能:1、我们从第n-1阶台阶走一步上来的;2、我们从…

商家转账到零钱接口开通

商家想要开通“商家转账到零钱”功能,需要遵循一系列详细步骤和条件,以确保顺利通过审核。以下是开通办法的详解: 申请流程: 主体资格确认:确保申请主体为公司性质(有限公司),个体工…

ScribbleDiff:使用涂鸦引导扩散,实现无需训练的文本到图像生成

ScribbleDiff可以通过简单的涂鸦帮助计算机生成图像。比如你在纸上随意画了一些线条,表示你想要的图像的轮廓。ScribbleDiff会利用这些线条来指导图像生成的过程。 首先,它会分析这些涂鸦,确保生成的图像中的对象朝着你画的方向。比如&#…

品民俗、看展演、逛非遗市集……在海淀,重阳节还可以这样过

秋菊溢彩、叠翠鎏金。由北京市海淀区文化和旅游局主办,北京市海淀区文化馆承办,海淀区上庄镇文化活动中心支持的品鉴民俗 巧手绘梦——2024年海淀区重阳节非遗主题文化活动于10月11日在上庄镇市民活动中心顺利举办。海淀非遗传承人以非遗为媒,与地区群众度过了一个温馨、热闹、…

第四次论文问题知识点及问题

1、NP-hard问题 NP-hard,指所有NP问题都能在多项式时间复杂度内归约到的问题。 2、启发式算法 ‌‌启发式算法(heuristic algorithm)是相对于最优化算法提出的。它是一种基于直观或经验构造的算法,旨在以可接受的花费给出待解决…

Android 如何实现远程网页控制售卖机出商品:RabbitMQ的对接,如何使用?如何断网重连?连接不上后台的MQ有哪些方面的原因

目录 一、如何实现远程网页控制售卖机出商品? 比如,我们想实现,通过一个网页去控制自动售卖机(自动售卖机装有Android系统,装有App)出商品,也就是我们熟知的远程控制,不用你人到现场…

搭建电商商城系统各项功能时需要用到的电商API数据采集接口

在搭建电商商城系统时,选择合适的电商API接口至关重要。以下是一些常用的电商API接口提供商及其功能: 常用电商API接口提供商 淘宝开放平台:提供淘宝、天猫、1688等阿里巴巴集团旗下的电商平台接口,用于商品检索、订单管理、物流…

如何把pdf转换成jpg图片?在线pdf转图片,这6种方法很简单!

“如何把pdf转换成jpg图片?”相信很多小伙伴们都有这个疑问。pdf格式是如今在商业和其他正式场合中使用最广泛的文档类型,因为它能以安全且方便的方式共享信息。然而,查看pdf文件通常需要使用一些专业的pdf阅读器,这可能给一些用户…

服务端给客户端push消息的demo的实现流程

摘要: 本示例演示了一个基本的服务端5分钟定时向客户端app推送消息的WebSocket机制。服务端使用WebSocket协议接受客户端的订阅和取消订阅请求,并根据客户端的订阅状态发送实时消息。服务端记录并打印带有时间戳的日志,以监控订阅活动。客户…

python画图|二维动态柱状图输出

【1】引言 在前面的学习过程中,已经探索过二维柱状图和三维柱状图的绘制教程,包括且不限于的文章链接有: python画图|水平直方图绘制_绘制水平直方图-CSDN博客 python画图|3D bar进阶探索_ax.bar3d-CSDN博客 此外也学习了动态的直线输出和…

调用AI 通过相机识别地标

https://www.youtube.com/watch?vViRfnLAR_Uc&listPLQkwcJG4YTCRJxkPPDBcKqDWrfF5qanQs&index3学习视频 TensorFlow Hub 机器学习模型的代码库 找到地标模型 如何在Android上使用ts模型 https://blog.tensorflow.org/2018/03/using-tensorflow-lite-on-android.html…