论文笔记:微表情欺骗检测

news2024/11/28 14:33:14

整理了AAAI2018 Deception Detection in Videos 论文的阅读笔记

  • 背景
  • 模型
  • 实验
  • 可视化

背景

  欺骗在我们的日常生活中很常见。一些谎言是无害的,而另一些谎言可能会产生严重的后果。例如,在法庭上撒谎可能会影响司法公正,让有罪的被告逍遥法外。因此,在高风险的情况下准确发现欺骗行为对个人和公共安全至关重要。
  人类辨别欺骗的能力是非常有限的。据研究,在没有特殊辅助的情况下,检测谎言的平均准确率为54%,仅略高于随机。相比于静态图像,人类通常更容易从视频中发现微妙的面部表情。图1显示了一个例子:眉毛上升。如果只给出左边的静态图像,人们很难发现眉毛在上升。相比之下,我们可以从右边的图像序列中清楚地看到眉毛在上升,尽管图像流的最后一张图像正好是左边的静态图像。
在这里插入图片描述
  此外,欺骗是一种复杂的人类行为,受试者试图抑制他们的欺骗证据,从面部表情到手势,从他们说话的方式到他们说的话。因此,一个可靠的欺骗检测方法应该集成来自多个模态的信息。
  本文建议使用运动动力学来识别面部微表情。通过一个用于捕获动态运行的两级特征表示器,对于低级特征表示,使用密集轨迹来表示运动和运动变化。对于高级表征,我们使用低级特征训练面部微表情检测器,并使用它们的置信度得分作为高级特征。

模型

  本文提出的自动欺骗检测框架如图2所示,包括3个步骤:多模态特征提取、特征编码和分类。
在这里插入图片描述
  作者通过IDT(改进密集轨迹)来捕获视频特征,这一方法在动作识别方面表现出色。此外,通过Glove和MFCC来提取语言和音频特征。由于每个视频的特征数量不同,作者采用Fisher矢量编码将可变数量的特征聚合到固定长度的矢量上。有关这一部分,这篇文章使用的方法和模型都比较老了,不再赘述。
  经过上述步骤,我们就得到了多模态的低级特征。之前的研究表明,面部微表情在预测欺骗行为中起着重要作用,而最能预测面部表情的五种微表情是:皱眉、扬眉、翘唇、撅唇和侧头,如图三所示。基于此,本文使用2015年的一个手工标注微表情检测数据集来训练微表情检测器,然后使用微表情检测器的预测分数作为高级特征来预测欺骗。
在这里插入图片描述
  在得到上述的微表情检测器后,本文将每个视频分成固定时长的短视频片段,并用微表情标签对这些片段进行标注。形式上,给定一个训练视频集 V = { v 1 ; v 2 , . . . , v N } V = \{v_1;v_2,...,v_N\} V={v1;v2,...,vN},将每个视频分成多个片段,得到训练集 C = { v i j } C=\{v_i^j\} C={vij},标注集 L = { l i j }      i ∈ [ 1 , N ] L = \{l_i^j\}\ \ \ \ i\in [1,N] L={lij}    i[1,N]表示视频id,上标 j ∈ [ 1 , N i ] j\in [1,N_i] j[1,Ni]表示剪辑id, N i N_i Ni是视频 I I I的剪辑数, v I j v^j_I vIj的持续时间是一个常数(在我们的实现中是4秒)。 l i j l^j_i lij的维数是微表情的个数。利用视频片段 C C C训练一组微表情分类器,并将分类器应用到测试视频片段 C ^ \hat C C^上,得到预测分数 L ^ = { l ^ i j } \hat L=\{\hat l_i^j\} L^={l^ij}
  然后,分别用我们之前得到的低阶特征和视频级分数向量来训练4个二值欺骗分类器。分别是基于三个模态和混合得分向量。将这四个预测分数定义为 S m i , i ∈ [ 1 , 3 ] S_{m_i},i\in [1,3] Smi,i[1,3] S h i g h S_{high} Shigh,并得到最终的预测分数 S S S S = ∑ i α i S m i + α h i g h S h i g h S=\sum_i\alpha_iS_{m_i}+\alpha_{high}S_{high} S=iαiSmi+αhighShigh  其中, α i \alpha_i αi α h i g h \alpha_{high} αhigh是超参数,总和为1,并通过交叉验证得到。

实验

  本文在欺骗检测数据库上评估了该方法。该数据库包括121个法庭审判录像片段。这个试用数据库中的视频是来自网络的不受约束的视频。因此,我们需要处理人物视角的差异、视频质量的变化以及背景噪声,如图4所示。本文使用了来自121个视频数据库的104个视频的子集,其中包括50个真实视频和54个欺骗视频。修剪后的视频要么有明显的场景变化,要么有人工编辑。
在这里插入图片描述
  首先提供了微表情预测模块的性能。使用15帧/秒的帧率对每个视频剪辑进行采样。微表情检测器使用LibSVM的线性核支持向量机进行训练。结果如表1所示,报告了AUC (precision-recall curve下的面积)。尽管性能并不高,但代表微表情概率的高级特征在最终的欺骗检测任务中仍然提供了良好的性能。由于数据量的问题,使用深度学习的方法来训练检测器不太可行。
在这里插入图片描述
  对于欺骗检测,作者给出了不同的模态数据的组合结果,这实际上实在进行消融,我们可以观察到,组合所有预测的框架具有最好的效果。
在这里插入图片描述
  然后,作者又提出了一个有趣的问题,由于高级特征是经过训练的微表情检测器的预测分数,如果使用Ground Truth微表情特征,性能将如何受到影响。在接下来的实验中,我们使用GT微表情特征作为基线,并测试性能随其他特征模态的变化情况。表3显示了用AUC测量的结果:
在这里插入图片描述
  从表3的结果中,我们可以观察到最高的性能为0.9221 AUC,优于所提出的全自动化系统。这表明,开发更准确的微表情检测方法是未来提高欺骗检测的潜在方向。

可视化

  作者还研究了每个微表情的有效性。对于每个微表情,我们通过使用高级微表情评分特征、低级运动特征和其他模式来测试性能,如图5所示。
在这里插入图片描述
  我们可以观察到,无论是预测微表情还是真实微表情,“扬眉”都比其他微表情更有效。当使用预测的微表情时,“头侧转”也很有帮助,见图5a。这与从真实微表情中得到的结果不同。另一方面,“皱眉”使用地面真值特征比使用预测特征效果更好,可能是因为“皱眉”检测器不够准确,如表1所示。
  为了测试人类在这项任务上的表现,作者使用AMT进行用户研究。首先,我们让10个不同的人观看每个视频,并决定他们是否认为视频中的主题是真实的。每个注释者被分配5个不同身份的视频,以确保没有身份特定的偏见用于欺骗预测。我们还记录图像、音频或文本是否对他们的决定有帮助。请注意,这里的决策是使用所有模式做出的。每个视频的投票百分比被用作欺骗的分数。人为预测的AUC为0.8102。这表明这个数据集比以前的研究相对容易,在以前的研究中,人们对这项任务的预测几乎是偶然的。
  在做决定时,67:4%的用户依赖于视觉线索,61:3%的时间依赖于音频,70:7%的时间依赖于文本,如图6所示。
在这里插入图片描述

  对于每个视频,人们可以选择多种有用的模式。从这些数据中,可以观察到注意到人们倾向于根据口头内容做出决定,因为这是一个语义层面的特征。只有一半的人认为音频可以帮助他们做出决定,而在本文的系统中,音频功能是非常有效的。
  基于此,本文进行了另一项用户研究,一次只向每个用户显示一种模式,因为当多个信息来源同时可用时,很难判断哪个来源有助于做出最终决定。结果如图7所示。
在这里插入图片描述
  人类的表现和我们的系统之间存在巨大的表现差距。这表明,尽管人类缺乏仅凭视觉线索预测欺骗行为的能力,但基于计算机视觉的系统明显更好。另一方面,只有音频,人类的表现就像所有形式都可以访问一样好。但是当只提供视频文本时,人类和系统的性能都会显著下降。这表明音频信息对人类预测欺骗行为起着至关重要的作用,而文字记录则没有那么有益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2192280.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电脑获得高级管理员权限(Windows10 专业版)

电脑获得高级管理员权限(Windows10 专业版) 请谨慎操作 通常我们在删除一些文件时,会提示权限不足,删除不了文件 我们可以打开组策略编辑器将当前用户修改为高级管理员权限 Windows10获取高级管理员权限 首先打开本地组策略编辑器(cmd输入gpedit.msc)其…

20分钟写一个链表

目录 前言1.带头结点的循环双链表1.1 链表的分类、线性表的对比1.2 双链表基本操作代码实现1.2.1 初始化1.2.2 销毁、打印链表 总结 前言 有一个学长在面试的时候被问到这样一个问题,“你可以用20分钟写一个链表吗?”学长第一反应是,至少要一…

传统图像处理Opencv分割不同颜色的夹子

任务要求🍉 1. 计算图像中夹子的总数。 2. 分别计算不同颜色夹子的个数。 3. 使用以下方法适应三张图片,并在每张图像上显示结果: - 阈值方法 - HSV颜色空间 - 连通域分析 - 形态学图像处理 - Canny边缘检测 4. 在结果中显示计…

北交大研究突破:塑料光纤赋能低成本无摄像头AR/VR眼动追踪技术

北交大研究:探索无摄像头低成本AR/VR眼动追踪新路径 在AR/VR技术领域,眼动追踪作为一项关键技术,对于提升用户体验、优化渲染效率具有重要意义。然而,传统的眼动追踪方案多依赖于高成本的摄像头,这不仅增加了设备的制造…

学习资料库系统小程序的设计

管理员账户功能包括:系统首页,个人中心,管理员管理,观看记录管理,基础数据管理,论坛信息管理,公告信息管理,轮播图信息 微信端账号功能包括:系统首页,阅读资…

性能学习5:性能测试的流程

一.需求分析 二.性能测试计划 1)测什么? - 项目背景 - 测试目的 - 测试范围 - ... 2)谁来测试 - 时间进度与分工 - 交付清单 - ... 3)怎么测 - 测试策略 - ... 三.性能测试用例 四.性能测试执行 五.性能分析和调优 六…

【cpp/c++ summary 工具】 conan包管理器安装与cmake项目配置

发现有些包cvpkg中没有(比如字典树),conan里有。 安装conan https://conan.io/downloads 配置conan PS C:\Users\multisim> conan config home C:\Users\multisim\.conan2 # Conan 主文件夹的路径,https://docs.conan.io/2/referen…

【梯级水电站调度优化】基于自适应权值优化粒子群算法

课题名称: 基于改进粒子群算法的梯级水电站调度优化 改进方向:自适应权值优化 代码获取方式(付费): 相关资料: 1. 粒子群算法的基本原理 2. 梯级水电站调度优化模型 3. 代码注释 4. 代码讲解视频&am…

Python编程常用的35个经典案例

Python 的简洁和强大使其成为许多开发者的首选语言。本文将介绍35个常用的Python经典代码案例。这些示例覆盖了基础语法、常见任务、以及一些高级功能。 1.列表推导式 这个例子展示了列表推导式,用于生成FizzBuzz序列。 fizz_buzz_list ["FizzBuzz" i…

互联网Java工程师面试题及答案整理(2024年最新版)

前言 作为一个 Java 程序员,你平时总是陷在业务开发里,每天噼里啪啦忙敲着代码,上到系统开发,下到 Bug 修改,你感觉自己无所不能。然而偶尔的一次聚会,你听说和自己一起出道的同学早已经年薪 50 万&#x…

拥抱大模型时代,从入门到精通,科技从业者的转型攻略与AI红利指南

前言 自2022年11月ChatGPT问世以来,大模型在人工智能领域的潜能得到了充分展示,其深远影响引发了研究热潮。在不到一年的时间里,国产大模型如雨后春笋般涌现,2023年成为了大模型时代的元年。对于IT圈的科技从业者来说&#xff0c…

NextViT实战:使用NextViT实现图像分类任务(二)

文章目录 训练部分导入项目使用的库设置随机因子设置全局参数图像预处理与增强读取数据设置Loss设置模型设置优化器和学习率调整策略设置混合精度,DP多卡,EMA定义训练和验证函数训练函数验证函数调用训练和验证方法 运行以及结果查看测试完整的代码 在上…

从零开始讲PCIe(8)——PCIe拓扑与组件

一、拓扑结构 和PCI-X一样,PCIe链路是点对点的连接,而不是像传统PCI那样使用共享总线。这是由于其使用了非常高的传输速度。因此,链路只能连接两个接口,为了构建一个复杂的系统,必须采用某种方式来扩展连接。在PCIe中&…

《Linux从小白到高手》理论篇:一文概览常用Linux重要配置文件

List item 今天继续宅家,闲来无事接着写。本篇是《Linux从小白到高手》理论篇的最后一篇了。本篇集中介绍所有常用的Linux重要配置文件。 用这个命令可以查看配置文件所在的位置:如上图 locate "*.conf" "*.ini" "*.cfg&quo…

论文 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust

这篇论文研究了使用提示 (Prompting) 方法微调预训练语言模型,以提高其在对抗样本攻击下的鲁棒性。论文的主要贡献如下: 1.MVP 比 MLP-FT 更鲁棒: 论文比较了 MVP (Model-tuning Via Prompts) 和传统的 MLP-FT (Fine-tuning with an MLP head…

热门:AI变现,看看谁在默默赚大钱?

在这个愈发依赖AI的时代,找到属于自己的盈利方式愈发重要。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 总的来说,利用AI进行盈利的方式主要有三种:技术型、流量型和内容型。 每种方式都根植于AI的特性,但同时也需要特定…

【英语】2. 英语的表达习惯

文章目录 前言less v. more n.解释e.g. less v. more prep.被动与中文的歧义总结参考文献 前言 进行英语前后缀的复习 less v. more n. 解释 外国的表达方式:更多地偏向静态,因此更多地使用名词 e.g. (rather Chinglish expression) She could not c…

Linux Cent7 已安装MySQL5.7.X,再安装MYSQL8.4.2

一、 下载安装 检查Linux系统的glibc版本rpm -qa | grep glibc结果:glibc-common-2.17-260.el7_6.6.x86_64 glibc-2.17-260.el7_6.6.x86_64 glibc-headers-2.17-260.el7_6.6.x86_64 glibc-devel-2.17-260.el7_6.6.x86_64访问MySQL官网,下载对应版本数据…

【智能算法应用】侏儒猫鼬优化算法求解二维路径规划问题

摘要 在复杂环境下的移动机器人路径规划问题中,最优路径的求解具有重要的应用价值。本文基于一种新型智能优化算法——侏儒猫鼬优化算法(DMOA),提出了一种二维路径规划的有效求解方法。该算法通过模拟侏儒猫鼬的觅食、社会合作与…

一行 Python 代码能实现什么丧心病狂的功能?圣诞树源代码

手头有 109 张头部 CT 的断层扫描图片,我打算用这些图片尝试头部的三维重建。基础工作之一,就是要把这些图片数据读出来,组织成一个三维的数据结构(实际上是四维的,因为每个像素有 RGBA 四个通道)。 这个…