ICASSP2023年SPGC多语言AD检测的论文总结

news2024/9/24 7:14:25

文章目录

    • 引言
    • 正文
      • Abstract
      • Related Article
        • No.1: CONSEN: COMPLEMENTARY AND SIMULTANEOUS ENSEMBLE FOR ALZHEIMER'SDISEASE DETECTION AND MMSE SCORE PREDICTION
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
        • No.2: CROSS-LINGUAL TRANSFER LEARNING FOR ALZHEIMER'S DETECTION FROM SPONTANEOUS SPEECH
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
        • No.3: THE USTC SYSTEM FOR ADRESS-M CHALLENGE
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
        • No.4: Baseline/MULTILINGUAL ALZHEIMER'S DEMENTIA RECOGNITION THROUGH SPONTANEOUS SPEECH: A SIGNAL PROCESSING GRAND CHALLENGE
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
        • No.5: EXPLORING LANGUAGE-AGNOSTIC SPEECH REPRESENTATIONS USING DOMAIN KNOWLEDGE FOR DETECTING ALZHEIMER’S DEMENTIA
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
        • No.6: Cross-lingual Alzheimer's Disease detection based on paralinguistic and pre-trained features
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
    • 总结

引言

  • 已经读完了所有的文章,这里需要对于跨语言AD检测的比赛进行一个综合性的总结。
  • 主要是总结一下几个方向
    • 这些论文尝试了哪些特征?是如何实现的?结论如何?
    • 这些论文是如何实现分类问题的?如何实现检测问题的?
    • 这些论文是如何处理数据的?
    • 这些论文是如何改良结果的。

正文

Abstract

  • 在第一部分,首先对每一篇论文的技术方案从四个方面进行总结,分别是特征相关、模型实现相关、处理数据的方式还有结果分析。正在第二部分,我们将对左右文章进行总结,从使用特征,实现方法,数据集处理进行分析。
  • 最后一部分,将会对全文进行一个总结,总结出下一步应该干什么。

Related Article

No.1: CONSEN: COMPLEMENTARY AND SIMULTANEOUS ENSEMBLE FOR ALZHEIMER’SDISEASE DETECTION AND MMSE SCORE PREDICTION
  • 相关论文学习链接:链接
特征相关

音频特征尝试Acoustic Features

  • wav2vec:53个跨语言模型得出,对应项目链接,但是没有在希腊语上调整过。
  • i-vector:链接
  • x-vector:链接
  • VGGish:链接

不流利特征Disfluency Features Extraction

  • Unnatural speech Breaks不自然的停顿
  • longer speech durations更长时间的发音
  • more speech pause更多的语音停顿
  • slower speech rate更慢的语音速率
  • 。。。一共18种不流利特征
模型结构

在这里插入图片描述

  • 特征融合的效果更好,使用Majority Voting解决
数据处理

数据进行分段,按照角色和停顿进行分段
在这里插入图片描述

结果分析
  • 不流利特征集的分类效果,要好于音频特征集,所以disfluency特征更加不受语言的限制
  • 特征融合之后,效果有显著提升。
No.2: CROSS-LINGUAL TRANSFER LEARNING FOR ALZHEIMER’S DETECTION FROM SPONTANEOUS SPEECH
  • 鲁汶大学的比赛结果,第二名,是唯一一个公开代码,公开pt文件的队伍。
  • 文章学习链接:相关链接
特征相关

音频特征

  • eGeMAPS:来自OpenSmile,相关链接
模型结构
  • 主要是对于eGeMAPS的处理,分为4个部分

这里没有细看,不过可以结合代码进行学习

数据处理

数据平衡和补充

  • 去除没有MMSE分数的AD患者
  • 去除8个AD患者,保证AD患者和健康人的数据平衡,都是114个人
  • 补充未知的数据,确保所有人的特征都有

数据扩容——分段

  • 将数据分为10段等长的段落,然后对每段计算对应的OpenSmile的eGeMAPS特征
结果分析
  • 单纯从使用结果上来看,这里仅仅使用了音频特征,分类的准确率就达到了88.9%,所以有效利用音频特征,音频特征也是能够有效进行分类的。
No.3: THE USTC SYSTEM FOR ADRESS-M CHALLENGE
  • 综合排名第三的是中科大的论文,整体性能不错,但是没有提供源代码,参考的信息不多。
  • 文章学习链接:相关链接
特征相关

Silence Features静音特征

  • 静音的次数、静音时间和语音持续时间的比率、静音和语音持续时间的统计特征

Acoustic Features音频特征

  • 低频段音频特征
  • eGeMAPS(eGM):来自OpenSmile,相关链接
  • ComParE2016(CPE):来源同上

Language Features语义特征

  • facebook/wav2vec2-base-960h" model (WB):对应链接
    • 使用英语和希腊语数据集进行微调强化,保证语义特征的有效性
  • facebook/hubert-base-ls960" model (HB):对应链接
模型结构
  • 中科大探索的很全面,不仅仅尝试了前两篇论文的所有特征,还额外增加了语义特征,
数据处理

提取韵律信息

  • 对声音使用低通滤波,保留语言中通用的韵律信息,过滤表示语言音素信息的高频信息
结果分析

在这里插入图片描述

  • 中科大探索的很全面,不仅仅尝试了前两篇论文的所有特征,还额外增加了语义特征,同时还使用了不同的融合方式进行测试,但是效果比单单使用某一种特征的效果还差,这不排除,没有对数据进行有效地处理,同时连接的方式有问题。

  • ID5仅仅使用了语义特征,效果最好,说明了语义特征有效性,但是需要使用特定双语数据集进行平衡微调才有效。

  • 做了这么多实验,只是想证明单独使用音频特征的有效性。

No.4: Baseline/MULTILINGUAL ALZHEIMER’S DEMENTIA RECOGNITION THROUGH SPONTANEOUS SPEECH: A SIGNAL PROCESSING GRAND CHALLENGE
  • 综合排名第四的是baseline,很诧异,二十多支参赛队伍,只有三个队伍的效果是超过baseline的。说明baseline的效果还是很厉害的。
  • 文章学习链接:相关链接
特征相关

Acoustic Features音频特征

  • eGeMAPS(eGM):来自OpenSmile,相关链接
    • F0(基频)半音、响度、频谱流、MFCC(梅尔频率倒谱系数)、抖动、闪变、F1、F2、F3、alpha比、Hambarg指数以及斜率V0特征,以及它们最常见的统计功能,每帧总共88个特征
模型结构

在这里插入图片描述

  • 并没使用很复杂方式进行特征提取,而是使用传统的机器学习进行处理,并没有使用任何其他的方法。
数据处理

标准化音频文件

  • 使用ffmpeg的EBU R128扫描器滤波器来标准化音频文件的音量

帧化处理

  • 对音频应用了1秒钟的滑动窗口(没有重叠),并在这些帧上提取了eGeMAPS特征
结果分析
  • baseline虽然是参考的基准,但是效果各项都很全面,都很厉害,同时他处理音频方式的也很独特,需要好借鉴学习。
  • baseline证明了传统音频特征的有效性,同时对声音进行帧化处理,提取的特征更加明确。
No.5: EXPLORING LANGUAGE-AGNOSTIC SPEECH REPRESENTATIONS USING DOMAIN KNOWLEDGE FOR DETECTING ALZHEIMER’S DEMENTIA
  • 综合排名第五的是加拿大大学的阿尔伯特大学,没有提供源代码,但是也是仅有的五篇文章之一,总结一下。
  • 文章学习链接:相关链接
特征相关

word level duration features词级持续时间特征集

  • 这个特征集主要描述的是说话者是否使用了短词或者长词,以及他们说出他们的时间
    • Whisper实现

Pause rate features set停顿率特征集

  • 这个特征集描述的是自发语音中的检测出的停顿的分布。
    • OpenSmile实现

Speech intelligibility feature set

  • 这个特征集描述了听者可以理解语音的易用性和准确性,这里由语音识别模型分配给每个识别词的词级置信度分数表示。
    • 感觉欠妥,这部分过分牵扯到了口音清晰的重要性
模型结构
  • 特征提取 + 常规机器学习方法分类
数据处理

统一数据模态

  • 使用Whisper-Large将所有音频进行撰写,然后在进行翻译,统一翻译为英文进行处理。
结果分析
  • 三种特征整体来说还是很有效的,最起码具有可理解性,而且作者尝试了不同的结合方式。
No.6: Cross-lingual Alzheimer’s Disease detection based on paralinguistic and pre-trained features
  • 综合排名第六的是清华大学的分析文章,也是我看来应该是最好的,而且是最有潜力的文章,单单使用了单一模态的特征效率就很高,如果特征进行融合,效果应该会更高。
  • 文章学习链接:相关链接
特征相关

Paralinguistic features based approach副语言特征相关方法——OpenSmile

  • 之前已经说过了,副语言特征对于单语言而言效果很棒,这里使用开源的OpenSmile框架对副语言特征进行副语言特征提取,主要是用了三个副语言特征数据集
    • IS10-Paralinguistics-compat feature set
    • IS10-Paralinguistics feature set
    • IS11-speaker-state feature set.

Pre-trained acoustic features based approach基于预训练模型提取的音频特征——XLSR-53

  • 我们这里用的是预先训练过的XLSR-53模型作为预训练模型,这个东西是跨语言预训练模型,在53种语言数据集上进行过训练。

Pre-trained linguistic features based approac基于预训练的语义特征方法——Whisper

  • 翻译之后的文本将会用来对RoBERTa模型进行微调。最终的分类任务和回归任务是通过调整最终神经元的数量来实现的。
模型结构

在这里插入图片描述

数据处理
  • 并未涉及到很多数据处理方式
结果分析

在这里插入图片描述

总结

目前来看,总共6篇文章,各自使用了不同的方法,尝试了不同的特征,根据每一篇文章的内容可以做出来如下的一些总结

  • 第一篇文章,证明了disfluency feature的有效性,同时AD任务和MMSE分类任务的相关性。

  • 第二篇文章,证明了在有效的数据处理的情况下,eGeMAPS特征的有效性。

  • 第三篇文章,证明了通过平衡数据微调之后的语义特征,具有跨语言的特性,效果较好。

    • 有效的链接,应该是比单模态的效果要好;无效的链接,只会让融合之后的结果更差。
  • 第四篇文章——baseline,证明了常见音频特征eGeMAPS的有效性,同时帧化处理之后的特征更加明显。

  • 第五篇文章,虽然他自己说这两种特征有效,但是可理解性的定义并没有牵扯到语义,个人认为没有什么效果,这篇文章没啥效果。

  • 第六篇文章,证明了副语言特征的的有效性,证明了语义特征的和文本内容高度绑定,并不能实现跨语言分析。

  • 综上,可以在特征融合上下功夫,每一篇文章都没有时间去充分证明特征融合的有效性,或者说做的融合都很糟糕。最起码不应该比原来的模型差。

  • 除此之外,还应该尝试多种数据预处理方式,包括帧化,低频过滤、文本翻译转写等操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1228319.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NSS [鹤城杯 2021]Middle magic

NSS [鹤城杯 2021]Middle magic 源码直接给了。 粗略一看&#xff0c;一共三个关卡 先看第一关&#xff1a; if(isset($_GET[aaa]) && strlen($_GET[aaa]) < 20){$aaa preg_replace(/^(.*)level(.*)$/, ${1}<!-- filtered -->${2}, $_GET[aaa]);if(preg_m…

开源与闭源:大模型发展的双重走向

目录 前言开源和闭源的优劣势比较开源的优势闭源的优势 开源和闭源对大模型技术发展的影响对技术发展的影响对数据共享的影响对业务拓展的影响 开源与闭源的商业模式比较开源的商业模式闭源的商业模式 处在大模型洪流中&#xff0c;向何处去&#xff1f;结语 前言 随着人工智能…

【Flink】核心概念:任务槽(Task Slots)

任务槽 每个 worker&#xff08;TaskManager&#xff09;都是一个 JVM 进程&#xff0c;可以在单独的线程中执行一个或多个 subtask。为了控制一个 TaskManager 中接受多少个 task&#xff0c;就有了所谓的 task slots&#xff08;至少一个&#xff09;。 每个任务槽&#xf…

H110主板搭配魔改QNCW升级小记

最近搬家完毕&#xff0c;翻出来一块闲置已久的qncw&#xff0c;隐约记得是买的主板套装&#xff0c;现在主板早已不知踪影&#xff0c;剩下孤零零一个CPU&#xff0c;一起翻出来一个G3900T亮机CPU&#xff0c;应该是同时代的产物。 qncw百度上一搜&#xff0c;发现参数还行&am…

CICD 持续集成与持续交付——jenkins

部署 软件下载&#xff1a;https://mirrors.tuna.tsinghua.edu.cn/jenkins/redhat/ [rootcicd2 ~]# rpm -ivh jdk-11.0.15_linux-x64_bin.rpm[rootcicd2 ~]# yum install -y fontconfig[rootcicd2 ~]# rpm -ivh jenkins-2.432-1.1.noarch.rpm启动服务 [rootcicd2 ~]# systemctl…

【Java】网络编程基础—InetAddress类和URL编程

&#x1f33a;个人主页&#xff1a;Dawn黎明开始 &#x1f380;系列专栏&#xff1a;Java ⭐每日一句&#xff1a;为了那个远方&#xff0c;你要奋不顾身 &#x1f4e2;欢迎大家&#xff1a;关注&#x1f50d;点赞&#x1f44d;评论&#x1f4dd;收藏⭐️ 文章目录 一.&#x…

Python编程技巧 – 使用字符串(Strings)

Python编程技巧 – 使用字符串&#xff08;Strings) Python Programming Essentials – Using Strings 本文简要介绍如何使用字符串&#xff0c;来进行Python编程。字符串有很多用途&#xff0c;包括输出结果、反馈状态、数据处理以及切片和文本筛选等 1. 字符串 字符串(St…

DevToys:开发者的多功能瑞士军刀,让编程更高效!

DevToys&#xff1a;开发者的多功能瑞士军刀&#xff0c;让编程更高效&#xff01; DevToys 是一款专为开发者设计的实用工具&#xff0c;它能够帮助用户完成日常的开发任务&#xff0c;如格式化 JSON、比较文本和测试正则表达式&#xff08;RegExp&#xff09;。它的优势在于…

开源WIFI继电器之硬件电路

一、原理图 源文件 二、原理图说明 1、器件说明 U4&#xff1a;ESP8285模块 U6&#xff1a;触发器 U3&#xff1a;继电器 2、继电器状态检测说明 检测继电器线圈是否通电来判断继电器是否导通&#xff0c;当Q1不导通时&#xff0c;Q1集电极的电压为3.3V&#xff0c;经…

微机原理练习题_13

一、单项选择题(本大题共15小题,每小题3分,共45分。在每小题给出的四个备选项中,选出一个正确的答案。&#xff09; 1、十六进制数5BF.C8转换成二进制数是(&#xff09; A. 11011100111111101B B. 010111011011.01101B C. 010110111111.11001B D. 010111011011.11001B 2,最适合…

nodejs+vue慢性胃炎健康管理系统的设计与实现-微信小程序-安卓-python-PHP-计算机毕业设计

随着科学技术的飞速发展&#xff0c;各行各业都在努力与现代先进技术接轨&#xff0c;通过科技手段提高自身的优势&#xff1b;对于慢性胃炎健康管理系统当然也不能排除在外&#xff0c;随着网络技术的不断成熟&#xff0c;带动了慢性胃炎健康管理系统&#xff0c; 系统首页、个…

【Android】使用Retrofit2发送异步网络请求的简单案例

添加网络权限到AndroidManifest.xml清单文件 为了让你的Android应用程序能够使用互联网进行通信&#xff0c;你需要在AndroidManifest.xml文件中添加网络权限声明。<uses-permission android:name"android.permission.INTERNET"/> 这个权限应该添加到 Android…

【LeetCode每日一题合集】2023.9.25-2023.10.1(⭐LFU缓存Java数据流花期内花的数量)

文章目录 460. LFU 缓存⭐&#xff08;数据结构题&#xff09;解法1——平衡树 哈希表&#xff08;TreeSet HashMap&#xff09; O ( l o g n ) O(logn) O(logn)解法2——双哈希表 双向链表 O ( 1 ) O(1) O(1) &#xff08;LRU缓存的升级版&#xff09; 2582. 递枕头解法—…

【WSL/WSL2-Ubuntu】突破界限:不使用服务器在一台Windows搭建Nginx+FastDFS

打造超级开发环境&#xff1a;Nginx和FastDFS在WSL中的完美结合 前言 随着软件开发领域的快速发展&#xff0c;跨平台的开发环境变得日益重要。Windows Subsystem for Linux&#xff08;WSL&#xff09;和WSL 2为开发者提供了在Windows操作系统上体验Linux环境的便捷途径。本…

代码随想录算法训练营第二十八天| 78 子集 90 子集|| 93 复原IP地址

78 子集 由题意可知数组中的元素互不相同&#xff0c;所以在dfs中我们可以将当前的path直接加入到res中。 class Solution {List<List<Integer>>res new ArrayList<>();List<Integer>path new LinkedList<>();public List<List<Integer…

全新酷盒9.0源码:多功能工具箱软件的最新iapp解决方案

全能工具箱软件酷盒&#xff1a;源码提供iapp解决方案&#xff0c;自定义打造个性化体验 酷盒是一款功能丰富的工具箱软件&#xff0c;内置众多实用功能&#xff0c;并实时更新热门功能。该软件还拥有丰富的资源库&#xff0c;用户可以在线畅玩游戏、免费下载音乐等。 我们提…

装饰模式 rust和java的实现

装饰器模式 装饰器模式&#xff08;Decorator Pattern&#xff09;允许向一个现有的对象添加新的功能&#xff0c;同时又不改变其结构。 装饰器模式通过将对象包装在装饰器类中&#xff0c;以便动态地修改其行为。 这种模式创建了一个装饰类&#xff0c;用来包装原有的类&am…

【Flink】系统架构

DataStream API 将你的应用构建为一个 job graph&#xff0c;并附加到 StreamExecutionEnvironment 。当调用 env.execute() 时此 graph 就被打包并发送到 JobManager 上&#xff0c;后者对作业并行处理并将其子任务分发给 Task Manager 来执行。每个作业的并行子任务将在 task…

6 Redis的慢查询配置原理

1、redis的命令执行流程 redis的慢查询只针对步骤3 默认情况下&#xff0c;慢查询的阈值是10ms

[python]python筛选excel表格信息并保存到另一个excel

目录 关键词平台说明背景所需库1.安装相关库2.代码实现sourcetarget1 关键词 python、excel、DBC、openpyxl 平台说明 项目Valuepython版本3.6 背景 从一个excel表中遍历删选信息并保存到另一个excel表 所需库 1.openpyxl &#xff1a;是一个用于读写 Excel 文件的 Pyt…