ICASSP2023论文解读|如何检测会议记录中的待办事项?

news2025/1/14 18:20:38

得益于语音识别技术的发展,人工智能可以帮助人们记录会议,自动检测与会后行动项关联的会议内容,并进行总结。

行动项识别对于管理会后待办任务至关重要。

针对对于行动项识别任务,相关数据集稀缺且规模小。因此,达摩院构建并开源了AMC-A语料库,这或是首个带有行动项标注的中文会议语料库。

基于行动项数据集,达摩院提出了 Context-Drop 方法,通过对比学习利用局部和全局上下文,在行动项识别任务中取得了更好的表现和鲁棒性。此外,我们探索了轻量级模型集成方式来利用不同的预训练模型的方法。

开源数据链接👇:

https://www.modelscope.cn/datasets/modelscope/Alimeeting4MUG/summary

开源方法链接👇:

https://github.com/alibaba-damo-academy/SpokenNLP/tree/main/action-item-detection

数据集构建

AMI 数据集

AMI 会议语料库在各种会议相关研究中发挥了重要作用。它包含 171 份会议记录和各种类型的第三方标注。其中,场景式会议有 145 篇,自然发生会议有 26 篇。

AMI 会议语料库是用于评估行动项识别表现的常用数据集。虽然这个语料库没有行动项的直接标注,但是可以根据摘要的标注生成间接标注。

参照之前工作的范式,我们将与行动项相关的摘要所对应的对话行为视为正样本,否则为负样本。通过这种方式,我们获得了 101 篇带有 381 个行动项正例的有标注会议。此外,我们应用了官方推荐的仅限场景的数据集划分方式。

AMC-A 数据集

我们构建并提供了一个中文会议语料库,即 AliMeeting-Action Corpus 语料库 (AMC-A),其中包含行动项标注。我们扩展了之前在 M2MET 中发布的 224 次会议,增加了 200 次会议。每场会议由 2 到 4 名参与者进行 15 分钟到 30 分钟的讨论。讨论的话题比较多样,偏向于各个行业的工作会议。所有 424 份会议记录均为手动转录,并插入了标点符号。以手动标记的句号、问号和感叹号结尾的语义单元被视为用于行动项标注和建模的句子。

我们将行动项识别看作二分类任务,并进行句子级别的行动项标注,即包含行动项信息(任务描述、时间期限、负责人)的句子为正样本(标记为 1),否则为负样本 (标记为 0)。根据之前的研究和我们的经验,行动项的标注具有高主观性和低一致性,比如在 ICSI 语料库上的 Kappa 系数仅为 0.36。

为了简化任务,我们提供了详细的标注规范和充足的示例。为了降低标注成本,我们首先选择包含时间表达(例如“明天”)和与动作相关的动词(例如“完成”)的候选句子,并以不同的颜色进行高亮显示。然后由三位标注员独立地标注候选句子。标注时,候选句子会随上下文一起显示,以便标注员可以更好地利用上下文信息进行理解。

图片

(图示:中文 AMC-A 数据集及英文 AMI 数据集统计结果)

通过这些标注方法,标注员之间的平均 Kappa 系数为 0.47。对于来自三位标注员的不一致标注,由一位专家决定最终标注。上表显示 AMC-A 和 AMI 会议语料库的统计结果。AMC-A 或是第一个中文带有行动项标注的会议语料库。

方法介绍

此前的研究方法几乎都用到了局部上下文,但是对于全局上下文的关注不足。通过下面这个例子可以看出,局部上下文可以提供很多相关信息。但是有一些不邻近的句子,也可以提供一些相关信息,我们称之为全局上下文。

图片

(图示:行动项示例,提供了句子编号、说话人信息,标注了行动项、局部上下文和全局上下文)

一方面,上下文对于行动项识别任务非常重要。另一方面,局部上下文和全局上下文中都有一些无关信息,这可能反而会对分类器的表现造成负面影响。

图片

(图示:上下文建模方法)

我们希望模型可以更专注于当前句子,可以更好地利用上下文中的有关信息提高模型表现,避免受到无关信息的负面影响。因此,我们提出了 Context-Drop 的方法,使得当前句子作为输入得到的预测概率分布,和当前句子与上下文作为输入得到的预测概率分布,两者之间的距离尽可能接近,通过 KL 散度来度量两者之间的距离。

我们提出了两种 Context-Drop 方法,一种是 Context-Drop (fixed) 方法,输入 1 是当前句子,输入 2 是当前句子和上下文信息。另一种是 Context-Drop (dynamic) 方法,对于输入 1 和输入 2,上下文中的所有句子,均有一定概率被保留,也有一定概率被舍弃。因此,Context-Drop (dynamic) 方法比较灵活。

此外,我们观察到,尽管标注过程中不同标注员之间的一致性很低,但是投票结果往往是靠谱的。因此,我们考虑 Model Ensemble 的方法。为了保持模型的推理速率,我们提出了 Lightweight Model Ensemble 方法,使用预训练模型 A 的对应参数初始化编码器参数,使用另一个预训练模型 B 的对应参数初始化 pooler 层参数,轻量级地整合不同预训练模型的知识。

实验分析

在英文 AMI 和中文 AMC-A 数据集上,我们进行了多个实验,验证 Context-Drop 和 Lightweight Model Ensemble 方法的表现。

图片

(图示:不同预训练模型及建模方式实验结果)

我们对比了多个预训练模型,以及不同的建模方式。发现 StructBERT 在口语任务上表现较好,这或许因为其 WSO 预训练任务,通过把打乱的 tri-gram 重构为正确顺序,StructBERT 模型对乱序表达的理解力得到改善,而这种乱序表达在口语里是比较常见的。

图片

(图示:不同上下文建模方式对比实验结果)

我们发现 sentence + local & global context 的设置,在中英文数据集上都比 sentence + local context 的表现要好。而且,sentence + local context 的设置,均比 sentence 的表现要好。这说明,上下文对于行动项识别任务确实很重要,而且全局上下文可以提供一些局部上下文所不具备的补充信息。

而且,我们可以看到 Context-Drop 比 baseline 的表现更好,而且鲁棒性也有所改善。这验证了我们的假设,Context-Drop 方法可以使得模型更关注于当前句子,利用上下文中的相关信息提升模型表现,并避免受到上下文中的无关信息的干扰。此外,我们发现 Context-Drop (dynamic) 方式通常是表现尚佳的,说明这种更加灵活的对比学习方式可以取得更好的效果。

通过消融实验,我们去掉了 KL 散度正则化的 loss,相当于仅做了数据增强,可以观察到表现的下降,反映了对比学习对于表现提升的重要性。

图片

(图示:Lightweight Model Ensemble 实验结果)

通过实验,可以看到,当模型从两个不同的预训练模型进行初始化时,这种 Lightweight Model Ensemble 的方式比传统方式取得了更好的表现。在不增加参数量和计算量的情况下,Lightweight Model Ensemble 方法可以轻量级地整合不同预训练模型的知识。

References:

[1]William Morgan, Pi-Chuan Chang, Surabhi Gupta, and Jason Brenier, “Automatically detecting action items in audio meeting recordings,” in Proceedings of the 7th SIGdial Workshop on Discourse and Dialogue, 2006, pp. 96–103.

[2]Matthew Purver, Patrick Ehlen, and John Niekrasz, “Detecting action items in multi-party meetings: Annotation and initial experiments,” in Machine Learning for Multimodal Interaction, Third International Workshop, MLMI 2006, Bethesda, MD, USA, May 1-4, 2006, Revised Selected Papers, Steve Renals, Samy Bengio, and Jonathan G. Fiscus, Eds. 2006, vol. 4299 of Lecture Notes in Computer Science, pp. 200–211, Springer.

[3]Matthew Purver, John Dowding, John Niekrasz, Patrick Ehlen, Sharareh Noorbaloochi, and Stanley Peters, “Detecting and summarizing action items in multi-party dialogue,” in Proceedings of the 8th SIGdial Workshop on Discourse and Dialogue, 2007, pp. 18–25.

[4]Kishan Sachdeva, Joshua Maynez, and Olivier Siohan, “Action item detection in meetings using pretrained transformers,” in 2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021, pp. 861–868.

[5]James Mullenbach, Yada Pruksachatkun, Sean Adler, Jennifer Seale, Jordan Swartz, Greg McKelvey, Hui Dai, Yi Yang, and David Sontag, “Clip: A dataset for extracting action items for physicians from hospital discharge notes,” in Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 2021, pp. 1365–1378.

[6]Fan Yu, Shiliang Zhang, Yihui Fu, Lei Xie, Siqi Zheng, Zhihao Du, Weilong Huang, Pengcheng Guo, Zhijie Yan, Bin Ma, et al., “M2met: The icassp 2022 multi-channel multi-party meeting transcription challenge,” in ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 6167–6171.

本期撰稿:刘嘉庆,邓憧,张庆林,陈谦,王雯

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/769719.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

酷炫无敌!10分钟学会制作3D园区大屏,职场新人也能秒变大神!

近年来随着大数据的飞速发展,各大行业都进行了一定的产业革新,智慧园区也逐渐进入企业视野并成为主流,不论大小企业,领导老板都要求员工制作出智慧园区的酷炫大屏,不顾及其中的技术难度,只想看到最终成果&a…

2023隐私计算大会亮点前瞻:《隐私计算应用 面向政务场景的应用要求》标准解读预告

7月26日,2023隐私计算大会将于青岛正式扬帆,本次大会将齐聚业内专家大咖共论行业最新进展,洞察未来发展趋势,共同推进隐私计算行业蓬勃发展。 本次大会将正式公开发布《隐私计算应用研究报告(2023)》、“隐…

J2EEJSP自定义标签库01out标签if标签

目录 一.什么是标签 二.JSP自定义标签库 2.1 JSP标签库是什么 2.2 处理流程 2.3 如何自定义标签 2.4 标签类型 三.开发示例 3.1 out标签 1.创建助手类 2.编写tld(标签库的描述)文件,(必须放在WEB-INF目录或其目录下&a…

LCD—STM32液晶显示(3.NOR FLASH时序结构体)

目录 LCD结构体配置 NOR FLASH时序结构体 FSMC的NOR FLASH初始化结构体 LCD结构体配置 NOR FLASH时序结构体 与控制SRAM时一样,控制FSMC使用NOR FLASH存储器时主要是配置时序寄存器以及控制寄存器,利用ST标准库的时序结构体以及初始化结构体可以很方便地…

第六章:string类

系列文章目录 文章目录 系列文章目录前言为什么学习string类C语言中的字符串ASCIIUnicode**UTF-8**UTF-16UTF-32 GBK 标准库中的string类string类总结 string类的常用接口说明1. string类对象的常见构造2. string类对象的容量操作3. string类对象的访问及遍历操作4. string类对…

亚马逊云科技十年出海经验,为中国企业提供跨越式发展

对于一座优秀的港口而言,不仅要求其所在的地理位置得天独厚以及拥有庞大的货运船舶吞吐量,能否为地区带来良好的发展生态,提供和创造新的就业机会也是重要的考量。对于很多中小企业而言,他们不具备大型企业的体量,在海…

vscode(Better Comments插件)在vue文件中不显示相对应的颜色

解决办法: 1、在.vscode文件下找到 aaron-bond.better-comments-3.0.2 (我的路径:C:\Users\cown\.vscode\extensions\aaron-bond.better-comments-3.0.2),后面版本不唯一,根据自身情况辨别 2、进入文件路…

HTTPS概念wireshark分析

目录 密钥&加密算法CA & 数字证书https流程连接流程springboot项目启动httpswireshark分析https流程 密钥&加密算法 密钥:通常是一个字符串或数字,进行加密/解密算法时使用。公钥和私钥都是密钥,只不过一般公钥是对外开放的&…

如何在 Endless OS 上安装 ONLYOFFICE 桌面编辑器

ONLYOFFICE 桌面编辑器是一款基于依据 AGPL v.3 许可进行分发的开源办公套件。使用这款应用,您无需保持网络连接状态即可处理存储在计算机上的文档。本指南会向您介绍,如何在 Endless OS 上安装 ONLYOFFICE 桌面编辑器。 ONLYOFFICE 桌面版是什么 ONLYO…

Sencha ExtJS v1.0.4 扩展不能“转到定义“的解决办法

VSCode 的 Sencha 扩展自动更新到了 1.0.4,去除激活提示的方法和以前一样。 但是有扩展bug,就是无法转到定义,打开 VSCode 的开发者工具,由一堆报错。 解决办法:要修改下文件 C:\Users\xxx\.vscode\extensions\sench…

谷歌黑客语法与漏洞寻找

谷歌黑客语法与漏洞寻找 一、常见的搜索引擎二、Google部分语法三、通配符四、FOFA五、Shodan六、例子:常见的后台地址 一、常见的搜索引擎 浏览器 浏览器是用来检索、展示以及传递Web信息资源的应用程序。 搜索引擎 所谓搜索引擎,就是根据用户需求与一…

惊艳!AI创意字体真绝了;6道AIGC高频面试题与解答;为啥语音助手还没集成LLM;深度学习算法红宝书 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 惊艳!手把手教你使用 Stable Diffusion 制作AI创意字体 最近AI创意字体刷爆了 ShowMeAI 社群!伙伴们纷纷惊叹这…

OJ练习第139题——模拟行走机器人

模拟行走机器人 力扣链接:874. 模拟行走机器人 题目描述 机器人在一个无限大小的 XY 网格平面上行走,从点 (0, 0) 处开始出发,面向北方。该机器人可以接收以下三种类型的命令 commands : -2 :向左转 90 度 -1 &…

Pytorch:搭建卷积神经网络完成MNIST分类任务

2023.7.18 MNIST百科: MNIST数据集简介与使用_bwqiang的博客-CSDN博客 数据集官网:MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges MNIST数据集获取并转换成图片格式: 数据集将按以图片和文件夹名为标签的…

青岛大学_王卓老师【数据结构与算法】Week05_13_队列的顺序表示和实现1_学习笔记

本文是个人学习笔记,素材来自青岛大学王卓老师的教学视频。 一方面用于学习记录与分享, 另一方面是想让更多的人看到这么好的《数据结构与算法》的学习视频。 如有侵权,请留言作删文处理。 课程视频链接: 数据结构与算法基础…

DeepSpeed系列篇1:零门槛上手DeepSpeed实战(服务器部署及训练过程详解SFT)

1、建立虚拟环境 conda create -n dsnew python3.10 2、安装pytorch conda install pytorch torchvision torchaudio pytorch-cuda11.7 -c pytorch -c nvidia 3、安装deepspeed pip install deepspeed 4、下载DeepSpeedExamples并安装依赖 https://github.com/microsof…

一文了解DDD分层架构演进

1.3 分层架构演进 1.3.1 传统四层架构 将领域模型和业务逻辑分离出来,并减少对基础设施、用户界面甚至应用层逻辑的依赖,因为它们不属业务逻辑。将一个夏杂的系统分为不同的层,每层都应该具有良好的内聚性,并且只依赖于比其自身更…

arduinoIDE2.1.1最新版升级开发板(esp32-2.0.3升级2.0.10)方法总结(esp8266升级通用)

一、arduinoIDE 升级最新版 2.1.1方法 1.1.通过IDE2.x直接升级(推荐,速度还可以) 1.2.官网下载安装包覆盖升级(地址https://www.arduino.cc/en/software) 1.3 ESP8266升级方法雷同可参考(原理一样,最新好像是3.1.2) https://github.com/esp8266/Arduino/releases http…

C++入门知识点

目录 命名空间 命名空间定义 命名空间使用 法一:加命名空间名称及作用域限定符:: 法二:使用using部分展开(授权)某个命名空间中的成员 法三:使用using对整个命名空间全部展开(授权…

Windows修改mysql服务的root密码

目录 步骤1、停止mysql服务2、使用命令行启动mysql服务,跳过密码验证3、密码置空4、关闭命令行启动的mysql服务并正常启动5、修改root密码 参考 步骤 1、停止mysql服务 以管理员身份打开终端,输入指令net stop mysql停止MySQL服务,停止服务…