MER 2024 第二届多模态情感识别挑战赛

news2025/4/25 23:53:46

多模态情感识别是人工智能领域的一个活跃研究课题。它的主要目标是整合多种模态来识别人类的情绪状态。当前的工作通常为基准数据集假设准确的情感标签，并专注于开发更有效的架构。然而，现有技术难以满足实际应用的需求。

清华大学陶建华教授联合中国科学院自动化研究所连政，帝国理工学院Björn W. Schuller，奥卢大学赵国英，南洋理工大学Erik Cambria联合在IJCAI2024上举办多模态情感识别挑战赛MER24，并在ACM MM2024上组织多模态与可靠性情感计算研讨会MRAC24。这两项活动旨在联合情感计算领域的研究人员，深入探讨最新研究进展和未来发展方向，促进这项技术在真实场景中的落地应用。

去年MER2023，专注于三个主题：多标签学习、噪声鲁棒性和半监督学习。今年MER2024除了扩大数据集的大小，引入了一个新的开放式词汇情绪识别赛道MER-OV。这个赛道的主要考虑是现有数据集通常固定标签空间，并使用多数投票来增强注释者的一致性，但这个过程可能限制了模型描述微妙情绪的能力。在这个赛道中，我们鼓励参与者生成任意数量的标签，在任何类别中，目标是尽可能准确地描述情绪状态。

1、三个赛道

1.1 MER-SEMI（半监督学习赛道）

目标：这个赛道的目标是探索和改进半监督学习策略，以便更好地利用未标记数据来提高情绪识别的性能。

挑战：在实际应用中，获取大量带有情绪标签的数据是困难且成本高昂的。半监督学习是一种减少对标记数据依赖的方法。

方法：参与者被鼓励使用未标记数据以及有限的标记数据来训练他们的模型，并探索有效的半监督学习技术。

评估：评估主要基于模型在未标记数据集上的表现，以及其泛化能力。

样本：包含1169个已标注样本和115595个未标注样本。

1.2 MER-NOISE（噪声鲁棒性赛道）

目标：这个赛道旨在提高情绪识别系统对于噪声的鲁棒性，特别是在音频和视觉数据中常见的噪声类型。

挑战：真实世界的数据往往伴随着各种噪声，如背景噪音和图像模糊，这些噪声可能会影响情绪识别的准确性。

方法：参与者需要开发能够抵御或减少噪声影响的模型，可能涉及数据增强、降噪技术或其他创新方法。

评估：评估将基于模型在含有噪声的数据集上的表现，特别是音频加性噪声和图像模糊噪声。

样本：包含1170个已标注样本和115595个未标注样本。

1.3 MER-OV（开放式词汇情绪识别赛道）

目标：这个赛道的目的是推动情绪识别技术的发展，使其能够识别和描述更细微、更开放的情绪状态，而不仅仅局限于预定义的离散情绪类别。

挑战：传统的情绪识别数据集通常限制在少数几个情绪标签上，这限制了模型识别更丰富情绪状态的能力。

方法：参与者被鼓励生成任意数量的标签，尝试以最准确的方式描述情绪状态。这可能涉及使用大型语言模型（LLMs）或其他先进的自然语言处理技术。

评估：评估将基于模型生成的标签的准确性和多样性，以及其对情绪状态的描述能力。

样本：332个开放式情感标注样本

2、挑战数据集

2.1 MER2023数据集

包含4个子集：Train&Val、MER-MULTI、MER-NOISE和MER-SEMI
Train&Val包含大量已标注的样本
MER-MULTI和MER-NOISE包含噪声样本
MER-SEMI包含大量未标注的样本

2.2 MER2024数据集

MER2024是MER2023的扩展版本，通过以下方式进行了扩展：

将MER2023中的所有已标注样本合并到Train&Val，使其样本量更大；
收集更多未标注样本，构建了MER-SEMI和MER-NOISE两个子集；
从Train&Val中选取332个样本进行开放式情感标注，构建了MER-OV子集；
MER-SEMI包含1169个已标注样本，同时包含115595个未标注样本；
MER-NOISE包含1170个已标注样本，同时包含115595个未标注样本；
MER-OV包含332个开放式情感标注样本。

要下载数据集，参与者需要填写最终用户许可协议（EULA）。它要求参与者仅将此数据集用于学术研究，不得编辑或上传到互联网。对于 MER-SEMI 和 MER-NOISE，每个团队需要提交 6 个候选标签（即担忧、快乐、中性、愤怒、惊讶和悲伤）中最有可能的离散标签。对于 MER-OV，每个团队可以提交任何类别中的任意数量的标签。同时要求参与者不能为 MER-OV 使用闭源模型（例如 GPT ）。

3、评估指标

针对不同的赛道，制定了相应的评估指标来衡量参与者模型的性能。以下是对各个赛道评估指标的详细介绍：

3.1 MER-SEMI 和 MER-NOISE 评估指标

对于这两个赛道，主要使用了两个广泛用于情绪识别的评估指标：

准确率（Accuracy）：这是最直观的性能指标，表示模型正确预测情绪类别的比例。对于多标签情绪识别，准确率可能需要针对每个标签分别计算，然后取平均值。

加权平均 F 分数（Weighted Average F-score, WAF）：考虑到情绪类别可能存在不平衡的情况，加权平均 F 分数是一种更为公平的评估指标。它结合了精度（Precision）和召回率（Recall），并根据每个类别的支持数量进行加权，以确保所有类别在评估中具有相同的重要性。

3.2 MER-OV 评估指标

对于开放式词汇情绪识别赛道，由于标签空间是开放的，传统的分类指标（如准确率和召回率）不再适用。因此，定义了以下集级别（set-level）的评估指标：

集级别准确率（Set-Level Accuracy）：这个指标衡量的是预测情绪标签集合与真实标签集合之间的匹配程度。具体来说，它计算两个集合交集的大小与预测集合大小的比例。

集级别召回率（Set-Level Recall）：与集级别准确率相对应，集级别召回率衡量的是预测集合与真实标签集合交集的大小与真实标签集合大小的比例。

平均值（Avg）：为了最终排名，MER-OV 赛道选择集级别准确率和集级别召回率的平均值作为最终的评估指标。

计算公式为：

4、关键日期

2024.4.30	MER24数据及基线开放
2024.6.30	MER24结果提交开放
2024.7.10	MER24结果提交截止
2024.7.19	MRAC24论文提交截止
2024.8.5	MRAC24论文接收通知