论文笔记：基于LLM和多轮学习的漫画零样本角色识别与说话人预测

整理了ACM MM2024 Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion）论文的阅读笔记

背景
模型
- 框架
- 实现细节
模型
- 数据集
- 实验
- 可视化
- 消融实验

背景

最近读到一篇新文章，主要是做漫画中的零样本角色识别，问题和方法都很有趣，特地来写一篇笔记分享。
角色是漫画故事的核心，在漫画中识别角色和预测对话的说话人至关重要，这可以使我们实现很多应用程序，比如利用角色特定的声音来为漫画配音。
以往漫画中说话人预测的研究主要解决图像中人物区域和语音气泡区域的对应关系，但无法确定说话人的名字。如果我们想知道说话者的角色名称，我们首先需要通过特定地角色分类器识别角色区域的角色名称，但是这种方法需要对每个漫画进行注释，这是不可行的，因为每年都会有上千部漫画被发布。
本文提出了一项新问题，如何在zero-shot的情形下进行角色名称识别？这是以往的工作没有考虑过的，通过引入大语言模型和多模态迭代训练框架，本文的方法可以在仅基于未注释的漫画图像来识别角色并预测说话人的名字。这种方法不需要注释，可以在任何漫画系列上原样使用。
在这里插入图片描述

模型

框架

下图是本文提出框架的概览。模型的输入只有漫画的图像集合 $I$ ，我们首先对图像进行预处理，通过一般漫画字符和文本类别的对象检测器获得角色区域 $C$ 和文本区域 $D$ ，然后使用SGG模型（一个之前的用于匹配人物区域和语音气泡区域的对应关系的模型）从 $I, C, D$ 中生成初始关系 $R$ 。
在这里插入图片描述

$R$ 表示字符区域和文本区域之间的对应关系。 $r_{ij}$ 表示第 $i$ 个角色说了第 $j$ 个气泡区域的置信度。此外，本文通过OCR获取了气泡中的文本，并将其提供给LLM分析，从而获得角色列表 $N$ ，这一步是本文的创新之处，通过这种方式，我们可以获取漫画中的角色名称而不需要任何注释。
这里的逻辑是这样，在没有先验知识的情况下，人类如何识别新漫画中的说话人?这个过程通常从注意对话中的角色名字开始。例如，如果一个角色叫另一个角色“火影忍者”，我们就会把对对话的回应与火影忍者联系起来。然后我们将角色的视觉外观与他的对话连接起来，当火影忍者在接下来的几页中再次出现时，即使在对话中没有提到他的名字，我们仍然可以知道这个名叫火影忍者的角色。
在框架中，说话人预测和特征识别是迭代进行的，每个任务的输出作为另一个任务的输入，主要由三个模块组成：

说话人预测，目的是通过LLM预测文本区域的标签，也就是该气泡区域属于哪个说话人，这里的标签并不是某个图像区域，而是一个确定的角色名称，第一次预测只使用文本内容，在后面的步骤中，会使用角色识别获得的标签，表示为： $F:(T,N,y_{pseudo})\rightarrow y$
标签传播，目的是获得图像区域的标签，也就是某图像区域的角色名称，使用关系分数在角色和文本区域之间转换标签，这个过程是双向的，表示为： $H_{t\rightarrow c}:(R,y)\rightarrow X$ $H_{c\rightarrow t}:(R,X)\rightarrow y$
角色识别，目的是识别每个角色姓名所对应的角色区域，使用图像信息和由上一步得到的伪标签 $X_{pseudo}$ 来训练出一个角色分类器。预测角色区域 $X$ 的标签，表示为： $G:(C,X_{pseudo})\rightarrow X$ 此外，关系分数在迭代的过程中也会被更新，因为生成最初的关系分数时没有考虑角色区域的标签，通过考虑角色标签可以获得更准确的关系分数。
关系分数更新的原则是，如果 $x_i$ 等于 $y_i$ ，也就是说气泡所对应的说话人和角色区域对应的伪标签是相同的， $r_{ij}$ 乘以 $s$ ，反之 $r_{ij}$ 除以 $s$ ， $s$ 由 $x_i$ 和 $y_i$ 的置信度获得，最小值是1。通过这种方式，被预测具有相同角色标签的配对会获得更高的关系分数。

实现细节

在这里插入图片描述

说话人识别的细节如左图所示，首先使用llm从 $T$ 和 $N$ 中提取关于故事摘要和人物概况的上下文信息。然后将此上下文与每个气泡内容一起馈送到llm中，为了获得稳定的输出，我们让llm同时输出字符 $i d$ 和角色名称，这些输出的字符id被转换成标签。此外，我们让llm输出从1到5的整数置信度分数。
标签传播和角色识别的过程如右图所示，给定初始说话人预测结果 $Y$ ，根据关系进行标签传播获取角色区域的伪标签，然后使用伪标签训练一个角色分类器，通过角色分类器为未知标签的角色区域生成标签。
在多轮迭代的过程中，随着 $Y$ 越来越接近真实的文本标签，生成的伪标签也将越来越接近真实。相应的，字符分类器的训练数据也越来越可靠，识别精度也越来越高。

模型

数据集

本文的实验所选择的数据集是Manga109数据集，包含109卷日本漫画，并为角色和文本区域提供角色标签。选择其中23卷作为测试集。剩余的卷用于关系检测模块的训练和验证以及角色分类器的预训练。
需要注意的是，在主评价中，作者省略了数据预处理中获取C、D、T和N的步骤。而是利用Manga109的注释将它们视为已知信息。

实验

在这里插入图片描述表中，text和img列表示每种方法使用的模式。Iter是迭代次数，初始阶段是迭代0，在此阶段，说话人预测仅通过llm使用文本信息进行。本文根据关系预测的难易程度将测试集分为Easy和Hard两类，total是全部。Easy包含11卷，关系预测精度超过75%。其余12卷被归类为Hard。
如表1 (a)所示，本文的方法在说话人预测和角色识别方面都比单模态方法的准确性有了显著提高。尽管角色识别的准确率低于50%，但本文的方法是第一个识别未见漫画中角色标签的方法。
在迭代3中，虽然Easy数据的准确性继续提高，但Hard和Total数据的准确性略有下降。这表明，从进一步的迭代中获得的关系检测的精度增益是有限的。为了进一步研究这一点，作者使用表1 (b)中的基础真值关系进行了分析，其中说话人预测和角色识别的精度都随着进一步的迭代而不断提高。这些结果表明，在准确预测文本和角色区域之间关系的情况下，迭代过程更有效。

可视化

在这里插入图片描述
图5中，左图是单模态和多模态方法的对比，单模态方法无法实现zero-shot角色识别，当仅使用LLM时，不会执行角色识别。右图显示了每次迭代的结果。随着迭代次数的增加，角色识别和说话人预测任务的准确率都有明显的提高趋势。尽管第一次迭代没有产生正确的预测，但到第三次迭代时，准确性已经显著提高。
在这里插入图片描述
图6显示了每个漫画的说话人预测的准确性。三个条形图分别表示迭代0、迭代1和迭代2的准确性。迭代提高了大多数漫画的准确率，表明了迭代方法在不同漫画上的有效性。
但是，不同漫画的性能差异很大，范围从0.2到0.8。更多的迭代并不一定导致更高的精度。这是因为如果关系预测或角色识别的准确性较低，候选对象可以在说话人预测中引入噪声。图7显示了一个示例。在迭代1中，llm正确地预测了说话者(角色A)。然而，由于说话者与文本之间的距离，角色A获得了较低的关系得分。相比之下，角色B更亲近，关系得分更高，被错误地认为是高自信的候选人。这在迭代2中导致了不正确的预测，这解释了图6和表1中迭代的准确性降低的原因。

消融实验

在这里插入图片描述
表2和3显示了伪标签和说话人候选人的质量及其对说话人预测和角色识别任务准确性的影响。比较了三种关系得分。第二和第三列是伪标签的精度和召回率。第四列中列出的精度是小于阈值的伪标签的精度。第五列是最终准确度。我们可以观察到，从伪标签的准确度(第4列)到最终准确度(第5列)的解释了迭代过程的有效性。结果表明，在每个模块中使用不同的模态信息对前一步得到的结果进行了细化。通过对比关系分数，我们可以看到，通过更好的关系预测来提高伪标签的质量，结果会更好。
表4显示了在说话人预测的过程中使用不同的LLM提示的效果，(1)ctx:关于人物和故事的上下文信息，(2)cand:说话人候选人，(3)prob:候选人的概率。
表5展示了框架中的关系评分对关系预测和说话人预测的影响。对于每个文本区域，选择对应的关系得分最高的角色区域。然后，通过将正确匹配的区域数除以文本区域总数来计算准确率。我们的评分方法准确率达到79.8%，优于以往的方法。与之前不考虑角色标签的工作相比，该框架可以通过预测图像和文本的角色标签来更好地预测关系。
表6展示了完全zeroshot情形下的实验结果，而不是直接使用注释，由于对象检测、OCR和字符名称提取中的错误，这个结果极大地低于表1所示的结果。