【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

news2024/12/26 22:12:44

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation
作者: Jungeun Kim, Hyeongwoo Jeon, Jongseong Bae, Ha Young Kim
arXiv: https://arxiv.org/abs/2411.16789

基本信息

摘要

手语翻译(SLT)是一项具有挑战性的任务,涉及将手语图像翻译成口语。

为了使SLT模型成功完成这项任务,它们必须弥合模态差距,并识别手语组件的细微变化,以准确理解其含义。

为了解决这些挑战,我们提出了一种新颖的gloss-free SLT框架,称为Multimodal Sign Language Translation(MMSLT),该框架利用了现成多模态大型语言模型(MLLMs)的表征能力。

具体来说,我们使用MLLMs生成手语组件的详细文本描述。

然后,通过我们提出的多模态语言预训练模块,我们将这些描述特征与手语视频特征相结合,使它们在口语句子空间内对齐。

我们的方法在基准数据集PHOENIX14T和CSL-Daily上实现了最先进的性能,突显了MLLMs在SLT中有效利用的潜力。

Comparison of the proposed MMSLT with GFSLTVLP

主要贡献

  • 我们提出了一种gloss-free的SLT框架MMSLT,首次利用现成的MLLM。为了实现高效的推理而不需要使用MLLM,我们设计了一个描述映射模块。
  • 通过分析各种MLLM和提示,我们提出了GSD-MLLM模块,该模块可以从手语图像生成详细的SL描述。
  • 我们引入了MMLP模块,该模块有效地整合了两种模态,即SL描述和手语图像,并将它们与目标句子空间对齐以减少模态差距。
  • 我们通过广泛的实验证明了MMSLT的有效性,在两个基准数据集上实现了SOTA的gloss-free SLT性能。MMSLT显著提高了BLEU-4和ROUGE分数,表明在复杂句法和长上下文中翻译的有效性。

MLLMs and Prompts: Preliminary Analysis

Video-based MLLM vs Image-based MLLM

首先,我们通过评估其描述SL组件的能力来探讨基于视频和基于图像的MLLM在SLT中的潜力。

Comparison of SL descriptions based on the type of MLLM and prompt

如图2a所示,基于视频的MLLM,如Video-LLaMA和Video-LLaVA,在捕捉SL组件方面表现出有限的能力。相反,它们提供简单的总结,如“用手势”,或重复相同的内容,并包含与手语无关的一般性描述,如“穿着西装”或错误信息。

另一方面,基于图像的MLLM,如LLaVa-Next、InternVL、QwenVL2、Pixtral和LLaVA-OneVision,生成SL组件的详细描述,如“手指略微张开”或“眼睛专注并指向”。值得注意的是,如图2c所示,LLaVA-OneVision提供的描述仅关注SL组件,不包括无关信息。

在本实验中,由于生成SL描述的处理时间和资源限制,排除了大型模型,如LLaVA-OneVision 72B。

Prompt Engineering

为了有效地利用MLLM,选择合适的模型并制定明确的提示,以明确提取信息或为内容提供上下文清晰度至关重要。

为此,我们使用六个不同的提示进行推理,如图3所示。

List of prompts

这些提示可以分为简单(1、2)、详细(3、4)和情境(5、6)类型。

提示(1)、(2)和(4)引发的响应主要关注无关信息,如图2b所示,而提示(3)、(5)和(6)生成的响应则更集中于SL组件。

然而,提示(6)的响应包含不准确之处,而提示(5)的响应则更准确,并提供了更详细的信息。

尽管如此,它们往往重复使用示例句子,并在连续的帧中产生重复的答案。

相比之下,如图2c所示,提示(3)提供了SL组件的详细描述,例如手部形状、手势者的目光和嘴型,有效地传达了手势者的手势和面部表情的含义。

此外,它避免了引用与理解手语无关的外部信息,并成功捕捉了连续手势之间的细微差别。

方法

MMSLT overview

Generating SL Descriptions via MLLM

根据前面的分析,我们利用基于图像的MLLM和提示符 p p p 来生成第 i i i 个手语视频 S V i ∈ R T × H × W SV_i \in \mathbb{R}^{T \times H \times W} SViRT×H×W 的一系列SL描述 d i = { d i , t } t = 1 T d_i = \{d_{i,t}\}_{t=1}^T di={di,t}t=1T,如图4所示。在这个上下文中,手语视频的总数是 N N N,帧的高度和宽度分别是 H H H W W W。帧的总数是 T T T

然而,我们观察到MLLM在准确捕捉手语者面部表情方面存在局限性,经常产生唇形的碎片化描述,如“微笑”,或错误地将闭眼描述为“睁眼”。

这表明,尽管SL描述捕捉了SL组件,但它们有时是不准确的,缺乏细节。

Multimodal-Language Pre-training

为了促进两种模态之间的协同作用,我们将手语图像集成到SL描述中。

显然,手语视频和口语句子之间存在模态差距。

为了弥合这一差距,我们提出了MMLP,一个预训练模块,它有效地融合手语视频及其对应的SL描述,并学习将它们与口语句子对齐,如图4所示。

Description Mapper

首先,我们从第 j j j-个手语视频 S V j SV_j SVj 中提取视觉特征 V j ∈ R T × C V_j \in \mathbb{R}^{T \times C} VjRT×C,使用图像编码器 ψ v i s \psi_{vis} ψvis,这是一个在 ImageNet 上预训练的 ResNet18,其中 C C C 表示 V j V_j Vj 的维度。

同时,我们从每个帧 d j , t d_{j,t} dj,t 的 SL 描述中获得描述嵌入特征 D j , t ∈ R 1 × C ˉ D_{j,t} \in \mathbb{R}^{1 \times \bar{C}} Dj,tR1×Cˉ,使用描述编码器 ψ d e \psi_{de} ψde,这是一个预训练的、冻结的 12 层 BERT。

在此上下文中,我们将 [CLS] token的嵌入特征定义为 D j , t D_{j,t} Dj,t,编码句子级信息,其中 C ˉ \bar{C} Cˉ 表示 D j , t D_{j,t} Dj,t 的维度。这些描述嵌入特征共同形成描述特征 D j = { D j , t } t = 1 T D_j = \{D_{j,t}\}_{t=1}^T Dj={Dj,t}t=1T

然而,如果直接利用 D j D_j Dj 来整合手语视频和 SL 描述,通过 MLLM 生成 SL 描述在推理过程中变得必要。这导致计算成本增加和推理时间延长。

为了解决这个问题,我们提出了一种描述映射器 ψ d m \psi_{dm} ψdm,其特征是一个简单的两层 MLP 结构,用于从 V j V_j Vj 预测 D j D_j Dj

这也有助于弥合输入数据源之间的模态差距,并允许我们获得近似描述特征 D ^ j \hat{D}_j D^j

D ^ j = ψ d m ( V j ) , V j = ψ v i s ( S V j ) \hat{D}_j = \psi_{dm}(V_j), \quad V_j = \psi_{vis}(SV_j) D^j=ψdm(Vj),Vj=ψvis(SVj)

为了最小化 (\hat{D}_j) 和 (D_j),我们定义损失函数如下:

L D M = 1 B 1 T ∑ j = 1 B ∑ t = 1 T ∥ D ^ j , t − D j , t ∥ 2 2 \mathcal{L}_{\mathrm{DM}} = \frac{1}{B} \frac{1}{T} \sum_{j=1}^{B} \sum_{t=1}^{T} \left\| \hat{D}_{j,t} - D_{j,t} \right\|_2^2 LDM=B1T1j=1Bt=1T D^j,tDj,t 22

Modality Adapter

为了结合视觉特征和近似的SL描述特征,我们提出了一种Modality Adapter ψ m a \psi_{ma} ψma,它由一个一维卷积层、一个最大池化层和一个两层的MLP组成。

由于手语通常由多个帧组成,且 V j V_j Vj D ^ j \hat{D}_j D^j 是从连续的手语帧中得出的,我们采用了一维卷积进行时间建模。

此外,MLP层用于整合来自两种模态的信息。

捕获到的 V j V_j Vj D ^ j \hat{D}_j D^j 被连接起来,然后输入到Modality Adapter中,从而提取出手势元素特征 S E j ∈ R T ′ × C ′ SE_j \in \mathbb{R}^{T' \times C'} SEjRT×C,其中 T ′ T' T 是减少的序列长度, C ′ C' C 是嵌入维度。这一过程可以表示如下:

S E j = ψ m a ( V j ⊕ D ^ j ) SE_j = \psi_{ma}(V_j \oplus \hat{D}_j) SEj=ψma(VjD^j)

其中 ⊕ \oplus 表示连接操作。

Multimodal Encoder with LoRA

为了提取 S E i SE_i SEi 的表示,我们引入了一个Multimodal Encoder ψ e n c \psi_{enc} ψenc

为此,我们利用了mBART编码器,它由12层组成,并使用在大规模语料库上预训练的参数进行初始化。

为了在保留预训练知识的同时,便于适应手语数据集,我们应用了LoRA技术,该技术通过向LLM的权重矩阵中添加低秩矩阵来实现参数高效的微调。

所得输出称为多模态视觉-文本特征(多模态特征),表示为 M j ∈ R T ′ × C ′ M_j \in \mathbb{R}^{T' \times C'} MjRT×C,可以表示如下:

M j = ψ e n c ( S E j ) M_j = \psi_{enc}(SE_j) Mj=ψenc(SEj)

Multimodal-Language Alignment

M j M_j Mj 包含了视觉和文本信息,然而其与目标口语句子之间仍然存在模态差距。

为了解决这一挑战并将 M j M_j Mj 与目标口语句子对齐,我们提出了一种多模态语言对齐方法。

S L j SL_j SLj 为与 S V j SV_j SVj 对应的目标口语句子。

我们使用文本编码器 ψ t e \psi_{te} ψte S L j SL_j SLj 嵌入到文本特征 L j ∈ R T ˉ × C ′ L_j \in \mathbb{R}^{\bar{T} \times C'} LjRTˉ×C 中,其中 T ˉ \bar{T} Tˉ 表示口语句子中的token数量,使用一个冻结的12层mBART编码器,该编码器在大规模语料库上进行了预训练,类似于 ψ e n c \psi_{enc} ψenc

由于我们的目标是对齐 { M j , L j } j = 1 B \{M_j, L_j\}_{j=1}^B {Mj,Lj}j=1B,我们应用对比学习。

具体来说,我们在帧序列 T ′ T' T 和token序列 T ˉ \bar{T} Tˉ 上执行平均池化,以获得全局多模态特征 M ~ j ∈ R C ′ \tilde{M}_j \in \mathbb{R}^{C'} M~jRC 和全局口语句子特征 L ~ j ∈ R C ′ \tilde{L}_j \in \mathbb{R}^{C'} L~jRC

最后,我们使用损失函数对齐对 { M ~ j , L ~ j } j = 1 N \{\tilde{M}_j, \tilde{L}_j\}_{j=1}^N {M~j,L~j}j=1N,如下所示:

L ALIGN = − 1 2 B ( ∑ j = 1 B log ⁡ exp ⁡ ( s i m ( M ~ j , L ~ j ) / τ ) ∑ k = 1 B exp ⁡ ( s i m ( M ~ j , L ~ k ) / τ ) + ∑ j = 1 B log ⁡ exp ⁡ ( s i m ( L ~ j , M ~ j ) / τ ) ∑ k = 1 B exp ⁡ ( s i m ( L ~ j , M ~ k ) / τ ) ) \begin{aligned} \mathcal{L}_{\text{ALIGN}} = &-\frac{1}{2B} (\sum_{j=1}^B \log \frac{\exp(sim(\tilde{M}_j, \tilde{L}_j) / \tau)}{\sum_{k=1}^B \exp(sim(\tilde{M}_j, \tilde{L}_k) / \tau)} \\ &+ \sum_{j=1}^B \log \frac{\exp(sim(\tilde{L}_j, \tilde{M}_j) / \tau)}{\sum_{k=1}^B \exp(sim(\tilde{L}_j, \tilde{M}_k) / \tau)}) \end{aligned} LALIGN=2B1(j=1Blogk=1Bexp(sim(M~j,L~k)/τ)exp(sim(M~j,L~j)/τ)+j=1Blogk=1Bexp(sim(L~j,M~k)/τ)exp(sim(L~j,M~j)/τ))

其中 s i m ( x , y ) sim(x, y) sim(x,y) 表示 x x x y y y 之间的余弦相似度, τ \tau τ 是一个可学习的温度参数。

因此,我们在 MMLP 中定义最终的损失函数如下:

L MMLP = L ALIGN + λ L DM \mathcal{L}_{\text{MMLP}} = \mathcal{L}_{\text{ALIGN}} + \lambda \mathcal{L}_{\text{DM}} LMMLP=LALIGN+λLDM

其中 λ \lambda λ 是一个超参数,用于控制 L ALIGN \mathcal{L}_{\text{ALIGN}} LALIGN L DM \mathcal{L}_{\text{DM}} LDM 的权重。

Sign Language Translation

为了执行端到端的gloss-free SLT,我们首先继承了MMLP中的预训练网络。

在这种情况下,描述编码器 ψ d e \psi_{de} ψde 不被使用,描述映射器 ψ d m \psi_{dm} ψdm 保持冻结,因为它仅用于预测SL描述。

因此,我们微调视觉编码器 ψ v i s \psi_{vis} ψvis、模态适配器 ψ m a \psi_{ma} ψma 和多模态编码器 ψ e n c \psi_{enc} ψenc

给定手语视频 S V i SV_i SVi,我们提取多模态特征 M ~ i \tilde{M}_i M~i

随后,初始化的LLM解码器 ψ d e c \psi_{dec} ψdec,其结构为12层的mBART解码器,将多模态特征 M ~ i \tilde{M}_i M~i 作为输入,生成预测的口语句子 S L ^ i = ( S L ^ i , 1 , … , S L ^ i , T ˉ ) \hat{SL}_i = (\hat{SL}_{i,1}, \ldots, \hat{SL}_{i,\bar{T}}) SL^i=(SL^i,1,,SL^i,Tˉ)

在此过程中,(\psi_{dec}) 采用自回归方法,从特殊起始token <BOS> 开始翻译,并依次生成单词,直到序列结束token <EOS> 标记句子生成的结束。

我们训练模型以最小化预测 token S L ^ i , j \hat{SL}_{i,j} SL^i,j 与真实 token S L i , j SL_{i,j} SLi,j 之间的交叉熵损失,定义如下:

L S L T = − ∑ j = 1 T ˉ log ⁡ p ( S L ^ i , j ∣ S L i , 1 : j − 1 , S V i ) \mathcal{L}_{SLT} = -\sum_{j=1}^{\bar{T}} \log p(\hat{SL}_{i,j} | SL_{i,1:j-1}, SV_i) LSLT=j=1Tˉlogp(SL^i,jSLi,1:j1,SVi)

实验

主实验

Experimental results on PHOENIX14T dataset

Experimental results on CSL-Daily dataset

消融实验

Ablation study on key elements in MMSLT

Performance comparison using various MLLMs

Performance comparison based on various prompts

Ablation study on ψde

总结

在这项研究中,我们提出了MMSLT,这是一种gloss-free的SLT框架,首次利用了现成的MLLM。

我们利用MLLM通过精心设计的提示生成SL描述,将它们与手语图像结合以有效地表示手语。

我们引入了一个预训练模块,以将融合的模态与口语句子对齐,解决SLT中的模态差距。

此外,我们还提出了一种描述映射器,通过近似SL描述来减少MLLM在推理过程中的计算负担。

这项研究为在SLT中使用MLLM奠定了基础,并为该领域的未来探索开辟了新的途径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2252985.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TsingtaoAI具身智能高校实训方案通过华为昇腾技术认证

日前&#xff0c;TsingtaoAI推出的“具身智能高校实训解决方案-从AI大模型机器人到通用具身智能”基于华为技术有限公司AI框架昇思MindSpore&#xff0c;完成并通过昇腾相互兼容性技术认证。 TsingtaoAI&华为昇腾联合解决方案 本项目“具身智能高校实训解决方案”以实现高…

如何抓取亚马逊页面动态加载的内容:Python爬虫实践指南

引言 在现代电商领域&#xff0c;数据的重要性不言而喻。亚马逊作为全球领先的电商平台&#xff0c;其页面上动态加载的内容包含了丰富的商品信息。然而&#xff0c;传统的爬虫技术往往难以应对JavaScript动态加载的内容。本文将详细介绍如何使用Python结合Selenium工具来抓取…

tcpdump抓包wireshark分析

背景 分析特定协议的数据包&#xff0c;如 HTTP、DNS、TCP、UDP 等&#xff0c;诊断网络问题&#xff0c;例如连接故障、延迟和数据包丢失。 大概过程 1.安装tcpdump yum update yum install tcpdump2.抓包&#xff0c;从当前时间起&#xff0c;一小时后停止&#xff0c…

如何进行Appium实现移动端UI自动化测试呢?

&#x1f345; 点击文末小卡片 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 Appium是一个开源跨平台移动应用自动化测试框架。 既然只是想学习下Appium如何入门&#xff0c;那么我们就直奔主题。文章结构如下&#xff1a; 为什么要使用…

骨架行为识别-论文复现

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&am…

Unity 设计模式-观察者模式(Observer Pattern)详解

观察者模式 观察者模式&#xff08;Observer Pattern&#xff09;是一种行为型设计模式&#xff0c;它定义了对象之间的一对多依赖关系。当一个对象的状态发生变化时&#xff0c;它的所有依赖者&#xff08;观察者&#xff09;都会收到通知并自动更新。这种模式用于事件处理系…

【webApp之h5端实战】首页评分组件的原生实现

关于评分组件,我们经常在现代前端框架中用到,UI美观效果丰富,使用体验是非常不错的。现在自己动手使用原生js封装下评分组件,可以用在自己的项目中。 组件实现原理 点击的❤左侧包括自己都是高亮的样式,右侧都是灰色的样式,这样就能把组件的状态区分开了。右边再加上辅…

unity与android拓展

一.AndroidStudio打包 1.通过Unity导出Android Studio能够打开的工程 步骤 1.设置导出基本信息&#xff1a;公司名、游戏名、图标、包名等关键信息 2.在File——>Build Settings中&#xff0c;勾选 Export Project 选项 3.点击Export 导出按钮 2.在Android Studio中打开Un…

几种常见的javascript设计模式

摘要 最近开发HarmonyOSApp&#xff0c;使用的Arkts语言&#xff0c;此语言类似后端C#语言风格&#xff0c;同时兼顾写后端接口的我突然想总结一下近8年前端开发中无意中使用的设计模式&#xff0c;我们用到了却不知属于哪些&#xff0c;下面和大家分享一下。 什么是前端设计…

2.4特征预处理(机器学习)

2.4特征预处理 2.4.1 什么是特征预处理 通过 一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。 1 包含内容 数值型数据的无量纲化&#xff1a; 归一化 标准化 2 特征预处理API sklearn.preprocessing 为什么要进行归一化/标准化&#xff1f; 特征的单…

学习笔记052——Spring Boot 自定义 Starter

文章目录 Spring Boot 自定义 Starter1、自定义一个要装载的项目2、创建属性读取类 ServiceProperties3、创建 Service4、创建自动配置类 AutoConfigration5、创建 spring 工程文件6、将项目打成 jar 包7、jar 打包到本地仓库8、配置application.yml Spring Boot 自定义 Starte…

重学设计模式-建造者模式

本文介绍一下建造者模式&#xff0c;相对于工厂模式来说&#xff0c;建造者模式更为简单&#xff0c;且用的更少 定义 建造者模式是一种创建型设计模式&#xff0c;它使用多个简单的对象一步一步构建成一个复杂的对象。这种模式的主要目的是将一个复杂对象的构建过程与其表示…

复现SMPLify-X: Ubuntu22.04, Cuda-11.3, GPU=3090Ti

Env: 3090Ti CUDA 最低支持版本需要>cuda-11.1 Ubuntu 22.04 Installation: Installing CUDA11.3 wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run sudo sh cuda_11.3.0_465.19.01_linux.run …

Milvus×OPPO:如何构建更懂你的大模型助手

01. 背景 AI业务快速增长下传统关系型数据库无法满足需求。 2024年恰逢OPPO品牌20周年&#xff0c;OPPO也宣布正式进入AI手机的时代。超千万用户开始通过例如通话摘要、新小布助手、小布照相馆等搭载在OPPO手机上的应用体验AI能力。 与传统的应用不同的是&#xff0c;在AI驱动的…

JAVA |日常开发中读写XML详解

JAVA &#xff5c;日常开发中读写XML详解 前言一、XML 简介二、在 Java 中读取 XML2.1 使用 DOM&#xff08;Document Object Model&#xff09;方式读取 XML2.2 使用 SAX&#xff08;Simple API for XML&#xff09;方式读取 XML 三、在 Java 中写入 XML3.1 使用 DOM 方式写入…

GEOBench-VLM:专为地理空间任务设计的视觉-语言模型基准测试数据集

2024-11-29 ,由穆罕默德本扎耶德人工智能大学等机构创建了GEOBench-VLM数据集&#xff0c;目的评估视觉-语言模型&#xff08;VLM&#xff09;在地理空间任务中的表现。该数据集的推出填补了现有基准测试在地理空间应用中的空白&#xff0c;提供了超过10,000个经过人工验证的指…

南昌榉之乡托养机构解读:自闭症与看电视并无必然联系

在探讨自闭症的成因时&#xff0c;有人会问&#xff1a;自闭症是多看电视引起的吗&#xff1f;今天&#xff0c;就让我们来看看南昌榉之乡托养机构对此有何见解。 榉之乡大龄自闭症托养机构在江苏、广东、江西等地都有分校&#xff0c;一直致力于为大龄自闭症患者提供专业的支持…

LabVIEW MathScript工具包对运行速度的影响及优化方法

LabVIEW 的 MathScript 工具包 在运行时可能会影响程序的运行速度&#xff0c;主要是由于以下几个原因&#xff1a; 1. 解释型语言执行方式 MathScript 使用的是类似于 MATLAB 的解释型语言&#xff0c;这意味着它不像编译型语言&#xff08;如 C、C 或 LabVIEW 本身的 VI&…

基于eFramework车控车设中间件介绍

车设的发展&#xff0c;起源于汽车工业萌芽之初&#xff0c;经历了机械式操作的原始粗犷&#xff0c;到电子式调控技术的巨大飞跃&#xff0c;到如今智能化座舱普及&#xff0c;远程车控已然成为汽车标配&#xff0c;车设功能选项也呈现出爆发式增长&#xff0c;渐趋多元繁杂。…

使用 AWR 进行 Exadata 性能诊断 - 2018版

本文和之前的使用 AWR 进行 Exadata 性能诊断是非常类似的&#xff0c;理论部分几乎一样&#xff0c;但案例部分是不同的&#xff0c;其价值也在于此。前文是基于Exadata X10&#xff0c;本文是基于Exadata X5。当然&#xff0c;型号并不重要&#xff0c;重要的是分析过程。 本…