【论文笔记】MLSLT: Towards Multilingual Sign Language Translation

news2024/12/27 11:07:16

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: MLSLT: Towards Multilingual Sign Language Translation
作者: Aoxiong Yin, Zhou Zhao, Weike Jin, Meng Zhang, Xingshan Zeng, Xiaofei He
发表: CVPR 2022
主页: https://mlslt.github.io/

基本信息

摘要

截至目前,大部分研究集中在双语手语翻译(BSLT)。然而,此类模型在构建多语言手语翻译系统中效率低下。

为了解决这个问题,我们引入了多语言手语翻译(MSLT)任务。该任务旨在使用单个模型完成多种手语和口语之间的翻译。

随后,我们提出了MSLT的第一个模型——MLSLT,它包含两种新颖的动态路由机制,用于控制不同语言之间参数共享的程度。层内语言特定路由通过层内的软门控制从标记级别通过共享参数和语言特定参数的数据流动比例,层间语言特定路由通过层间的软门控制和学习不同语言在语言层面的数据流动路径。

为了评估MSLT的性能,我们收集了第一个公开的多语言手语理解数据集——Spreadthesign-Ten(SP-10),该数据集包含多达100个语言对,例如,CSL→en,GSG→zh。实验结果表明,MSLT的平均性能在很多情况下优于基线MSLT模型和多个BSLT模型的组合。

此外,我们还探索了手语的零样本翻译,并发现我们的模型在某些语言对上可以达到与监督BSLT模型相当的性能。数据集和更多详细信息请访问https://mlslt.github.io/。

主要贡献

  • 我们贡献了一个大规模的多语言手语理解数据集,适用于多种任务,如多语言手语翻译、多语言文本到视频手语生成和多语言视频到视频手语翻译。
  • 我们是第一个探索MSLT问题的人,并提出了一种基于动态神经网络的MSLT框架,即MLSLT。我们使用了两种新颖的动态路由机制来控制不同手语之间的参数共享。
  • 广泛的实验结果表明,我们提出的单模型在参数使用较少的情况下,性能优于MSLT基线模型和多个BSLT模型。一系列新的基线结果可以指导该领域的未来研究。

一个示例,用以说明MSLT模型在构建多语种手语翻译系统方面相对于BSLT模型的优越性

一个示例,用以说明MSLT模型在构建多语种手语翻译系统方面相对于BSLT模型的优越性。

方法

模型框架

模型框架

  • Sign Embedding: EfficientNet
  • Word Embedding: MultiBPEmb

Embedding

f t = C N N ( N t ) ( W 1 ) + b 1 f_t = CNN(N_t)(W_1) + b_1 ft=CNN(Nt)(W1)+b1

w m = E m b ( y m ) ( W 2 ) + b 2 w_m = Emb(y_m)(W_2) + b_2 wm=Emb(ym)(W2)+b2

IntraLSR

IntraLSR

h s = f ( e l ) W s , h u = f ( e l ) W u h = g u ( e l ) h u + ( 1 − g u ( e l ) ) h s e l + 1 = L a y e r N o r m ( h + e l ) \begin{align*} h^s &= f(e^l)W^s, h^u = f(e^l)W^u \\ h &= g_u(e^l)h^u + (1-g_u(e^l))h^s \\ e^{l+1} &= LayerNorm(h+e^l) \end{align*} hshel+1=f(el)Ws,hu=f(el)Wu=gu(el)hu+(1gu(el))hs=LayerNorm(h+el)

g u ( ⋅ ) g_u(\cdot) gu() 表示每个语言独有的门控单元,由以下公式得到:

g u ( e l ) = σ ( ( r e l u ( e l W 3 + b 3 ) + e l ) W 4 + b 4 ) g_u(e^l) = \sigma((relu(e^lW_3+b_3)+e^l)W_4+b_4) gu(el)=σ((relu(elW3+b3)+el)W4+b4)

InterLSR

InterLSR

一个示例来说明具有InterLSR模块的模型与传统模型之间的差异

α = σ ( E l a n g W 5 + b 5 ) z l + 1 = L N ( α z l + ( 1 − α ) o l + 1 ) \begin{align*} \alpha &= \sigma(E_{lang} W_5 + b_5) \\ z^{l+1} &= LN(\alpha z^l + (1-\alpha)o^{l+1}) \end{align*} αzl+1=σ(ElangW5+b5)=LN(αzl+(1α)ol+1)

E l a n g E_{lang} Elang 表示语言嵌入向量。

训练

NVIDIA RTX 2080ti GPU × 1

损失函数

带 label smoothing 的交叉熵损失:

y ^ m = y m ( 1 − ϵ ) + ϵ K L c e = − ∑ m = 1 M y ^ m l o g ( P ( y m ∣ y 1 : m − 1 , V ; θ ) ) \begin{align*} \hat{y}_m &= y_m(1-\epsilon) + \frac{\epsilon}{K} \\ \mathcal{L}_{ce} &= -\sum_{m=1}^M \hat{y}_m log(P(y_m|y_{1:m-1},V;\theta)) \end{align*} y^mLce=ym(1ϵ)+Kϵ=m=1My^mlog(P(ymy1:m1,V;θ))

ϵ = 0.2 \epsilon=0.2 ϵ=0.2

以及一个正交损失,希望IntraLSR中的share与各语言的参数尽可能正交:

L o = 1 L ∑ i = 1 L ∥ ( W s ) T W i ∥ F 2 \mathcal{L}_o = \frac{1}{L}\sum_{i=1}^L \| (W^s)^T W_i \|^2_F Lo=L1i=1L(Ws)TWiF2

总体目标:

L = λ 1 L c e + λ 2 L o \mathcal{L} = \lambda_1 \mathcal{L}_{ce} + \lambda_2 \mathcal{L}_o L=λ1Lce+λ2Lo

λ 1 = 1 , λ 2 = 0.1 \lambda_1=1, \lambda_2=0.1 λ1=1,λ2=0.1

数据集

数据集概览

10 种手语 * 10 种口语 = 100 种手语到口语的任务

Transparent: SP-10 使用 Robust Video Matting (RVM) toolbox,分割了视频背景,这允许后续通过更换背景来进行数据增强。

SP-10数据集统计结果

实验

主实验

多种手语到英语口语文本的实验结果

多种手语到英语口语文本的实验结果。

某些手语到英语指标不如BSLT模型,可能是因为那些手语与别的手语差异较大。

British Sign Language到多种口语文本的实验结果

British Sign Language到多种口语文本的实验结果。

MSLT模型在这个任务上表现太差了,作者就没写在表里。

多种手语到多种口语文本的实验结果

多种手语到多种口语文本的实验结果。

MLSLT具有更好的性能和更少的参数。

Zero-Shot 翻译

Zero-Shot 翻译。

每个Zero-Shot模型在 4 × (4 − 1) 个口语到手语的任务上训练。

消融实验

消融实验

InterLSR对训练过程的影响

总结

在这篇论文中,我们介绍了一个具有挑战性的任务——多语言手语翻译(MSLT),并提出了第一个MSLT模型,即MLSLT。

与先前的研究相比,我们试图使用单个模型来完成多个语言对之间的翻译。为了减少不同语言之间的冲突,我们提出了两种新颖的动态路由机制。它们分别从语言层面和标记层面动态调整数据流。

为了评估我们提出方法的有效性,我们创建了第一个公开的多语言手语理解数据集,SP-10。

与先前数据集相比,SP-10包含更多的语言对,不同手语之间的配对信息为多语言文本到视频生成任务和视频到视频翻译任务创造了可能性。

我们在该数据集上进行了广泛的实验,以支持未来的研究并证明我们提出方法的有效性。我们在附录中讨论了我们工作的局限性和潜在负面影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2223913.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot医疗物品采购系统-计算机设计毕业源码10210

摘 要 本文基于Spring Boot框架,设计并实现了一个医疗物品采购系统。该系统旨在解决医疗物品采购中的管理和信息化问题,提供便捷的服务和支持。通过系统的设计与实现,实现了医疗物品的供应商家管理、物品类型管理、物品仓库管理、采购计划管…

小渡Ai论文写作:文献综述黑科技LitMaps30s找到所有文献

✨Litmaps 究竟是什么呢? Litmaps 是一款极为强大的文献搜索与追踪工具! 它不但能够助力你找到相关的研究文献,还能够依据你提供的文献生成一张学术地图,清晰地展现文献之间的引用链以及研究发展趋势。 恰似一张璀璨的星空图&a…

Linux中安装配置SQLite3,并实现C语言与SQLite3的交互。

前言 SQLite 是一个软件库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是在世界上最广泛部署的 SQL 数据库引擎。本次实验介绍在Linux上实现C语言和SQLite3的交互,利用C语言编写相关语句,连接数据库、操作数…

python实战(三)——文本向量化/文本表示

一、概念 文本向量化是自然语言处理领域的重要环节,也是现在大语言模型开发重要基础。计算机程序无法理解文字信息(实际上非数值类型的信息都无法理解),因此我们需要将文字信息转换成计算机程序可理解的数值类型。通俗来说就是我们…

Python 精品学习资料收藏下载,Python 字符串处理备忘单

重点在这: (请移步图中作者处,获取高清大图下载链接) Python 中的字符串(String)是一种用于表示文本的数据类型。字符串是不可变的,这意味着一旦创建,你不能改变字符串中的字符&am…

【学习AI-相关路程-mnist手写数字分类-python-硬件:jetson orin NX-自我学习AI-基础知识铺垫-遇到问题(1) 】

【学习AI-相关路程-mnist手写数字分类-python-硬件:jetson orin NX-自我学习AI-基础知识铺垫-遇到问题(1) 】 1、前言2、先行了解(1)学习基础知识-了解jetson orin nx 设备(2)学习python&AI…

ClickHouse在百度MEG数据中台的落地和优化

导读 百度MEG上一代大数据产品存在平台分散、质量不均和易用性差等问题,导致开发效率低下、学习成本高,业务需求响应迟缓。为了解决这些问题,百度MEG内部开发了图灵3.0生态系统,包括Turing Data Engine(TDE)计算引擎、Turing Dat…

从0到1,搭建vue3项目

一 Vite创建Vue3项目 1.1.创建Vue3项目 1.1.1.运行创建项目命令 # 使用 npm npm create vitelatest 1.1.2、填写项目名称 1.1.3、选择前端框架 1.1.4、选择语法类型 1.1.5、按提示运行代码 1.1.6浏览器问 localhost:5173 预览 1.2项目结构 1.2.1vite.config.ts 1.2.2 pac…

基于线性回归(Linear Regression)的房屋价格预测

基于线性回归(Linear Regression)的房屋价格预测 一元线性回归加载数据假设函数损失函数(代价函数)梯度下降函数完整代码 多变量线性回归加载数据集特征缩放假设函数损失函数梯度下降函数算法步骤完整代码 线性回归是统计学中的一…

【二轮征稿启动】第三届环境工程与可持续能源国际会议持续收录优质稿件

第三届环境工程与与可持续能源国际会议(EESE 2024)由中南林业科技大学主办,湖南农业大学协办,将于2024年12月20日-22日在湖南长沙召开。 大会邀请到国家杰出青年科学基金获得者、华中科技大学能源与动力工程学院冯光教授&#xf…

R实验——logistic回归、LDA、QDAKNN

数据集介绍: mpg,miles per gallon即油耗,这个数据集来自卡内基梅隆大学维护的StatLib库。1983年美国统计协会博览会使用了该数据集。这个数据集是对StatLib库中提供的数据集稍加修改的版本。根据Ross Quinlan(1993)在预测属性“mpg”中的使…

计算机网络原理总结C-网络层

网络层 网络层提供的两种服务网际协议IP 虚拟互连网络IP地址子网掩码(无分类编址CIDR)IP地址和MAC地址IP数据报格式(路由)转发分组的流程 因特网的路由选择协议(动态路由协议) 网际控制报文协议ICMPIP多播…

认识CSS语法

CSS(网页美容) 重点:选择器、盒子模型、浮动、定位、动画,伸缩布局 Css的作用: 美化网页:CSS控制标签的样式 网页布局:CSS控制标签的位置 概念:层叠样式表(级联样式表…

UE5 第一人称示例代码阅读0 UEnhancedInputComponent

UEnhancedInputComponent使用流程 我的总结示例分析firstthenand thenfinally&代码关于键盘输入XYZ 我的总结 这个东西是一个对输入进行控制的系统,看了一下第一人称例子里,算是看明白了,但是感觉这东西使用起来有点绕,特此梳…

布隆过滤器:极简存储,高效检索

引言 在海量数据的存储与检索中,如何在保持快速检索的同时,降低内存占用是个巨大的挑战。有没有一种既能快速检索又能节省内存的方案?布隆过滤器(Bloom Filter)就是这样一种数据结构。 布隆过滤器的基本原理 如果我…

数据库、数据仓库、数据湖和数据中台有什么区别

很多企业在面对数据存储和管理时不知道如何选择合适的方式,数据库、数据仓库、数据湖和数据中台,这些方式都是什么?有什么样的区别?企业根据其业务类型该选择哪一种?本文就针对这些问题,来探讨下这些方式都…

【目标检测01】真实框、预测框、锚框和交并比IoU

文章目录 1. 任务定义2. 基本概念2.1 边界框(bounding box)2.2 真实框、预测框和锚框2.3 交并比 (IoU)2.4 代码实现 1. 任务定义 目标检测的主要目的是让计算机可以自动识别图片或者视频帧中所有目标的类别,并在该目标周围绘制边界框&#x…

【linux网络编程】| 网络基础 | 解析IP与Mac地址的区别

前言:本节内容讲解一些网络基础相关的知识点, 不涉及网络代码!同样的本节内容是作为前一篇的补充知识点, 前一篇文章地址:【linux网络编程】 | 网络基础Ⅰ| 认识网络-CSDN博客,本篇文章内容较少&#xff0c…

命名空间std, using namespace std

命名空间std&#xff0c;using namespace std 在标准C以前&#xff0c;都是用#include<iostream.h>这样的写法的&#xff0c;因为要包含进来的头文件名就是iostream.h。标准C引入了名字空间的概念&#xff0c;并把iostream等标准库中的东东封装到了std名字空间中&#x…

UE5 源码学习 初始化

跟着 https://www.cnblogs.com/timlly/p/13877623.html 学习 入口函数 UnrealEngine\Engine\Source\Runtime\Launch\Private\Windows\LaunchWindows.cpp WinMain 入口 int32 WINAPI WinMain(_In_ HINSTANCE hInInstance, _In_opt_ HINSTANCE hPrevInstance, _In_ char* p…