小米AI实验室多模态图片翻译论文入选自然语言处理领域顶级会议ACL 2023

news2024/12/27 15:42:00

近日,ACL 2023的论文录用结果公布,小米AI实验室机器翻译团队联合厦门大学苏劲松教授团队在多模态图片翻译方向的最新研究成果已被ACL 2023主会录用,标志着小米在多模态机器翻译方向取得了重要进展。

ACL(Annual Meeting of the Association for Computational Linguistics)是自然语言处理(NLP)领域最重要的顶级国际会议之一。每年由国际计算语言学协会举办,是中国计算机学会(CCF)A类推荐会议。

40ef426080f310fd6eb01885f9934bbe.png

▍论文简介

题目:Exploring Better Text Image Translation with Multimodal Codebook

作者:蓝志彬,余嘉炜,李响,张文,栾剑,王斌,黄德根,苏劲松

类型:主会长文

一、研究背景

图片文本翻译(Text Image Translation,简称TIT)的目标是将图片中的源语言文本翻译成目标语言。它在旅游、外语学习、专业阅读、跨境电商等场景中具有重要的应用价值,已成为机器翻译产品的标配功能。

目前,TIT的研究面临两大主要瓶颈:

1. 缺乏公开可用的真实数据集。

2. 模型主要采用级联结构,易受OCR错误传播的影响。例如下图中的消防员衣服上的文本没有显示完整,导致“富锦消防”四个字被误识别为“富锦消阳”,从而产生了错误的译文。

29c5765f5c2580ada689d4c04e179b45.png

二、方法介绍

针对上述问题,该项工作主要包含两部分:

1/ 发布了该领域首个大规模真实场景TIT数据集OCRMT30K

包含约3万张中英双语图片-文本对,有助于推动此领域的后续研究。数据样例如下图所示。

5fac270b288c6c2a048d7c34fd18055e.png

2提出了一种基于多模态codebook的图片翻译模型

它能够利用图片联想相关文本,为翻译提供有效的补充信息。此外,我们创新性的提出了一种四阶段训练框架,充分利用训练机器翻译模型的双语文本、训练OCR模型的单语图片-文本数据,以及训练TIT模型的双语图像-文本数据。

如下图所示,在第一阶段,以大规模双语文书数据上预训练常规的基于encoder-decoder架构的神经机器翻译模型;在第二阶段,利用大规模源语言单语数据预训练多模态 codebook;在第三阶段,借鉴图像-文本对齐任务,进一步在OCR数据集上训练图像encoder和多模态codebook;在第四阶段,基于OCRMT30K数据集微调整个模型。广泛的实验和深入的分析有力地证明了本研究提出的模型和训练框架的有效性。

2ecd863a93416e3269069e90f1a3bf52.png

三、应用场景

小米AI实验室自研机器翻译技术已广泛应用于小米手机和 IoT 产品,包括最新发布的小米 13 Ultra手机、小米平板6和米家词典笔。

小米手机用户皆可通过小爱翻译App,实现观看“生肉”外语视频、浏览外文网页,以及无论是与外国友人面对面还是通话沟通、还是遇到含有外文的图片时,都能随时随地便捷的获取到机器翻译的译文。能够轻松应对各种语言障碍,边说边译、边听边译、边看边译即刻交流。

29898f6b3da4ea1f5bb4b52064d07389.png

小爱翻译中「屏幕翻译」和「拍照翻译」即基于图片翻译技术打造的实用功能,满足不同场景下翻译图片中外语文本的需求,实现所看即所译。

用法:对手机上的小爱同学说「小爱翻译」或「翻译」,或通过手机桌面下拉栏点击「小爱翻译」,开启小爱翻译浮窗,点击其中「屏幕翻译」按键。

「屏幕翻译」演示视频

「拍照翻译」演示视频

未来,我们将持续探索和推动多模态机器翻译技术发展,服务于产品应用,让全球每个人都能享受没有语言障碍的美好生活。

e983e27ec989eee9136c000c3ff17546.gif

65793745ba7619dd3ce19473e9b05f42.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/539267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单片机--实战练习

目录 【1】GPIO 1.定义 2.应用 I - Input - 输入采集 O - Output - 输出控制 ​编辑​编辑 3.GPIO结构框图 4.功能描述 输入功能 输出功能 5.相关寄存器 【2】点亮一盏LED灯 1.实验步骤 2.编程实现 3.编译下载 4.复位上电 练习:实现LED灯闪烁…

Cocos Shader 转场特效合集!卡牌必备,免费开源!

接前两期,孙二喵的 AIGC 卡牌接近尾声了!链接: AIGC 制作卡牌1AIGC 制作卡牌2 最近,二喵遇到一个很头疼的问题!就是如何实现既流畅、又生动的转场特效。 经过一番大战之后,我实验了多个效果,一共…

记录--vue3优雅的使用element-plus的dialog

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 如何优雅的基于 element-plus,封装一个梦中情 dialog 优点 摆脱繁琐的 visible 的命名,以及反复的重复 dom。 想法 将 dialog 封装成一个函数就能唤起的组件。如下: addDialog(…

Python每日一练(20230518) 螺旋矩阵 I\II\III\IV Spiral Matrix

目录 1. 螺旋矩阵 I Spiral Matrix i 🌟🌟 2. 螺旋矩阵 II Spiral Matrix ii 🌟🌟 3. 螺旋矩阵 III Spiral Matrix iii 🌟🌟 4. 螺旋矩阵 IV Spiral Matrix iv 🌟🌟 &#…

探索Vue的组件世界-组件通信

目录 组件跨层级访问 访问外层组件 定向消息 ref(父组件访问子组件) 依赖注入 依赖注入,vue2.0实现源码 组件封装 组件二次封装 小结 组件跨层级访问 访问外层组件 // 获取 根组件 的数据 this.$root.pri;// 写入 根组件 的数据 t…

人机融合智能的测量、计算与评价

老子在《道德经》第二十一章写道:"道之为物,惟恍惟惚。惚兮恍兮,其中有象;恍兮惚兮,其中有物。窈兮冥兮,其中有精;其精甚真,其中有信。"(“道”这个东西,没有清楚的固定实体。它是那样的恍恍惚惚啊,其中却有形象。它是那样的恍恍惚…

怎样才能做好企业内部wiki知识库呢?

企业内部wiki知识库是一种常用的知识管理方式。通过建立企业内部wiki知识库,企业可以更好的管理和共享知识,提高员工的工作效率和生产力。 详解如何做好企业内部wiki知识库的方法: 一、设计知识库架构 企业内部wiki知识库的架构设计是非常…

抖音seo源码优化/企业号搜索排名/开源搭建

什么是抖音seo? 抖音SEO是指通过提高在抖音平台的关键词排名,来获取流量、获取客户的目的。抖音的流量主要分为付费流量、推荐流量和搜索流量,其中搜索流量因为付费太贵、上热门太累而成为另一种进入方式1。抖音拥有庞大的用户基数&#xff…

shell命令以及运行原理,命令行解释器/bash,Linux Kernel与Shell简单理解等

引入 输入指令的过程本质上就是在输入一个字符串,然后指令的本质就是编译好的程序.exe与脚本。它们都是在系统的特定路径之下放着呢。然后我们所有指令最终都是要到操作系统内部去运行的,也就是说各种各样的指令都需要操作系统的参与。我们有各种各样的…

WordPress 如何开启多站点 含Apache和Nginx伪静态规则

WordPress 3.0以上的版本支持直接开启多站点模式,这样一来,你可以在一个后台切换多个站点进行管理。 最近打算折腾一个主题演示站,给每个主题使用独立的子站点来搭建演示,如果是Apache环境,配置就比较容易,但是倡萌使用的是 Nginx,花了大量的时间测试了N多网络上的伪静…

什么是无头浏览器?如何使用Golang实现无头浏览器截图?

前言 在Web开发中,有时需要对网页进行截图,以便进行页面预览、测试等操作。 而使用无头浏览器来实现截图功能,可以避免手动操作的繁琐和不稳定性。 这篇文章将介绍:使用Golang进行无头浏览器的截图,轻松实现页面预览…

苹果电脑PS Raw增效工具:Camera Raw 15中文版

Camera Raw 15是Adobe公司开发的一款用于处理RAW格式图像的插件软件,它可以帮助用户在Photoshop、Lightroom等软件中对RAW格式图像进行调整和优化。Camera Raw 15提供了丰富的调整工具,包括白平衡、曝光、色彩、锐化、噪点、透视等,可以让用户…

home assistant添加天气预报

先上效果图&#xff0c;大体就是这个样子 1.天气API链接 https://www.windy.com 选择页面嵌入式微件 下面是完整的HTML 代码&#xff0c;但是需要修改一下 <iframe width"1000" height"600" src"https://embed.windy.com/embed2.html?lat21.2…

【腾讯云Finops Crane集训营】利用云原生成本优化项目实现降本增效泰裤辣~

Crane 是一个基于 FinOps 的云资源分析与成本优化平台。在保证客户应用运行质量的前提下实现极致的降本。 文章目录 一、 前言&#x1f350;二、 Crane开源项目简介&#x1f34e;2.1. Crane整体框架&#x1f352;2.2. Crane主要功能&#x1f345; 三、Crane实验前期准备&#x…

PaLM 2 硬刚 GPT-4,未来还有变数

在 ChatGPT 没有出现之前&#xff0c;谷歌多年来一直是 AI first战略 &#xff0c;不出意外的话还会是领头羊&#xff0c;手握 DeepMind 和 Google Brain 两大 AI 王牌&#xff0c;再加上投资技术实力雄厚的 Anthropic&#xff0c;论资排辈都得是他。时不我与&#xff0c;被 Op…

链表--part 1--链表基础理论(概括)

文章目录 单链表双链表循环链表链表链表的定义删除节点增加节点 首先什么是链表&#xff0c;链表是一种通过指针串联在一起的线性结构&#xff0c;每一个节点由两部分组成&#xff0c;一个是数据域一个是指针域&#xff08;存放指向下一个节点的指针&#xff09;&#xff0c;最…

低代码平台的分类及选择参考

目录 零、认识低代码 一、低代码平台的分类 1.1通用低代码平台 1.2垂直低代码平台 1.3开放式低代码平台 二、低代码平台的特点 三、低代码平台的优缺点对比 四、低代码平台的选择参考 为什么选择IVX&#xff1f; 五、iVX平台与其他低代码平台的区别 零、认识低代码 …

机器学习项目实战-能源利用率 Part-2(探索性数据分析)

Part-1部分的博客可见下&#xff1a; 机器学习项目实战-能源利用率 Part-1&#xff08;数据清洗&#xff09; 这部分进行的是探索性数据分析。 探索性数据分析 Exploratory Data Analysis 简单的说&#xff0c;就是画图来分析数据。 分析标签数据 data data.rename(colum…

c++ 11标准模板(STL) std::set(六)

定义于头文件 <set> template< class Key, class Compare std::less<Key>, class Allocator std::allocator<Key> > class set;(1)namespace pmr { template <class Key, class Compare std::less<Key>> using se…

STL配接器(容器适配器)—— queue 的介绍使用以及模拟实现。

注意 &#xff1a; 以下所有文档都来源此网站 &#xff1a; http://cplusplus.com/ 一、queue 的介绍 queue 文档的介绍&#xff1a;https://cplusplus.com/reference/queue/queue/ 1. 队列是一种容器适配器&#xff0c;专门用于在FIFO上下文(先进先出)中操作&#xff0c;其…