跨越专业翻译的语言之墙:百度翻译的技术攀登

news2024/10/5 13:35:41

d0c002526c21489d00dbe5933e04904b.jpeg

作为一个科技从业者,阅读AI顶会的最新论文、浏览国内外创新的最新动向,是我工作的重要部分。平时接触的开发者、科学家、企业研究人员等,工作生活中也涉及大量专业阅读。

于是乎,我就会经常听到这样的抱怨:

PDF格式的论文,很多翻译软件需要手动复制粘贴,效率还不如直接查字典;

不动脑子按段落甚至句子直译,信达雅一个都没有,机翻完我还要花时间二次review;

海外开发社区的技术文档专业词汇太多,翻译得不准,好几天的代码都白写了……

这可能是AI技术里非常容易让人迷惑的地方。近几年随着AI技术快速进步,机器翻译水平也大幅提升,结果一遇到外文文献、外刊投稿、办公文档、商业报告、海外网站技术文档之类的专业翻译需求,很多产品还是不能满足。

38c7e41c71f157e201cee01fe897a39c.png

这些问题说明,总体可读可懂,满足出国旅游、购物娱乐等日常沟通的场景,只是机器翻译的基本功能。进一步的市场需求,是深度专业内容的跨语言交流,让商业、科研、技术等专业信息可以实现无缝对接。

跨越这堵语言之墙,也成为一场NLP领域的全球竞赛。一直深耕机器翻译的百度翻译团队,从来没有停止过攀登的脚步。

我们从机器翻译的新技术动向说起,聊聊百度给机器翻译带来的新可能。

abb75dd7d820b0a1843013095d8b90f5.png

机器翻译的技术攀登:

百度引领NMT革新

跨越语言之墙还需要哪些技术突破?想要回答这个问题,有必要先回答:机器翻译今天发展到哪一步了。

过去几十年间,人们一直在探索如何使得机器翻译达到人类的翻译水平,翻译方法不断迭代。基于规则的机器翻译,依靠人工编纂的双语词典和专家总结的规则进行翻译;基于实例的机器翻译,从双语对照的实例库中选择与原文相似度高的实例,通过模仿和修改进行翻译;基于统计的机器翻译,对翻译过程进行数学建模,并从大量的训练数据中自动学习翻译知识。

变革发生在2014年,通过循环神经网络(RNN)来对语言向量进行编码解码,并且使用长短期记忆网络(LSTM)来增强长句翻译能力的神经机器翻译(NMT),为机器翻译领域带来新的研发范式。百度、谷歌、微软等一批NLP领域的优等生推进深度学习在机器翻译领域的研发和应用,百度翻译在2015年发布了全球首个互联网NMT系统,领先谷歌1年多。现在,大家用翻译软件进行日常交流、旅游商务等活动,已经基本没有问题了。

d7a85553141e203ec4ce84e4e3e29dec.png

而专业领域的翻译想要令人惊喜的进展,总的来说需要做到两件事:

一是技术突破。推动机器翻译不断接近专业翻译能力。头部厂商主要从几个方面努力:1. 预训练大模型,例如文心、GPT-3、BERT;2. 多语言统一建模和翻译;3. 面向垂直领域的高精度翻译模型。其中,百度作为更早进入NMT时代的科技企业,就在机器翻译技术上取得了国际领先的成果。2020 年,咨询机构Gartner在 《Hype Cycle for Natural Language Technologies》报告中,就将百度翻译列为神经网络机器翻译标杆机构。

二是产品设计。技术有所突破,还要通过成熟的产品设计和应用体验,让用户感知到专业机器翻译的价值。一些机器翻译产品可能技术很强,但由技术人员来主导产品设计,导致用户体验很糟糕。在这方面,具备互联网产品设计相关经验的厂商,自然能够更好地实现技术落地。比如百度翻译就打造了非常丰富的产品矩阵,支持PC端、移动端等各类终端设备,面向C端、B端的多种应用;支持文本、文档、图片、语音等多模态翻译,全方位满足各种翻译需求。百度翻译的产品优势,让普通用户可以低门槛、更便捷地用上专业机器翻译能力,目前日均响应的翻译请求已达千亿字符。

从这个角度来看,百度翻译是国内少有的,能够同时占据技术和产品两个机器翻译高地的科技企业。那么,百度翻译究竟是如何翻越专业翻译的语言之墙?

耸立的语言墙:

机器翻译进入专业领域的三道门槛

203c14323a6c994d34f72108c6ef6c8e.png

你可能会问,机器翻译都搞了快七十年,怎么专业领域的语言之墙依旧没有被攻克?

专业信息、学术资源、商业文件等翻译需求,是一块巨大的商业蛋糕,同时也是从未被彻底解决的痛点。这是因为专业领域的翻译,存在“三高”的要求:内容安全要求高、翻译准确率要求高、翻译效率与体验要求高。

内容安全要求高:专业文档往往涉及到科研创新、商业往来等信息,翻译过程中需要上传到云端或软件服务商的服务器进行操作,一旦硬件来源或软件使用权受限,或者服务不稳定,都会给专业用户带来麻烦和风险。

翻译准确率要求高:信达雅,信(即翻译准确率)排在第一位,专业翻译中存在大量专业单词、复杂长句子,容易出现歧义,软件翻译失之毫厘,内容准确度就谬以千里。

fe547b8dae8b84b61066675c14f582d6.png

翻译效率与体验要求高:翻译软件的效率、易用性,直接影响到用户体验。很多人可能有这样的经历,有的软件不支持整篇文档翻译,手动复制粘贴连分段都不准确,翻译效果难以直视;有的PDF文档翻译成word后,原本的排版被打乱,还需要自己手动调整……这些都给用户带来了额外的负担。

所以,我们就从安全可靠、效果、效率这三个方面,来评测一下百度翻译的解决思路。

首先,安全可靠。

作为一名知识内容生产者,文档承载的是我安身立命之本,所以,数据安全几乎是我是否使用一款翻译工具的首要考量因素。同理,论文数据之于科研工作者、商业报告之于企业从业者、技术文档之于工程人员,安全隐私都是至关重要的。

深度学习平台是每个神经网络机器翻译模型的底层技术框架,市面上相当一部分翻译厂商的底层技术框架仍然使用TensorFlow(美国谷歌)和PyTorch(美国脸书)为代表的海外框架。非国产自研,可能在未来遭遇无硬件可搭载和无框架使用的窘境。

414a3709444def721280aeb1a8834d3e.png

比如在使用海外平台DeepL的过程中,我就会经常遇到加载缓慢、连接不上的问题。海外翻译软件往往需要上传到海外企业的服务器,比如DeepL上传的文档会被发送到美国的Adobe公司。

6f4bfcde38c63187adb781a286c8f4e3.png

与之相比,国内翻译产品就不会遇到这个困扰。以百度翻译为例,产品基于全面自研的飞桨深度学习框架,同时采用多种措施来保障数据安全,获得ISO27001等多项国内外权威信息安全管理认证。存储前,会先进行安全的加密操作;数据传输中,采用安全传输层协议(TLS),保障保密性和数据完整性,并提供完备的密钥管理机制和加密措施;用户删除数据后,后台将同步删除相关内容,不会留存。总体来说,在可靠性和安全性上更有保障。

第二,翻译效果。

专业翻译最终要靠结果的“信、达、雅”说话。包括专业术语翻译是否准确,语序是否流畅连贯,一些特定文化背景的表达是否地道……

可以看到,百度翻译通过多个专业领域模型,有效增强翻译准确度。我们随机选取了《自然》杂志的一篇生物领域论文《A pan-cancer compendium of chromosomal instability染色体不稳定性的泛癌症纲要》,选择百度翻译的“生物医药“模型后,结合上下文语义给出了准确的翻译。可以看到,生物医药这类充满大量专业术语的领域,百度翻译的结果并没有让人失望。

6e85d1b684f21a491be2b9470767c00c.png

对于学术文章中复杂的长句子和特定格式,百度翻译能够识别论文格式中的各种基本要素,如正文、引用、尾注等,避免错译、漏译。以这篇AAAI 2022的顶会论文《Meta-Learning for Online Update of Recommender Systems》为例,百度翻译就准确保留了参考文献引用信息,这对阅读专业文献非常有帮助。

3986b1c9976baa0611a964c2f5fdd1d5.png

第三,翻译效率。

专业领域的机器翻译,用户的一个关键痛点是:很多地方需要用户“不厌其烦”地手动操作或反复修改。而拥有十多年翻译产品经验的百度,自然也在应用能力上游刃有余。百度翻译将这些“烦点”一一消解,提升翻译效率和文档的可读性、易读性,从而减少用户手动调整、修改的麻烦,将时间精力放在更有创造力的事情上。

首先,百度翻译支持多种格式文档,一键上传就能进行全篇翻译。像PDF这种不能编辑的文档,可以完整地保留样式和排版,不需要用户手动将文字复制粘贴到翻译软件中,并且提供整页预览模式、逐句对照模式等,不同需求的用户可以自主选择来提升效率。

比如下面这份《英国人工智能研发商业化和标准》,这类咨询机构的商业报告,是很多产业研究者、高校师生、政策制定者等工作学习中的参考读物,快捷、高效地阅读体验,能够帮大家节省不少时间。将PDF文件一键上传到百度翻译,就能快速得到准确的译文,排版格式也与原文保持高度一致,大大方便了阅读。

c0a69f08866dbd17b762f680968d3800.png

输入数据的准确性对翻译结果起到至关重要的影响,文本纠错是机器翻译的关键能力之一。专业领域容易遇到一些佶屈聱牙、拼写复杂的专用术语、学术名词等,百度翻译的智能纠错,可以对语句自动检查、实时提示、自动纠错,减少人工校验成本。

此外,百度翻译通过人机共译智能增强,语料自动沉淀,机器自动学习,翻译模型实时增强,逐渐缩小机器翻译与理想译文之间的差距,实现越翻越省力,真正提升效率。

英国诗人塞缪尔·约翰逊曾说过,语言是科学的唯一工具。整体来看,百度翻译已经在专业论文、学术文献等领域,展现出了强大的翻译能力,帮专业人士翻越了语言这堵高墙,把语言这个工具交到了每一个需要在专业领域跨语言协作的人手中。

d37d9b699502c2c8843ae5f7fa213a1b.png

翻山越岭之后,

语言墙背后的宏大场景

从百度翻译的技术体系和产品设计中,可以看到,机器翻译要进入专业领域,不光要有技术,还要有较强的产品设计能力,考验的是企业的综合实力。机器翻译进入专业领域,也推动翻译应用来到了新的赛点。

重建巴别塔。专业领域的语言壁垒,为知识、信息、资源的流动树立起极高的门槛,比如目前全球有六成以上各类文献资料和科研论文都是用英文撰写,其他语种也蕴含着大量的知识宝藏。越来越多的人使用百度翻译来突破语言的阻碍,让专业领域的协作没有障碍,将大大促进全球的知识交流与传播,支撑科技创新、实现知识公平。

重塑机翻格局。专业领域的机器翻译,相比生活化场景,有着更高的壁垒与更强劲的需求,无论市场容量、付费意愿、付费潜力,以及用户忠诚度,都是非常高的。百度翻译凭借优秀的专业翻译能力,可以建立起差异化优势,进入商业化的良性循环,在机器翻译市场格局中进一步领先。

be9764c3d045cd16798880393c500bf4.png

借助翻译,人类社会从相互阻隔走向了相互交往。今天,世界科技、经济与文化更为频繁地展开交流,面对浩如烟海的信息与知识,仅靠数量有限的专业翻译人士,很难满足大众对专业翻译的需求。幸好,机器翻译开辟了一条新的跨语言沟通之路。七十年来,机器翻译技术不断迭代,有着旺盛的生命力,那是一代又一代技术人,在为重建巴别塔的理想而不断努力。

随着百度翻译等产品推动机器翻译向专业领域不断深入,人们可以展开更专业、更精深的跨语言交流,机器翻译正成为助力全球交流的一股重要力量。

d812151aaef5ec689016d3546b35b061.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/65105.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第42讲:MySQL数据库索引的基本使用规则以及在正确使用索引的方式

文章目录1.索引规则之最左前缀法则1.1.最左前缀法则的概念1.2.最左前缀法则的验证案例2.索引规则之范围查询3.使用索引时会导致索引失效的几种情况3.1.索引列使用运算导致索引失效3.2.索引列的值不加引号导致索引失效3.3.索引列模糊查询可能会导致索引失效3.4.OR连接条件使用不…

Excel中如何用计算公式或表达式直接计算出结果?

Excel中如何用计算公式或表达式直接计算出结果? 目录 Excel中如何用计算公式或表达式直接计算出结果? 1、例如:我们需要用E列的计算公式(表达式),直接计算出结果填至F列 2、另一种方法:在菜…

什么是接口测试?接口测试的流程步骤

目录 一、什么是接口测试&怎么测 二、接口测试的好处 三、怎么做好接口测试 四、接口测试的原理 五、接口测试流程&用例设计 5.1.接口文档分析 5.1.1.接口构成图解 5.2.制定接口测试计划 5.3.编写接口测试用例&评审 5.3.1.接口测试用例模板 5.4.接口测试…

普通人如何不被 OpenAI 取代?

Datawhale干货 Tw93,前端工程师,Datawhale邀约作者知乎:https://www.zhihu.com/people/tw93Github:https://github.com/tw93今天试了试OpenAI的一些功能,通过主题来记录一下使用场景,发现了不少它强于普通人…

R语言缺失数据变量选择LASSO回归:Bootstrap重(再)抽样插补和推算

全文链接:http://tecdat.cn/?p30726在存在缺失数据的情况下,需要根据缺失数据的机制和用于处理缺失数据的统计方法定制变量选择方法。我们专注于可以与插补相结合的随机和变量选择方法的缺失方法(点击文末“阅读原文”获取完整代码数据&…

nginx解析漏洞复现

学习积累: 存在该漏洞的原因:是一种用户配置不当造成的漏洞 这里我是部署了vulhub靶场 直接执行docker-compose up -d启动容器,无需编译。 造成该漏洞的配置条件: (不受php、nginx的版本限制) &#…

计算机毕业设计java基于springboot的在线动漫平台

项目介绍 开发语言:Java 开发工具:IDEA /Eclipse 数据库:MYSQL5.7 应用服务:Tomcat7/Tomcat8 使用框架:springbootvue 在线动漫信息平台主要是为了会员方便对动漫信息的了解以及查看今日论坛信息和查看热门动漫、文章专栏等信息,也是为了更好的让管理员进行更好存…

适合linux的软件

Konqueror Konqueror是KDE桌面系统的一部分,主要用于文件管理、各种格式档案的查看,以及网页浏览。它有以下区别于其它浏览器的优点: 支持用Firefox, Chrome打开网页丰富的快捷键功能Web浏览器, 文件浏览器于一体运行速度非常快, 快于Chrom…

Android -- 每日一问:两个 Fragment 之间如何进行通信 ?

知识点 先说一下 Fragment,中文可以叫片段,其实我们也可以把它理解成一个组件,它有自己的生命周期(回调函数),可以组织UI和业务逻辑。但它不像 Android 的四大组件(Activity, Service, Broadca…

Blend for Visual Studio 让XAML也可以像WinForm一样可视化设计,Blend 与Studio的区别

1.Blend独有的高级功能 任务Visual StudioBlend for Visual Studio更多信息设计可视状态没有可帮助你设计可视状态的工具;必须以编程方式创建它们。使用设计工具可基于其状态更改控件的外观。创建动画没有用于动画的设计工具;必须以编程方式创建它们。 …

《WEB安全漏洞100讲》(第4讲)CSRF漏洞

1.CSRF漏洞原理 CSRF(Cross-site request forgery),跨站请求伪造,简写 CSRF/XSRF。指利用受害者尚未失效的身份认证信息(cookie、会话等),诱骗其点击恶意链接或者访问包含攻击代码的页面,在受害人不知情的…

【java】4-线程的状态

1. 线程状态的含义 线程在不同的时期具有不同的状态,线程状态是线程实例的一个非常重要的属性,我们可以通过状态看到当前线程究竟是在被创建,运行,阻塞还是已经中断,或是处于别的状态,以便更好地对于代码进…

ARM通用中断控制器GIC之中断控制

在阅读本章之前,可以参考笔者之前关于GIC的一些描述: ARM通用中断控制器GIC(generic Interrupt Controller)简介 ARM架构Generic Interrupt Controller(GIC)之Distributor和CPU interface功能介绍 ARM架构Generic Interrupt Controller(GIC)详解之术语…

一文带你快速搭建框架(最全MyBatis笔记)

目录 一.概述 1.简介 2.maven构建 二.相关概念 1.Mapper接口 2.ORM思想 三.映射配置文件 1.文件结构 2.映射配置文件标签详解 3.SQL语句中参数的获取 (1)获取方式 (2)参数类型 4.各种SQL操作 5.处理表字段和实体类属性名不一致的情况 6.多对一映射关系的处理 7…

InnoDB引擎架构

1、逻辑存储结构: 表空间(ibd文件):一个Mysql实例可以对应多个表空间,用于存储记录、索引等数据。 段:分为数据段、索引段、回滚段、 InnoDB是索引组织表,数据段就是B树的叶子节点&#xff0c…

使用Flink1.16.0的SQLGateway迁移Hive SQL任务

使用Flink的SQL Gateway迁移Hive SQL任务 前言 我们有数万个离线任务,主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务,当然也有PySpark、打Jar包的Spark和打Jar包的Flink任务这种高成本的任务【Java和Scala都有】。毕竟SQL上手门槛极低…

【邻接表】【数组表示链表】怎么用数组链表 表示 邻接表

怎么用数组链表 表示 邻接表***邻接表(数组链表)是怎么存储的?***邻接表(数组链表)是怎么存储的? 正常情况下,我们用链表存储的话,我们让 1 指向 2 我们会给出 1 和 2的地址&#xf…

Java基于JSP二手书交易平台设计与实现

现代网络技术发展迅速,传统的书店销售模式受到诸如场地、资金、宣传等因素制约,已经不能满足人们的日益增长的图书购买需求,网上书店应运而生,基于web的网络书店给人们带来了很大便利,网络书店不仅是传统售书模式的发展…

AidLux智慧交通AI安全实战学习

本次参加AidLux训练营,Rocky作为主讲老师,学习到了利用目标检测算法流程和AI攻防策略进行结合,从而达到安全。 1.检测汽车模型的训练 本次目标检测的模型是Yolov5,首先对标注图片 进行转换,转换为yolov5的格式&#…

《痞子衡嵌入式半月刊》 第 61 期

痞子衡嵌入式半月刊: 第 61 期 这里分享嵌入式领域有用有趣的项目/工具以及一些热点新闻,农历年分二十四节气,希望在每个交节之日准时发布一期。 本期刊是开源项目(GitHub: JayHeng/pzh-mcu-bi-weekly),欢…