一文带你了解机器翻译的前世今生

news2024/11/27 22:40:43

引言

我们都知道谷歌翻译,这个网站可以像变魔术一样在100 种不同的人类语言之间进行翻译。它甚至可以在我们的手机和智能手表上使用:

图片

谷歌翻译背后的技术被称为机器翻译。它的出现改变了世界交流方式。

图片

事实证明,在过去几年中,深度学习完全改写了传统的机器翻译方法。对语言翻译几乎一无所知的深度学习研究人员正在拼凑相对简单的机器学习解决方案,这些解决方案正在击败世界上最好的专家构建的语言翻译系统。

这一突破背后的技术被称为sequence to sequence模型。这是一种非常强大的技术,可用于解决多种问题。在我们了解它的工作原理之后,我们还将了解如何使用完全相同的算法来编写 AI 聊天机器人和图片描述系统。

让计算机翻译

那么我们如何对计算机编程来翻译人类语言呢?

最简单的方法是用目标语言的翻译词替换句子中的每个词。这是一个将西班牙语逐字翻译成英语的简单示例:

图片

这很容易实现,因为只需要构造一个字典数据结构来查找每个单词的翻译。但是结果很糟糕,因为它忽略了语法和上下文。

因此,接下来您可能要做的就是开始添加特定于语言的规则以改进结果。例如,您可以将常见的双词短语翻译为一个组。你可能会交换名词和形容词的顺序,因为它们在西班牙语中的出现顺序通常与它们在英语中的出现顺序相反:

图片

成功了!如果我们不断添加更多规则,直到我们能够处理语法的每一部分,我们的程序应该能够翻译任何句子,对吧?

这就是最早的机器翻译系统的工作方式。语言学家想出了复杂的规则,并将它们一一编入程序。

不幸的是,这只适用于像天气预报这种简单、结构清晰的语言。当面对真实世界的语言时它就变得不再可靠。

因为人类语言并不遵循一套固定的规则。人类语言充满了特殊情况、区域差异,并且完全违反规则。例如,西方国家说英语的方式更多地受到数百年前入侵者的影响,而不是坐下来定义语法规则的人。

应用统计方法让计算机翻译得更好

在基于规则的系统失败后,使用基于概率和统计的模型而不是语法规则开发了新的翻译方法。

构建基于统计的翻译系统需要大量训练数据,其中将完全相同的文本翻译成至少两种语言。这种双重翻译的文本称为平行语料库。就像 1800 年代科学家使用罗塞塔石碑从希腊语中找出埃及象形文字一样,计算机可以使用平行语料库来猜测如何将文本从一种语言转换为另一种语言。

幸运的是,在很多奇怪地方已经有很多双重翻译的文本。例如,欧洲议会将议事录翻译成 21 种语言。因此,研究人员经常使用这些数据来帮助构建翻译系统。

图片

概率思维

这种方式不会只生成一种精确的翻译。相反,他们会生成数千种可能的翻译,然后根据每个翻译的正确可能性对这些翻译进行排名。并通过它与训练数据的相似程度来估计它有多“正确”。它是这样工作的:

第 1 步:将原始句子分成块

首先,我们将句子分解成简单的块,每个块都可以轻松翻译:

图片

第 2 步:为每个块找到所有可能的翻译

接下来,我们将通过查找人类在我们的训练数据中翻译这些相同词块的所有方式来翻译这些词块中的每一个。

重要的是要注意,我们不仅仅是在简单的翻译词典中查找这些块。相反,我们正在看到真实的人如何在现实世界的句子中翻译这些相同的词块。这有助于我们了解它们在不同情况下的所有不同使用方式:

图片

其中一些可能的翻译比其他翻译更频繁地使用。根据每个翻译在我们的训练数据中出现的频率,我们可以给它打分。

例如,某人说“Quiero”的意思是“我想要”比意思是“我尝试”要常见得多。因此,我们可以使用训练数据中“Quiero”被翻译成“I want”的频率来赋予该翻译比频率较低的翻译更高的权重。

第 3 步:生成所有可能的句子并找到最有可能的句子

接下来,我们将使用这些块的每一种可能组合来生成一堆可能的句子。

仅从我们在步骤 2 中列出的块翻译,我们已经可以通过以不同方式组合块来生成近 2,500 种不同的句子变体。这里有些例子:

图片

但在现实世界的系统中,会有更多可能的组块组合,因为我们还将尝试不同的单词顺序和不同的句子组块方式:

图片

现在需要扫描所有这些生成的句子,以找到听起来“最合理”的句子。

为此,我们将每个生成的句子与数以百万计的英文书籍和新闻故事中的真实句子进行比较。我们能得到的英文文本越多越好。

一种可能的翻译是:

I try | to leave | per | the most lovely | open space.

但是没有人用英语写过这样的句子,它与我们数据集中的任何句子都不会非常相似。因此会给这个可能的翻译一个低概率分数。

再看看这个可能的翻译:

I want | to go | to | the prettiest | beach.

这句话会和我们训练集中的某个句子相似,所以它会得到很高的概率分数。

在尝试了所有可能的句子之后,我们将选择具有最可能的块翻译的句子,同时也与真实的英语句子总体上最相似。

我们的最终翻译是“I want to go to the prettiest beach”。不错!

统计机器翻译是一个巨大的里程碑

如果您为统计机器翻译系统提供足够的训练数据,它们的性能要比基于规则的系统好得多。Franz Josef Och 改进了这些想法,并在 2000 年代初期使用它们构建了 Google 翻译。机器翻译终于面世了。

在早期,每个人都惊讶于基于概率的“愚蠢”翻译方法比语言学家设计的基于规则的系统效果更好。这导致了 80 年代研究人员之间的一个(有点刻薄的)说法:

每次我解雇一名语言学家,我的准确性都会提高。

统计机器翻译的局限性

统计机器翻译系统运行良好,但构建和维护起来很复杂。您要翻译的每一对新语言都需要专家调整和调整新的多步骤翻译管道。

由于构建这些不同的管道需要大量工作,因此必须做出权衡。如果你要求谷歌将格鲁吉亚语翻译成泰莱古语,它必须在内部将其翻译成英语作为中间步骤,因为没有足够多的格鲁吉亚语到泰莱古语的翻译来证明在该语言对上投入大量资金是合理的。与您要求更常见的法语到英语选择相比,它可能会使用不太先进的翻译管道进行翻译。

如果我们可以让计算机为我们完成所有烦人的开发工作,那不是很酷吗?

让计算机翻译得更好——没有那些昂贵的人

机器翻译的圣杯是一个黑匣子系统,它可以自己学习如何翻译——仅仅通过查看训练数据。使用统计机器翻译,仍然需要人工来构建和调整多步骤统计模型。

2014年,KyungHyun Cho的团队取得了突破。他们找到了一种应用深度学习来构建这个黑匣子系统的方法。他们的深度学习模型采用平行语料库,并使用它来学习如何在没有任何人工干预的情况下在这两种语言之间进行翻译。

两个伟大的想法使这成为可能——递归神经网络和编码。通过巧妙地结合这两种思想,我们可以构建一个自学习翻译系统。


循环神经网络

常规(非循环)神经网络是一种通用机器学习算法,它接受数字列表并计算结果(基于先前的训练)。神经网络可以用作解决许多问题的黑匣子。例如,我们可以使用神经网络根据房屋的属性计算房屋的近似值:

图片

但与大多数机器学习算法一样,神经网络是无状态的。您传入一个数字列表,然后神经网络计算出一个结果。如果您再次传入相同的数字,它将始终计算出相同的结果。它没有过去计算的记忆。换句话说,2 + 2 总是等于 4。

循环神经网络(或简称 RNN)是神经网络的略微调整版本,其中神经网络的先前状态是下一次计算的输入之一。这意味着以前的计算改变了以后计算的结果!

图片

我们到底为什么要这样做?无论我们上次计算什么,2 + 2 不应该总是等于 4 吗?

这个技巧允许神经网络学习一系列数据中的模式。例如,您可以使用它根据前几个词预测句子中下一个最有可能的词:

图片

每当您想学习数据模式时,RNN 都非常有用。由于人类语言只是一种庞大而复杂的模式,因此 RNN 越来越多地用于自然语言处理的许多领域。

编码

我们需要审查的另一个想法是编码。我们之前讨论了作为人脸识别一部分的编码。为了解释编码,让我们稍微绕一下我们如何用计算机区分两个不同的人。

当你试图用计算机区分两张脸时,你会从每张脸上收集不同的测量值,并使用这些测量值来比较面孔。例如,我们可能会测量每只耳朵的大小或两只眼睛之间的间距,然后比较两张照片中的这些测量值,看看他们是否是同一个人。

将一张脸变成一个测量列表的想法是编码的一个例子。我们正在获取原始数据(一张人脸图片)并将其转换为表示它的测量值列表(编码)。

但是我们不必拿出一个特定的面部特征列表来衡量自己。相反,我们可以使用神经网络从面部生成测量值。在确定哪些测量最能区分两个相似的人方面,计算机可以比我们做得更好:

图片

这是我们的编码。它让我们用简单的东西(128 个数字)来表示非常复杂的东西(一张脸的图片)。现在比较两张不同的脸要容易得多,因为我们只需要比较每张脸的这 128 个数字,而不是比较完整的图像。

你猜怎么了?我们可以用句子做同样的事情!我们可以想出一种编码,将每个可能的不同句子表示为一系列唯一的数字:

图片


为了生成这种编码,我们会将句子输入 RNN,一次输入一个单词。处理完最后一个单词后的最终结果将是代表整个句子的值:

图片

太好了,现在我们有办法将整个句子表示为一组唯一的数字!我们不知道编码中每个数字的含义,但这并不重要。只要每个句子都由它自己的一组数字唯一标识,我们就不需要确切地知道这些数字是如何生成的。

让我们翻译吧!

好的,所以我们知道如何使用 RNN 将一个句子编码成一组唯一的数字。这对我们有什么帮助?这就是事情变得非常酷的地方!

如果我们采用两个 RNN 并将它们端到端连接起来会怎样?第一个 RNN 可以生成表示句子的编码。然后第二个 RNN 可以采用该编码并反向执行相同的逻辑以再次解码原始句子:

图片

当然,能够对原始句子进行编码然后再次解码并不是很有用。但是,如果(这是个好主意!)我们可以训练第二个 RNN 将句子解码为西班牙语而不是英语怎么办?我们可以使用我们的平行语料库训练数据来训练它来做到这一点:

图片

就像那样,我们有一种通用的方法可以将一系列英语单词转换为等效的西班牙语单词序列!

这是一个强大的想法:

  • 这种方法主要受限于你拥有的训练数据量和你可以投入的计算机能力。机器学习研究人员两年前才发明这个,但它的性能已经和耗时 20 年开发的统计机器翻译系统一样好。

  • 这并不取决于了解有关人类语言的任何规则。该算法自己计算出这些规则。这意味着您不需要专家来调整翻译流程的每一步。计算机会为你做这些。

  • 这种方法几乎适用于任何类型的序列到序列问题!事实证明,许多有趣的问题都是序列到序列的问题。继续阅读您可以做的其他很酷的事情!

请注意,我们忽略了使这项工作与实际数据一起工作所需的一些事情。例如,您需要做一些额外的工作来处理不同长度的输入和输出句子(请参阅分桶和填充)。正确翻译生僻词也存在问题。

构建您自己的序列到序列翻译系统

如果您想构建自己的语言翻译系统,TensorFlow 中包含一个可在英语和法语之间进行翻译的工作演示。但是,这不适合胆小者或预算有限的人。这项技术仍然很新,而且非常耗费资源。即使你有一台配备高端显卡的快速计算机,也可能需要大约一个月的连续处理时间来训练你自己的语言翻译系统。

此外,序列到序列的语言翻译技术进步如此之快,以至于很难跟上。最近的许多改进(如添加注意力机制或跟踪上下文)正在显着改善结果,但这些发展太新了,甚至还没有维基百科页面。如果你想对序列到序列学习做任何严肃的事情,你需要跟上新的发展。

序列到序列模型的荒谬力量

那么我们还能用序列到序列模型做些什么呢?

大约一年前,谷歌的研究人员表明您可以使用序列到序列模型来构建人工智能机器人。这个想法是如此简单,以至于令人惊讶的是它的工作原理。

首先,他们获取了谷歌员工和谷歌技术支持团队之间的聊天记录。然后他们训练了一个序列到序列模型,其中员工的问题是输入句子,技术支持团队的回答是该句子的“翻译”。

图片

当用户与机器人交互时,他们将使用该系统“翻译”用户的每条消息以获得机器人的响应。

最终结果是一个可以(有时)回答真正的技术支持问题的半智能机器人。这是他们论文中用户和机器人之间的示例对话的一部分:

图片

他们还尝试构建一个基于数百万电影字幕的聊天机器人。这个想法是利用电影角色之间的对话来训练机器人像人一样说话。输入的句子是一个字符说的一行对话,“翻译”是下一个字符的回应:

图片


这产生了非常有趣的结果。机器人不仅像人一样交谈,而且还显示出一点点智慧:

图片

这只是可能性的开始。我们不仅限于将一个句子转换为另一个句子。也可以制作一个可以将图像转换为文本的图像到序列模型!

Google 的另一个团队通过用卷积神经网络替换第一个 RNN 来做到这一点(就像我们在第 3 部分中了解到的那样)。这允许输入是图片而不是句子。其余的工作方式基本相同:

图片

就这样,我们可以把图片变成文字(只要我们有很多很多的训练数据)!

Andrej Karpathy 扩展了这些想法,构建了一个能够通过分别处理图像的多个区域来非常详细地描述图像的系统:

图片

这使得构建图像搜索引擎成为可能,这些引擎能够找到与奇怪的特定搜索查询匹配的图像:

图片

甚至还有研究人员在研究相反的问题,即根据文本描述生成整张图片!

仅从这些示例中,您就可以开始想象各种可能性。到目前为止,从语音识别到计算机视觉的方方面面都有序列到序列的应用。我敢打赌明年会有更多。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1257034.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux socket编程(6):IO复用之select原理及例子

文章目录 1 五种I/O模型1.1 阻塞I/O模型1.2 非阻塞I/O模型1.3 I/O复用模型1.4 信号驱动I/O模型1.5 异步I/O模型 2 select函数3 select实战:实现多个套接字监听3.1 客户端3.2 服务端3.3 实验结果3.4 完整代码 在之前的网络编程中,我们遇到了一个问题&…

【nowcoder】BM3 链表中的节点每k个一组翻转

题目: 题目分析: 题目解析转载: 代码实现: package BMP3;import java.util.List;class ListNode {int val;ListNode next null;public ListNode(int val) {this.val val;} } public class BM3 {/*** 代码中的类名、方法名、参…

LINUX入门篇【9】----进程篇【1】----进程的初步认识和理解---进程的标识符以及对应的系统调用函数

前言: 从而本章开始,我们将进行进程的正式学习和讲解,进程是我们的程序驱动最重要的一环,可以说,进程几乎承载着一个程序在冯诺依曼体系和操作系统交互的全部,因此,学好进程是我们下一步系统化…

接口测试快速入门 以飞致云平台为例

飞致云电商API地址系统来自飞致云项目。接口API地址:https://gz.fit2cloud.com/swagger-ui.html 飞致云电商系统接口文档 V1.0:见 有道云笔记 该网站可以做接口测试练习。快速了解如何测试接口,如何做关联 系统基地址:https://g…

Flutter | 设置顶部状态栏的显示、隐藏、半透明灰色显示

【Flutter】设置顶部状态栏的显示、隐藏、半透明灰色显示 设置方法: // 这种模式不现实状态栏 SystemChrome.setEnabledSystemUIMode(SystemUiMode.immersiveSticky); // 这种模式显示状态栏 SystemChrome.setEnabledSystemUIMode(SystemUiMode.edgeToEdge); // 修…

HarmonyOS开发者工具DevEco Studio-汉化

HarmonyOS DevEco Studio 简介 下载安装及汉化 打开开发者工具 安装语言包重启 然后设置页搜索“chinese”,选中中文语言包,点击后面的install; 或者 汉化按照IDEA的汉法风格,需要安装插件重启就可以汉化,步骤为&…

【JavaScript】alert的使用方法 | 超详细

alert作用效果 alert&#xff08;&#xff09;方法用于显示带有一条指定消息和一个确认的按钮的警告框。 alert使用方法 方法一&#xff1a;直接写在script标签内 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"&…

RT-DETR论文阅读笔记(包括YOLO版本训练和官方版本训练)

论文地址&#xff1a;RT-DETR论文地址 代码地址&#xff1a;RT-DETR官方下载地址 大家如果想看更详细训练、推理、部署、验证等教程可以看我的另一篇博客里面有更详细的介绍 内容回顾&#xff1a;详解RT-DETR网络结构/数据集获取/环境搭建/训练/推理/验证/导出/部署 目录 一…

2023/11/26总结

一些学习记录&#xff1a; 在对数据库进行一系列操作的时候&#xff0c;遇到一个问题&#xff0c;在插入数据的时候&#xff0c;我数据库对应的是自增id&#xff0c;但是插入后想获取到这个id去使用。我以为是不可以马上获取的&#xff0c;然后看到 项目进度 购物车&#xff…

【计算机网络笔记】多路访问控制(MAC)协议——轮转访问MAC协议

系列文章目录 什么是计算机网络&#xff1f; 什么是网络协议&#xff1f; 计算机网络的结构 数据交换之电路交换 数据交换之报文交换和分组交换 分组交换 vs 电路交换 计算机网络性能&#xff08;1&#xff09;——速率、带宽、延迟 计算机网络性能&#xff08;2&#xff09;…

C++前缀和算法:统计美丽子字符串

题目 给你一个字符串 s 和一个正整数 k 。 用 vowels 和 consonants 分别表示字符串中元音字母和辅音字母的数量。 如果某个字符串满足以下条件&#xff0c;则称其为 美丽字符串 &#xff1a; vowels consonants&#xff0c;即元音字母和辅音字母的数量相等。 (vowels * cons…

光线追踪-Peter Shirley的RayTracingInOneWeekend系列教程(book1-book3)代码分章节整理

自己码完了一遍了&#xff0c;把代码分章节整理了一下&#xff0c;可以按章节独立编译&#xff0c;运行, 也可以直接下载编译好的release版本直接运行。 项目地址&#xff1a; Github: https://github.com/disini/RayTracingInOneWeekendChaptByChapt ​ ​ ​ ​

Rust语言入门教程(八) - 引用与借用

上一章的内容中我们讨论了Rust的所有权系统&#xff0c;当我们不想移动值的所有权时&#xff0c;我们可以使用引用和借用&#xff0c;而这正是本章想要讨论的问题。 引用&#xff08;References&#xff09; 引用允许你访问或修改数据而无需获取数据的所有权。在 Rust 中&…

Camtasia Studio2024专业的屏幕录制和视频剪辑软件

Camtasia2024专业的屏幕录制和视频剪辑软件3000多万专业人士在全球范围内使用Camtasia展示产品&#xff0c;教授课程&#xff0c;培训他人&#xff0c;以更快的速度和更吸引人的方式进行沟通和屏幕分享。使您在Windows和Mac上进行录屏和剪辑创作专业外观的视频变得更为简单。 …

【刷题笔记】加油站||符合思维方式

加油站 文章目录 加油站1 题目描述2 思路3 解题方法 1 题目描述 https://leetcode.cn/problems/gas-station/ 在一条环路上有 n 个加油站&#xff0c;其中第 i 个加油站有汽油 gas[i] 升。 你有一辆油箱容量无限的的汽车&#xff0c;从第 i 个加油站开往第 i1 个加油站需要消…

Blender 连续 5 天遭受大规模 DDoS 攻击

Blender 发布公告指出&#xff0c;在2023年11月18日至23日期间&#xff0c;blender.org 网站遭受了持续的分布式拒绝服务&#xff08;DDoS&#xff09;攻击&#xff0c;攻击者通过不断发送请求导致服务器超载&#xff0c;使网站运营严重中断。此次攻击涉及数百个 IP 地址的僵尸…

高并发系统:它的通用设计方法是什么?

Java全能学习面试指南&#xff1a;https://javaxiaobear.cn 我们知道&#xff0c;高并发代表着大流量&#xff0c;高并发系统设计的魅力就在于我们能够凭借自己的聪明才智设计巧妙的方案&#xff0c;从而抵抗巨大流量的冲击&#xff0c;带给用户更好的使用体验。这些方案好似能…

电子学会C/C++编程等级考试2021年09月(三级)真题解析

C/C++等级考试(1~8级)全部真题・点这里 第1题:余数相同问题 已知三个正整数 a,b,c。 现有一个大于1的整数x,将其作为除数分别除a,b,c,得到的余数相同。 请问满足上述条件的x的最小值是多少? 数据保证x有解。输入: 一行,三个不大于1000000的正整数a,b,c,两个整数…

ChatGPT初体验:注册、API Key获取与ChatAPI调用详解

自从2022年10月&#xff0c;ChatGPT诞生以后&#xff0c;实际上已经改变了很多&#xff01;其火爆程度简直超乎想象&#xff0c;一周的时间用户过百万&#xff0c;两个月的时间用户过亿。 目前ChatGPT4已经把2023年4月以前的人类的知识都学习到了&#xff0c;在软件工程里面&am…

因子分析例题(多元统计分析期末复习)

例一 设某客观现象可用 X {X} X( X 1 {X_1} X1​&#xff0c; X 2 {X_2} X2​&#xff0c; X 3 {X_3} X3​)’ 来描述&#xff0c;在因子分析时&#xff0c;从约相关阵出发计算特征值为 λ 1 {λ_1} λ1​1.754&#xff0c; λ 2 {λ_2} λ2​1&#xff0c; λ 3 {λ_3} λ3​…