机器翻译的产生与发展
机器翻译 (machine translation, MT) 是用计算机把一种语言(源语言, source language) 翻译成另一种语言(目标语言, target language) 的一门学科和技术。
机器翻译的困难如下:
- 自然语言中普遍存在的歧义和未知现象
- 机器翻译不仅仅是字符串的转换
- 机器翻译的解不唯一,而且始终存在的人为的标准
基本翻译方法
直接转换法
从源语言句子的表层出发,将单词、短语或句子直接置换成目标语言译文,必要时进行简单的词序调整。对原文句子的分析仅满足于特定译文生成的需要。这类翻译系统一般针对某一个特定的语言对,将分析与生成、语言数据、文法和规则与程序等都融合在一起。
基于规则的翻译方法rule-based
1957年美国学者V. Yingve在《句法翻译框架》 (Framework for Syntactic Translation) 一文中提出了对源语言和目标语言均进行适当描述、把翻译机制与语法分开、用规则描述语法的实现思想,这就是基于规则的翻译方法。
基于规则的翻译过程分成6个步骤:
(a) 对源语言句子进行词法分析
(b) 对源语言句子进行句法/语义分析
© 源语言句子结构到译文结构的转换
(d) 译文句法结构生成
(e) 源语言词汇到译文词汇的转换
(f ) 译文词法选择与生成
由于基于规则的翻译方法执行过程为: “独立分析-独立生成-相关转换”因此,又称基于转换的翻译方法。
优点:可以较好地保持原文的结构,产生的译文结构与源文的结构关系密切,尤其对于语言现象已知的或句法结构规范的源语言语句具有较强的处理能力和较 好的翻译效果。
弱点:规则一般由人工编写,工作量大,主观性强, 一致性难以保障,不利于系统扩充,对非规范语言现象缺乏相应的处理能力。
基于中间语言的翻译方法Interlingua-based
输入语句 → \rightarrow →中间语言 → \rightarrow →翻译结果
- 源语言解析器
- 比较准确的中间语言(Interlingua)
- 目标语言生成器(Target Language Generator)
优点:中间语言的设计可以不考虑具体的翻译语言对, 因此,该方法尤其适合多语言之间的互译。
弱点:如何定义和设计中间语言的表达方式,以及如何维护并不是一件容易的事情,中间语言在语义表达的准确性、完整性等很多方面,都面临若干困难。
基于语料库的翻译方法
基于事例的翻译方法Example-based
输入语句
→
\rightarrow
→与事例相似度比较
→
\rightarrow
→翻译结果
资源:大规模事例库
优点:不要求源语言句子必须符合语法规定,翻译机制一 般不需要对源语言句子做深入分析。
弱点:两个不同的句子之间的相似性(包括结构相似性和 语义相似性)往往难以把握,尤其在口语中,句子结构一 般比较松散,成分冗余和成分省略都较严重,这更增加了 分析句子与事例句子的比较难度。另外,系统往往难以处 理事例库中没有记录的陌生的语言现象,而且当事例库达 到一定规模时,其事例检索的效率较低。
统计翻译方法
转02
神经网络机器翻译
转03