【NLP】 18. Tokenlisation 分词 BPE, WordPiece, Unigram/SentencePiece

news2025/4/15 12:18:00

1. 翻译系统性能评价方法

在机器翻译系统性能评估中,通常既有人工评价也有自动评价方法:

1.1 人工评价

人工评价主要关注以下几点:

  • 流利度(Fluency): 判断翻译结果是否符合目标语言的语法和习惯。
  • 充分性(Adequacy): 判断翻译是否传达了原文的全部信息。
  • 评价方式: 可以通过打分(Rate)、排序(Rank)以及编辑比较(Edit & Compare)的方式进行人工评测。

1.2 自动评价指标

自动评价方法常用的包括基于字符 n-grams 的指标(如 chrF)和基于单词 n-grams 的指标(如 BLEU)。

chrF 指标
  • 基本思想:
    将翻译结果与参考译文在字符级别进行 n-gram 匹配,适合于捕捉词形变化(如“read”与“Reading”),适合处理小写、标点、甚至拼写错误等情况。
  • 常用公式:
    • 精确率(Precision):
      precision = TP / (TP + FP)

    • 召回率(Recall):
      recall = TP / (TP + FN)

    • F-beita 分数(F_β-score):

      F β = ( ( 1 + β 2 ) ⋅ T P ) / ( ( 1 + β 2 ) ⋅ T P + β 2 ⋅ F N + F P ) F_β = ((1+β^2)·TP) / ((1+β^2)·TP + β^2·FN + FP) Fβ=((1+β2)TP)/((1+β2)TP+β2FN+FP)
      其中,beita 参数控制精确率和召回率之间的权重。例如,F2-score中 β= 2(公式:F2 = 5TP/(5TP + 4FN + FP)),而 F0-score 则相当于Precision, 当β很大的时候,相当于Recall

当所评估句子数量较多时,chrF 能有效反映字符级匹配情况,但当匹配以单词为单位时,可能出现“没有4-gram匹配得分为0”的情况,因此常配合其他指标综合评估。

BLEU 指标
  • 基本思想:
    BLEU 通过对比翻译输出与参考译文的单词 n-grams(通常计算一元、二元、三元和四元 n-grams)精确率,并取几何平均后乘以一个惩罚因子(brevity penalty)来处理生成句子较短的问题。
  • 局限性:
    由于BLEU只计算精确率,不考虑单词的形态变化(例如“read”和“Reading”在严格匹配时视为不同)以及上下文语序,且几何平均在数据量不足时敏感,常常无法完全反映翻译的流利性和充分性。

对比

BLEU vs. chrF

特征BLEUchrF
全称Bilingual Evaluation UnderstudyCharacter n-gram F-score
单位基于词级别(word-level)基于字符级别(character-level)
匹配单位n-gram(如词组)字符n-gram(如连续的字符组合)
语言适用性英语/法语等空格分词语言效果较好对形态复杂语言(如德语、芬兰语、中文)效果更好
对词形变化的鲁棒性差(如“run”和“runs”会被认为不同)好(字符n-gram可以捕捉到词形变化)
对词序敏感非常敏感不那么敏感
评价精度偏向于流畅性(fluency)更能捕捉语义和词形匹配(adequacy)
惩罚机制有 Brevity Penalty 惩罚过短的句子没有专门惩罚机制
实现工具NLTK、SacreBLEU官方工具:chrF++,也在 SacreBLEU 中支持

2. Tokenisation 的基本概念与问题

Tokenisation(分词或词元化)指的是将一段文本切分为基本单元(token),如单词、标点符号或子词单元。传统方法多采用基于空格分割,但存在以下问题:

2.1 基于空格分词的局限性

  • 简单的空格分割:
    通常将文本按照空格拆分出各个 token,此方法对于英文等基于空格分词的语言基本适用。但在实际情况中会遇到:
    • 缩写问题: 如 “won’t” 表示 “will not”,空格分词时可能作为一个整体或拆分为 “won” 和 “'t”。
    • 标点处理: 如 “great!” 中的感叹号有可能被保留或删除,不同工具处理方式不一致。
    • 罕见词或变体: 如 “taaaaaaasty” 可能有多种变体,直接按空格分割,无法解决拼写变化或冗余重复问题。
    • 拼写错误或新词: 如 “laern” (原意 learn)和 “transformerify” 这样的新造词也会被简单拆分,而无法充分捕捉原有语义。

2.2 Tokenisation 帮助处理罕见词等问题

通过更细粒度的分词方法,可以减少由于拼写错误、变形或新词带来的问题。例如,将长词拆成子词单元,可以使得词形变化不至于使整个单词无法识别。

  • 实例:
    • “laern” 拆分为 “la##”, “ern”。
      这样一来,即使遇到拼写错误或不常见的词,模型也能通过子词组合部分捕捉到词语的语义,从而提高整体泛化能力。

3. 子词分割策略与方法

为了更好地处理词形变化、罕见词及新词,现有许多基于子词单位的分词算法。主要包括以下三类:

3.1 Byte-Pair Encoding (BPE)

BPE 的基本算法步骤为:

  1. 初始化词汇表:
    将词汇表设置为所有单独的字符。
  2. 查找频率最高的相邻字符对:
    遍历语料,找出最常在一起出现的两个字符或子词。
  3. 合并:
    将这一对合并,生成一个新的子词单位,并更新整个语料中的分词表示。
  4. 检查词汇表大小:
    如果词汇表大小未达到预设目标(例如 100,000),则返回步骤2继续合并,直到达到要求。

这种方法简单高效,常用于许多现代 NLP 框架中。
假设我们现在的训练语料有以下 4 个词:

1. low
2. lower
3. newest
4. widest

初始我们会把每个词都拆成字符 + 特殊结束符号 </w>来防止词和词连接在一起:

l o w </w>  
l o w e r </w>  
n e w e s t </w>  
w i d e s t </w>  

🔁 步骤 0:统计所有字符对频率

从上面所有词中,统计所有相邻字符对的频率(包括 </w>):

PairCount
l o2
o w2
w 1
w e1
e r1
r 1
n e1
e w1
w e1
e s2
s t2
t 2
w i1
i d1
d e1

注意:

  • w e 出现了两次(一次是 “lower”,一次是 “newest”);
  • e ss tt </w> 是在 “newest” 和 “widest” 中反复出现的。

🔨 步骤 1:合并频率最高的字符对

我们假设 s t 是当前频率最高的(2 次)。那我们合并 s t → st

现在变成:

l o w </w>  
l o w e r </w>  
n e w e st </w>  
w i d e st </w>  

🔁 步骤 2:重新统计字符对频率

重新统计所有字符对(只列几个):

PairCount
l o2
o w2
e st2
st 2

我们发现 e stst </w> 又很频繁 → 合并 e st → est


🔨 步骤 3:合并 e st → est

结果:

bashCopyEditl o w </w>  
l o w e r </w>  
n e w est </w>  
w i d est </w>  

你看,“newest” 和 “widest” 的后缀变成了统一的 est,这就是 BPE 的威力!


🔁 再来几轮(每次合并频率最高的)

假设继续合并:

Round合并操作影响
4l olo得到 lo w
5lo wlow得到完整词 low
6e rer合并 “lower” 的尾部
7w ewe合并 “newest” 的 “we” 部分
8we + rwer可得 “lower” 更完整

每合并一次,词汇表中就新增一个子词(如 lowester 等),最终我们就有一个子词词表,用于之后的分词。


✅ 最终效果(假设分词完成后):
原始词分词结果
lowlow
lowerlow + er
newestnew + est
widestwid + est

这样,即使将来出现一个从没见过的词,比如 bravest,我们也可以分成:

brav + est

🧠 总结亮点
  • BPE 把频繁出现的字符组合合并成更长的单元
  • 最终词汇表里既有完整词(如 low),也有子词(如 est, er);
  • 能处理拼写变化、形态变化、新词
  • 是 GPT、BERT、RoBERTa、T5 等模型使用的标准方法。

3.2 WordPiece

WordPiece 最早由 Google 提出,其主要步骤与 BPE 类似,但在合并步骤中使用更复杂的决策标准:

  • 训练一个 n-gram 语言模型,
    并考虑所有可能的词汇对,选择那个加入后能最大程度降低困惑度perplexity的组合;
  • HuggingFace 实现的 WordPiece 则有时选择使得合并后 token 的概率比例满足某个公式,例如选择使得
    “|combined| / (|first symbol| * |second symbol|)” 最大的词对。

这种方法可在一定程度上更好地平衡子词与完整词的表达效果。

✂️ 分词示例(WordPiece)

playing 为例,假设词表中包含:

[ "play", "##ing", "##er", "##est", "##s" ]

playing 会被分为:

play + ##ing

再比如 unbelievable

如果词表中有:

["un", "##believable", "##able", "##lievable", ...]

则可能被分为:

un + ##believable

(如果没有 “believable”,那就会继续拆成 ##believe + ##able


🎯 WordPiece 构建流程(简要)
  1. 初始化词表:包含所有单字符 token(如 a, b, c,…);
  2. 基于最大似然概率计算所有可能合并的对;
  3. 每轮合并一对,使得整体训练语料的似然性最大;
  4. 直到词表达到预设大小(如 30,000 个 token)为止;

这比 BPE 更慢,但能得到更“语言合理”的子词。


🔍 分词过程总结

WordPiece 是一种贪心最长匹配算法,遵循以下原则:

  1. 从词首开始;
  2. 找到最长可匹配的 token(如 “unbelievable” → “un”);
  3. 然后从该点继续向右,查找 ## 前缀的匹配;
  4. 直到整个词完成或无法继续拆分;

🧠 举个例子(完整流程)

假设词表里有:

["un", "##believe", "##able", "##believable"]

处理 unbelievable

  • unbelievableun + ##believable

再处理 unbelievably

如果 ##ly 也在词表中,就可以是:

  • un + ##believable + ##ly

如果 ##believable 不在词表中:

  • 尝试 un + ##believe + ##able

✅ 总结

BPE 看频率,WordPiece 看语言模型概率。

WordPiece 更“聪明”,但 BPE 更“高效”。它们都用来解决“词太多”和“未知词”的问题。

WordPiece vs. BPE 的区别
特性BPEWordPiece
合并策略每次合并频率最高的 pair每次合并带来最大 语言模型概率提升 的 pair
评分标准纯粹基于频率基于最大似然估计(MLE)
分词方式贪心从左到右合并也使用贪心,但遵循“最大匹配”原则
应用例子GPT、RoBERTa、OpenNMTBERT、ALBERT、DistilBERT 等
词边标记可无(GPT类)## 表示词中间部分(如 play ##ing

3.3 Unigram / SentencePiece

Unigram 模型(或称 SentencePiece)采取另一种策略,不是从最小单元不断合并,而是:

  1. 初始化:
    从所有字符以及语料中频率较高的连续字符序列(甚至包括完整单词)构建一个较大的初始词汇表;
  2. 精简:
    通过一种复杂的概率模型和迭代过程,逐步删除贡献较小的词汇项,直到词汇表达到预期大小。

这种方法的优势在于能够同时考虑大单元和小单元的信息,从而得到更优的子词表示。

用 Unigram 分词 internationalization

假设词表中有:

["international", "##ization", "inter", "##national", "##ize", "##ation", "##al", "##i", "##zation"]

Unigram 会考虑所有可能组合:

  1. international + ization
  2. inter + national + ization
  3. inter + nation + al + ization

对每个组合计算 概率乘积(P(a) × P(b) × P© …),然后选取概率 最大的组合方式

比如:

international + ization → P1  
inter + national + ization → P2  
inter + nation + al + ization → P3

选取 max(P1, P2, P3) 那个组合。

3.4 各方法的比较
  • BPE: 简单、直接,广泛应用,合并依据频率;
  • WordPiece: 考虑对语言模型困惑度的影响,通常效果更好,但实现较复杂;
  • Unigram/SentencePiece: 允许初始词汇同时包含较大和较小单元,通过概率模型精简词汇,具有更大的灵活性。
Unigram vs. BPE/WordPiece
特性Unigram(SentencePiece)BPEWordPiece
分词方式选择概率最高的子词组合(非贪心)左到右合并字符对(贪心)贪心最长匹配
词表生成方式预设大词表 → EM算法删掉低概率的子词每轮合并频率最高的 pair每轮合并最大增益的 pair
分词结果是否唯一❌ 可能多个组合概率差不多✅ 唯一贪心路径✅ 贪心最长匹配
优点更灵活,能找到最优子词拆法简单快速精确但复杂
模型代表ALBERT, XLNet, T5, mBART, SentencePieceRoBERTa, GPT, MarianMTBERT, DistilBERT
特殊符号不需要空格、可直接处理未空格文本需提前空格/处理标记通常需要空格

4. 特殊常见词(例如“the”)的处理

在分词和词嵌入训练中,常见词(如 “the”、“is”、“and” 等)通常出现频率极高,这会带来两个问题:

  1. 模型训练时的影响:
    高频词容易主导模型权重,导致训练过程中对低频实义词的信息关注不足。为此,许多方法会在训练时对这些高频词进行下采样(sub-sampling),降低它们在训练中的出现频率。
  2. 评价指标的匹配:
    在翻译评价、自动摘要或其他生成任务中,通常不希望因为 “the” 这种功能词的不同写法(例如大小写问题)产生低分。在实际 tokenisation 中,往往会将所有单词统一小写,或者对停用词单独处理,从而确保这些高频但语义信息较弱的词对整体模型影响较小。

例如,在 BLEU 计算中,尽管 “read” 和 “Reading” 在大小写和形态上有所不同,但通常在预处理阶段会进行小写化;而在子词分割中,“the” 可能不再被拆分,因为它本身已经十分常见而且具有固定形式。因此,“the” 通常被保留为一个完整的 token,同时在训练和评价中通过下采样等方式控制其权重。


5. 实际案例补充

假设我们有一段英文文本作为翻译系统的输入与参考译文,并希望利用自动评价指标来评估翻译质量,同时考虑分词细节:

案例 1:翻译评价中 chrF 指标计算

  • 参考译文: “I like to read too”
  • 机器译文: “Reading, I too like”
  • 处理流程:
    1. 分词:
      利用子词分割策略处理标点和缩写,确保“Reading”可以与“read”在字符 n-gram 层面匹配。

    2. 计算字符 n-gram 匹配:
      对机器译文和参考译文分别计算字符 n-grams,再计算精确率和召回率。

    3. Fbeita 分数计算:

    4. 结果说明:
      通过字符匹配,可以部分容忍由于词形变化(例如 “read” 与 “Reading”)而带来的微小差异。

案例 2:使用 BPE 处理新词

假设文本中出现一个新词 “transformerify”,传统的词汇表中可能未收录。通过 BPE 分词过程:

  1. 初始化:
    将 “transformerify” 拆分为单个字符,即 [“t”, “r”, “a”, “n”, “s”, “f”, “o”, “r”, “m”, “e”, “r”, “i”, “f”, “y”]。
  2. 迭代合并:
    统计在整个语料中最频繁出现的相邻字符对,如果 “er” 出现次数最多,则将“e”与“r”合并为 “er”。不断进行,直到达到预定词汇大小。
  3. 结果:
    最终可能将 “transformerify” 分割为 “transforme” 和 “##ify”,使得即使新词未见过,也能利用已有的子词表示捕捉部分语义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2334538.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android游戏逆向工程全面指南

文章目录 第一部分&#xff1a;基础概念与环境搭建1.1 游戏逆向工程概述1.2 法律与道德考量1.3 开发环境准备基础工具集&#xff1a;环境配置示例&#xff1a; 第二部分&#xff1a;静态分析技术2.1 APK反编译与资源提取使用Apktool解包&#xff1a;关键文件分析&#xff1a; 2…

antv x6使用(支持节点排序、新增节点、编辑节点、删除节点、选中节点)

项目需要实现如下效果流程图&#xff0c;功能包括节点排序、新增节点、编辑节点、删除节点、选中节点等 html部分如下&#xff1a; <template><div class"MindMapContent"><el-button size"small" click"addNode">新增节点&…

榕壹云在线商城系统:基于THinkPHP+ Mysql+UniApp全端适配、高效部署的电商解决方案

项目背景&#xff1a;解决多端电商开发的痛点 随着移动互联网的普及和用户购物习惯的碎片化&#xff0c;传统电商系统面临以下挑战&#xff1a; 1. 多平台适配成本高&#xff1a;需要同时开发App、小程序、H5等多端应用&#xff0c;重复开发导致资源浪费。 2. 技术依赖第三方…

Android studio打包uniapp插件

一.参考资料与环境准备 原生工程配置需要使用到Android studio和HbuilderX 当前测试的as版本-20240301,下载地址&#xff1a;HbuilderX版本&#xff1a;4.36 二.插件创建流程 1.导入下载的UniPlugin-Hello-AS工程&#xff08;下载地址见参考资料&#xff09; 2.生成jks证书…

App Cleaner Pro for Mac 中 Mac软件卸载工具

App Cleaner Pro for Mac 中 Mac软件卸载工具 一、介绍 App Cleaner & Uninstaller Pro Mac破解&#xff0c;是一款Mac软件卸载工具&#xff0c;残余垃圾清除工具&#xff01;可以卸载应用程序或只删除不需要的服务文件&#xff0c;甚至可以删除以前删除的应用程序中的文…

开发规范——Restful风格

目录 Restful Apifox 介绍 端口号8080怎么来的&#xff1f; 为什么要使用Apifox? Restful 如果请求方式是Post&#xff0c;那我就知道了要执行新增操作&#xff0c;要新增一个用户 如果请求方式是Put&#xff0c;那就代表我要修改用户 具体要对这些资源进行什么样的操…

大模型——Llama Stack快速入门 部署构建AI大模型指南

Llama Stack快速入门 部署构建AI大模型指南 介绍 Llama Stack 是一组标准化和有主见的接口,用于如何构建规范的工具链组件(微调、合成数据生成)和代理应用程序。我们希望这些接口能够在整个生态系统中得到采用,这将有助于更轻松地实现互操作性。 Llama Stack 定义并标准化…

利用阿里云企业邮箱服务实现Python群发邮件

目录 一、阿里云企业邮箱群发邮件全流程实现 1. 准备工作与环境配置 2. 收件人列表管理 3. 邮件内容构建 4. 附件添加实现 5. 邮件发送核心逻辑 二、开发过程中遇到的问题与解决方案 1. 附件发送失败问题 2. 中文文件名乱码问题 3. 企业邮箱认证失败 三、完整工作流…

08-JVM 面试题-mk

文章目录 1.JVM 的各部分组成2.运行时数据区2.1.什么是程序计数器?2.2.你能给我详细的介绍Java堆吗?2.3.能不能解释一下方法区?2.3.1常量池2.3.2.运行时常量池2.4.什么是虚拟机栈?2.4.1.垃圾回收是否涉及栈内存?2.4.2.栈内存分配越大越好吗?2.4.3.方法内的局部变量是否线…

PostgreSQL技术大讲堂 - 第86讲:数据安全之--data_checksums天使与魔鬼

PostgreSQL技术大讲堂 - 第86讲&#xff0c;主题&#xff1a;数据安全之--data_checksums天使与魔鬼 1、data_checksums特性 2、避开DML规则&#xff0c;嫁接非法数据并合法化 3、避开约束规则&#xff0c;嫁接非法数据到表中 4、避开数据检查&#xff0c;读取坏块中的数据…

从宇树摇操avp_teleoperate到unitree_IL_lerobot:如何基于宇树人形进行二次开发(含Open-TeleVision源码解析)

前言 如之前的文章所述&#xff0c;我司「七月在线」正在并行开发多个订单&#xff0c;目前正在全力做好每一个订单&#xff0c;因为保密协议的原因&#xff0c;暂时没法拿出太多细节出来分享 ​但可以持续解读我们所创新改造或二次开发的对象&#xff0c;即解读paper和开源库…

告别 ifconfig:为什么现代 Linux 系统推荐使用 ip 命令

告别 ifconfig&#xff1a;为什么现代 Linux 系统推荐使用 ip 命令 ifconfig 指令已经被视为过时的工具&#xff0c;不再是查看和配置网络接口的推荐方式。 与 netstat 被 ss 替代类似。 本文简要介绍 ip addr 命令的使用 简介ip ifconfig 属于 net-tools 包&#xff0c;这个…

MySQL——MVCC(多版本并发控制)

目录 1.MVCC多版本并发控制的一些基本概念 MVCC实现原理 记录中的隐藏字段 undo log undo log 版本链 ReadView 数据访问规则 具体实现逻辑 总结 1.MVCC多版本并发控制的一些基本概念 当前读&#xff1a;该取的是记录的最新版本&#xff0c;读取时还要保证其他并发事务…

Gateway-网关-分布式服务部署

前言 什么是API⽹关 API⽹关(简称⽹关)也是⼀个服务, 通常是后端服务的唯⼀⼊⼝. 它的定义类似设计模式中的Facade模式(⻔⾯模式, 也称外观模式). 它就类似整个微服务架构的⻔⾯, 所有的外部客⼾端访问, 都需要经过它来进⾏调度和过滤. 常⻅⽹关实现 Spring Cloud Gateway&a…

Docker部署MySQL大小写不敏感配置与数据迁移实战20250409

Docker部署MySQL大小写不敏感配置与数据迁移实战 &#x1f9ed; 引言 在企业实际应用中&#xff0c;尤其是使用Java、Hibernate等框架开发的系统&#xff0c;MySQL默认的大小写敏感特性容易引发各种兼容性问题。特别是在Linux系统中部署Docker版MySQL时&#xff0c;默认行为可…

面试题之网络相关

最近开始面试了&#xff0c;410面试了一家公司 问了我几个网络相关的问题&#xff0c;我都不会&#xff01;&#xff01;现在来恶补一下&#xff0c;整理到博客中&#xff0c;好难记啊&#xff0c;虽然整理下来了。在这里先祝愿大家在现有公司好好沉淀&#xff0c;定位好自己的…

[春秋云镜] Tsclient仿真场景

文章目录 靶标介绍&#xff1a;外网mssql弱口令SweetPotato提权上线CSCS注入在线用户进程上线 内网chisel搭建代理密码喷洒攻击映像劫持 -- 放大镜提权krbrelayup提权Dcsync 参考文章 考点: mssql弱口令SweetPotato提权CS注入在线用户进程上线共享文件CS不出网转发上线密码喷洒…

数据集 handpose_x_plus 3D RGB 三维手势 - 手工绘画 场景 draw picture

数据集 handpose 相关项目地址&#xff1a;https://github.com/XIAN-HHappy/handpose_x_plus 样例数据下载地址&#xff1a;数据集handpose-x-plus3DRGB三维手势-手工绘画场景drawpicture资源-CSDN文库

deskflow使用教程:一个可以让两台电脑鼠标键盘截图剪贴板共同使用的开源项目

首先去开源网站下载&#xff1a;Release v1.21.2 deskflow/deskflow 两台电脑都要下载这个文件 下载好后直接打开找到你想要的exe desflow.exe 然后你打开他&#xff0c;将两台电脑的TLS都关掉 下面步骤两台电脑都要完成&#xff1a; 电脑点开edit-》preferences 把这个取…

详解MYSQL表空间

目录 表空间文件 表空间文件结构 行格式 Compact 行格式 变长字段列表 NULL值列表 记录头信息 列数据 溢出页 数据页 当我们使用MYSQL存储数据时&#xff0c;数据是如何被组织起来的&#xff1f;索引又是如何组织的&#xff1f;在本文我们将会解答这些问题。 表空间文…