深度学习——大模型分词

news2025/1/13 9:43:54

1. 前言

自从chatgpt出现,大模型的发展就进入了快车道,各种各样的大模型卷上天,作为一个在大模型时代的科研人,即使你不向前,也会被时代裹挟着向前,所以还是自己走快一点比较好,免得被后浪拍死在沙滩上。对于我而言,写文章更多的是对知识的总结和回顾,当然如果我的文章能够对你的学习有所帮助我也是挺开心的。

这篇文章主要参考B站上的这位大神的视频以及Huggingface上的总结
B站视频LLM分词
Huggingface Tokenization

另外大家也可以通过这个分词网站来玩一下分词:https://tiktokenizer.vercel.app

2. Token,Tokenization和Tokenizer的概念

首先,什么是Token?什么是Tokenization? 什么又是Tokenizer
Token:是文本数据的基本单元也即词元,通常表示一个词、子词或字符.
Tokenization:Tokenization中文翻译为分词,是将原始文本字符串分割成一系列Token的过程。这个过程可以有不同的粒度,比如单词级别分词(Word-based Tokenization)、字符级别分词(Character-based Tokenization)和子词级别分词(Subword-based Tokenization)。
Tokenizer: 是将文本切分成多个tokens的工具或算法
另外再NLP中我们经常会遇到一个词OOV(Out Of Vocabulary),意思是有些单词在词典中查询不到,例如一些根据词根现造的词,或者拼写错误的词等

接下来,我们首先介绍两种比较容易理解的分词Word-based TokenizationCharacter-based Tokenization

3. Word-based Tokenization

Word-based Tokenization 是将将文本划分为一个个词(包括标点)

我们以这句话为例:"Don't you love 🤗 Transformers? We sure do."

一种最简单的方法是通过空格进行划分:

["Don't", "you", "love", "🤗", "Transformers?", "We", "sure", "do."]

在这种划分下,标点和单词是粘在一起的: ["Transformers?","do."],,如果把标点也作为一个词的话,可以进一步划分:

["Don", "'", "t", "you", "love", "🤗", "Transformers", "?", "We", "sure", "do", "."]

但是这里的Don't 应该被划分为Do,n't,引入规则之后事情就变得复杂起来了。

英文的划分有两个常用的基于规则的工具spaCyMoses,划分如下:

["Do", "n't", "you", "love", "🤗", "Transformers", "?", "We", "sure", "do", "."]

使用Word-base Tokenization,
优点是:符合人的自然语言和直觉。
缺点是: ①相同意思的词被划分为不同的token,比如:dog和dogs ② 最终的词表会非常大

在这里插入图片描述
因此我们可以设置词表上限比如上限为10000,未知的词用Unkown表示
在这里插入图片描述
但是这样会损失大量的信息,模型性能大打折扣!

4. Character-based Tokenization

Character-based Tokenization 将文本划分为一个个字符(包括标点)。
我们以这个例子为例: Today is Sunday.

按照Character 划分,我们可以得到

["T","o","d","a","y","i","s","S","u","n","d","a","y"]

使用Character-based Tokenization 划分的优点是
① 大大减少了词汇量,在256个ASCII码表示的范围内
② 可以表示任意字符,不会出现unkown的情况
缺点是
①字母包含的信息量低,一个字母"T” 无法知道它具体指代的是什么,但如果是"Today"语义就比较明确
②相对于Word-based Tokenization ,会产生很长的token序列
③如果是中文,依然会有很大的词汇量

5. Subword-based Tokenization

待续。。。。。。。。。。。。。。。。

5.1 BPE/BBPE

5.1.1 BPE

5.1.2 BBPE

5.2 Unigram

5.3 WordPiece

5.4 SentencePiece

参考文献

简介NLP中的Tokenization(基于Word,Subword 和 Character)
https://zhuanlan.zhihu.com/p/620603105
https://blog.csdn.net/zhaohongfei_358/article/details/123379481

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2084472.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

黑神话悟空配置要求高吗? 配置要求介绍

《黑悟空神话》这款游戏从实机演示中可以看出对配置要求并不低,可以根据当前上市的游戏来推断出该游戏的配置要求。 1、推荐配置: 操作系统:Windows 7, Windows 8.1, Windows 10(均为64位) 处理器: Intel Core i5-6600K / AMD Ryzen 5 1600 内存: 16 …

vue后台项目打包成桌面应用程序(.exe)

目录(本项目基于vue2) 1、打包成功后的样子​ 2、开发环境 3、开发流程(serve build 基础设置 系统托盘) 4、插件下载地址 5、打包后的配置文件: 6、镜像 1、打包成功后的样子 2、开发环境 node:14.18.1 elec…

“等保”??到底保什么?简单了解信息安全等级保护

若已部署了畅云管家的企业需要做“等保”, 我们可提供注册等保所需材料 若有需求请咨询所属服务商 等级保护(简称“等保”) 简单总结:等保就是信息安全等级保护,网络安全法要求网络运营者应当按照网络安全等级保护…

告别复杂编程,低代码平台如何简化列表页多模型数据配置

在现代企业管理和信息系统建设中,随着业务复杂度的不断提升,单一数据模型往往难以满足复杂的数据展示需求。特别是在构建企业级应用或管理平台时,经常需要在一个界面上综合展示来自多个数据模型的信息,以便用户能够更全面地理解业…

OCR智能合同比对工具——快速比对合同差异点

在现代商业活动中,合同是确保交易双方权益和责任的重要法律文件。随着商业活动的复杂性增加,合同版本更新和修订变得越来越频繁。法务、采购等合同经办部门在处理合同时,往往面临着以下挑战: 1.版本一致:随着合同的不…

操作系统面试真题总结(一)

文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 什么是用户态和内核态 用户态和内核态是操作系统的两种运行状态。…

Redis_AOF持久化

AOF持久化 在AOF持久化的过程中,会以日志的方式记录每个redis“写”命令,并且redis服务器重启时重新执行AOF日志文件中的命令,从而达到“恢复数据”的效果 AOF故障恢复 当redis因发生故障而重启时,redis服务器会按照如下步骤根据…

演绎法推理

cp规则:给前提集合,给结论,要求推导前提推导结论。把结论化成蕴含式,里面的蕴含前件为真拿下来做补充条件,再和前提集合里面那么多条件一起推,最后推出那个结论为真。

【吊打面试官系列-Redis面试题】Redis 的数据类型?

大家好,我是锋哥。今天分享关于 【Redis 的数据类型?】面试题,希望对大家有帮助; Redis 的数据类型? 答:Redis 支持五种数据类型:string(字符串),hash&#x…

常见的服务器容器和漏洞类型汇总

常见的服务器容器和漏洞有哪些?常见的服务器容器包括KubeSphere、Tomcat、Nginx、Apache等,它们在提供便捷的服务部署和灵活的网络功能的同时,也可能存在着一定的安全风险。这些容器的漏洞可能导致数据泄露、权限被非授权访问甚至系统被完全控…

深入京东API世界:商品详情返回值的秘密

京东API世界中的商品详情返回值是一个复杂而精细的数据体系,它承载着商品的全面信息,对于商家、用户以及开发者而言,都具有极高的价值。下面,我们将深入探索京东商品详情API返回值的秘密。 基本结构概述 京东商品详情API的返回值…

【工控】线扫相机小结 第二篇

背景 上一篇中《线扫相机小结》中介绍了一些基础知识和注意事项,这一篇是对上一篇的进一步补充。 会介绍线扫相机的一些调试技巧。 如何在线调试? 我们知道,线扫相机不能像面阵相机一样实时的呈现图像,只能一行行的扫描&#x…

谷歌的搜索语法

谷歌搜索常用语法 谷歌提供了多种搜索语法,帮助用户更精确地查找所需内容。以下是一些常用语法的介绍和示例: 1. 精确匹配:使用双引号 " " 在搜索内容时,如果需要精确匹配某个词组,可以将其放在双引号内。 …

BaseCTF 高校联合新生赛 Week1

Week1 Web [Week1] HTTP BaseCTF{4248fc3d-a280-4de0-b5e6-6ff0ecaa1fca} [Week1] 喵喵喵•ﻌ• [Week1] md5绕过欸 [Week1] A Dark Room [Week1] upload 什么过滤都没有,上传一句话木马即可 [Week1] Aura 酱的礼物 卡在SSRF那里, 我想用…

SpringCloud之二注册中心(Eureka)

一、Eureka概述 Eureka是Netflix公司开源的一个服务注册与发现的中间组件。 在微服务架构系统之中,我们经常提三个角色:注册中心 (Register)、服务提供者(Provider)、服务消费者(Consumer)。 1.注册中心:服务提供者可以将服务发布到注册中心…

亚马逊aws的弹性与可扩展性解析

欢迎来到雲闪世界。可以使用各种服务和工具在 AWS 上实现可扩展性和弹性。例如,AWS Application Auto Scaling 是一种可以自动调整容量以低成本实现出色应用程序性能的服务。这允许轻松设置跨多个服务的多个资源的应用程序扩展。让我们来谈谈弹性和可扩展性之间的区…

数据结构基础详解(C语言): 树与二叉树的基本类型与存储结构详解

文章目录 1.树2.二叉树2.1 二叉树的基本概念2.2 满二叉树2.3 完全二叉树2.4 二叉排序树2.5 平衡二叉树 3.二叉树的存储结构3.1 二叉树的顺序存储3.2 二叉树的链式存储 1.树 树的基本概念 结点的度:指该结点的分支个数,如结点A的度为2 树的度:…

DHU 二维数组 暗恋

思路及代码 蛮力算法 验证是否是正方形的方法是简单的 但是蛮力下来写的不优雅 第一版超时了&#xff0c;第二版改了一点点&#xff0c;把一个循环换成了加加减减 #include<iostream> using namespace std;int main(){ //input R,C int 1< <200 //input R*C矩阵…

ceph-rgw zipper的设计理念(1)

0.前言 RGW在ceph存储中的主要作用是提供S3和Swift的协议访问支持。Zipper工作主要是将RGW分为协议部分和后端部分。协议部分还是支持S3和Swift协议&#xff0c;包括身份认证、协议参数解析和op操作解析等等&#xff1b;后端部分主要是对接不同的存储&#xff0c;比如rados&am…

利用OpenCV根据图片识别环境的亮度

一、前言 在当代数字化转型的浪潮中&#xff0c;计算机视觉技术无疑占据了举足轻重的地位&#xff0c;其应用范围之广&#xff0c;影响力之深&#xff0c;已成为推动社会进步的关键力量之一。而OpenCV&#xff0c;作为计算机视觉领域的佼佼者&#xff0c;凭借其卓越的性能与广…