token和embedding

news2024/12/23 6:06:57

1. token
2. embedding

1.token
token:词元/令牌/词 tokenization:分词 tokenizer:分词器
token是最小语义单元,通常可以是,一个字母、一个词、一个数字、一个汉字或任何其他有意义的字符组合,取决于文本处理的需求和方法。
tokenization将输入文本分成一个个词元,保证各个token拥有相对完整和独立的语义
tokenization算法经历了从word/char到subword的进化 word,char,subword
目前主流subword分词算法:
(1)BPE(Byte Pair Encoding)(2)WordPiece(3)Unigram Language Model/ULM(4)SentencePiece
在这里插入图片描述

(1)word:“apple”:[‘a’, ‘p’, ‘p’, ‘le’],4个token
(2)char:“The quick brown fox ”:[‘The’, ‘quick’, ‘brown’, ‘fox’],4个token
(3)subword:“unbelievable”:[‘un’, ‘##believ’, ‘##able’],3个token子词分割方便未知词汇学习
(4)“人工智能正在改变世界”:[‘人工’, ‘智能’, ‘正在’, ‘改变’, ‘世界’],5个token
(5)“山明水秀,景色宜人” :[‘山明水秀’, ‘,’, ‘景色’, ‘宜人’],4个token,包含标点符号

word,char,subword比较:
word:
优点:词边界和含义得到保留
缺点:
1) 词表大,稀有词学不好:
词粒度词表的长尾效应,包含较多稀有词,存储和训练成本很高,且稀有词往往难学
2) OOV问题
词表之外无能为力 out of vocabulary
3) 无法处理单词的形态关系和词缀关系:
如英语过去时,复数之间当做完全不同词,无法捕捉单词之间关系和词缀
char:
优点:词表极小
缺点:
1)无法承载丰富的语义
2)序列长度增长,计算成本增加
subword:
优点:1)可以较好的平衡词表大小和语义表达能力
粒度介于word和char之间:长用词保持原状,生僻词拆分成子词以共享token压缩空间,可以较好的平衡词表大小和语义表达能力
LLM的tokenizer和对应的词汇表大小:
在这里插入图片描述
2.embedding
embedding:稀疏编码向量转换为稠密embedding编码向量,可单独训练,也可直接embedding层和语言模型层共同训练。
句子的embedding的嵌入,即进行浅层语义特征的提取,具有相似语义的单词在向量空间中的距离较近。在大规模文本语料库上进行训练得到,其中包括了丰富的语义和语法信息。
常用方法:word2vec
embedding矩阵的本质就是一个查找表。由于输入向量是one-hot的,embedding矩阵中有且仅有一行被激活。行间互不干扰。
在这里插入图片描述
tokenization和embedding步骤:
1.分词
2.扩展词汇表
3.识别并处理特殊token
4.编码成数字序列,如one-hot编码
5.embedding

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1975068.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

免费【2024】springboot 大学生心理健康诊断专家系统设计与开发

博主介绍:✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌ 技术范围:SpringBoot、Vue、SSM、HTML、Jsp、PHP、Nodejs、Python、爬虫、数据可视化…

R语言统计分析——点图

参考资料:R语言实战【第2版】 点图提供了一种在简单水平刻度上绘制大量有标签值得方法。我们可以使用dotchart()函数创建点图,格式为: dotchart(x,labels) 其中,x是一个数值向量,而labels则是由每个点的标签组成的向量…

【Linux系统编程】:进程地址空间1

1.引出进程地址空间 因为str指向的是字符串首字母的地址,首字母是字符常量“h”,地址存储在字符常量区,无法修改,故报错。 Linux进程地址空间与进程内存布局详解 - 知乎 (zhihu.com) 我们编写一段代码,来认识一下存储…

C++ const、constexpr与consteval作用与区别

C const、constexpr与consteval作用与区别 在C 常量表达式和编译时优化中,我们已经提到了常量、编译时常量与运行时常量的概念。为了加深理解,我们再重新明晰一下这三者的概念。 常量:初始化之后便不可修改的量。在c中使用const修饰的“变量”…

开源Spring Boot版本WebSSH:轻松在浏览器中管理SSH和FTP

介绍 WebSSH 是一个轻量级的开源ssh工具,只需安装在服务端,就可以通过浏览器访问SSH和FTP。它支持文件和日志高亮显示,Vim 和 Top 命令,实时查看日志,并且操作体验与标准的 Shell 基本相同。WebSSH 支持多会话、文件上…

“艺启创作 智绘未来”AI漫画创意大赛,燃动国漫新纪元!

8月2日,百度文库宣布携手玄机科技举办国内首个「AI漫画大赛」,用户可以直接尝试用AI创作漫画,并在未来为用户独家提供AI小说、AI漫画分镜等行业领先的跨模态AI创作能力。 跨界融合,创新无限 本次大赛,不仅是创意的碰撞…

深度学习 —— 个人学习笔记9(图像卷积、填充和步幅及多输入多输出通道)

声明 本文章为个人学习使用,版面观感若有不适请谅解,文中知识仅代表个人观点,若出现错误,欢迎各位批评指正。 十九、图像卷积 import torch from torch import nndevice torch.device("cuda:0" if torch.cuda.is_ava…

【Stable Diffusion】(基础篇八)—— 局部重绘

局部重绘 本系列博客笔记主要参考B站nenly同学的视频教程,传送门:B站第一套系统的AI绘画课!零基础学会Stable Diffusion,这绝对是你看过的最容易上手的AI绘画教程 | SD WebUI 保姆级攻略_哔哩哔哩_bilibili 我们使用SD生成一张整…

【Vulnhub系列】Vulnhub Noob 靶场渗透(原创)

【Vulnhub系列靶场】Vulnhub Noob靶场渗透 原文转载已经过授权 原文链接:Lusen的小窝 - 学无止尽,不进则退 (lusensec.github.io) 一、主机发现 二、端口扫描 有一个go.php的form表单接收文件 这里识别21端口存在未授权,55077 是ssh 的服务…

计算机网络学习:TCP握手挥手强制连接中断

之前系统学习过TCP协议&#xff0c;但很多地方并不是特别清晰&#xff0c;今天结合抓包情况&#xff0c;再拾一下拾一下>.< 首先看一下TCP数据包的标志位&#xff1a; SYN&#xff1a;简写为S&#xff0c;同步标志位&#xff0c;用于建立会话连接&#xff0c;同步序列号…

ubuntu20.4 微信的安装

一、背景 ubuntu作为常用系统了&#xff0c;微信少不了&#xff0c;但官方没有微信的linux版本 appImage类似于windows下免安装版本。 二、方法 1、下载appImage格式的开源微信版本 https://github.com/zydou/WeChat-AppImage/releases 2、改文件改属性 为什么使用ubuntu 作…

计算机技术基础 (bat 批处理)Note5

计算机技术基础 &#xff08;bat 批处理&#xff09;Note5 本节主要讲解 FOR 命令语句&#xff08;循环&#xff09;在 bat 批处理中的使用 (part 1) FOR 命令语句 在批处理中&#xff0c;for 是最为强大的命令语句&#xff0c;它的出现&#xff0c;使得解析文本内容、遍历文…

Python数值计算(18)——三次样条曲线概述

1. 概述 前面介绍到了多种插值方法&#xff0c;但是这些插值方法都无法避免龙格现象&#xff0c;即高阶多项式可能存在剧烈的振动&#xff0c;而且在区间的一个点处的微小扰动&#xff0c;都可能引起整个范围内的巨大振动&#xff0c;一种替代方式是使用类似线性插值的方式&am…

Python进阶 JSON数据,pyecharts制图

目录 json数据格式的转换 什么是json json本质 注意 pyecharts快速入门 画一个最简单的折线图 使用全局配置选项优化折线图 总结 json数据格式的转换 什么是json 一种轻量级的数据交换格式&#xff0c;可以按json指定的格式去组织和封装数据 json本质 带有特定格式的…

OpenSPG安装部署

文章目录 前言一、安装前准备安装docker安装docker compose 二、安装服务端下载 docker-compose.yml 文件启动服务端 三、安装客户端拉取镜像克隆OpenSPG源码 案例 前言 OpenSPG是以SPG框架为基础设计和实现的知识图谱开放引擎&#xff0c;它为领域图谱构建提供了明确的语义表…

数据结构1绪论

一、数据结构的绪论的思维导图 二、数据 1.数据是描述客观存在事务的符号&#xff0c;其能被计算机识别&#xff0c;处理。 数据不仅仅是整型&#xff0c;实型等数值类型&#xff0c;还包括声音&#xff0c;视频&#xff0c;图像等。 三、数据元素 1.数据元素是组成数据的有…

PTA—基础编程题目集(7-20)

7-20 打印九九口诀表 目录 题目描述 输入格式&#xff1a; 输出格式&#xff1a; 输入样例&#xff1a; 输出样例&#xff1a; 参考代码 总结 题目描述 下面是一个完整的下三角九九口诀表&#xff1a; 1*11 1*22 2*24 1*33 2*36 3*39 1*44 2*48 …

js基础-作用域与作用域链

什么是作用域&#xff1f; 简单说就是在代码中定义的变量或者函数能起作用的范围 什么是作用域链&#xff1f; 简单说就是JavaScript 在执行时查找变量的过程&#xff0c;它按照从当前作用域到全局作用域的顺序逐层向上搜索&#xff0c;直到找到变量或到达作用域的顶…

C#进阶-轻量级ORM框架Dapper的使用教程与原理详解

本文详细介绍了Dapper在C#中的使用方法&#xff0c;包括Dapper的基本概念、与其他持久层框架的比较、基本语法和高级语法的使用&#xff0c;并通过实例讲解了如何在项目中集成和使用Dapper。Dapper以其高效的性能和简洁的API受到开发者的青睐&#xff0c;适用于各种数据库操作需…

基于环形拓扑的多目标粒子群优化算法(MO_Ring_PSO_SCD)求解无人机三维路径规划(MATLAB代码)

一、无人机多目标优化模型 无人机三维路径规划是无人机在执行任务过程中的非常关键的环节&#xff0c;无人机三维路径规划的主要目的是在满足任务需求和自主飞行约束的基础上&#xff0c;计算出发点和目标点之间的最佳航路。 1.1路径成本 无人机三维路径规划的首要目标是寻找…