Token 在 LLM

news2024/11/19 6:41:37

大语言模型不能理解原始文本,所以需要把原始文本转换成大语言模型可以理解的数字表示形式,经过大模型处理以后,需要将该数字表示形式转换为人可以理解的文本。

在这里插入图片描述

原始文本到 token

原始文本转换为token序列的过程通常是在LLM的预处理阶段完成的。

在大型语言模型(LLM)中,token是指模型输入或输出序列中的基本单元。通常情况下,一个token可能是一个单词、一个字符或一个字节序列,这取决于模型的预处理方式。
Token在LLM中扮演着非常重要的角色,主要有以下几个原因:

  1. 输入表示 - LLM需要将原始文本转换为模型可以理解的数字序列。将文本分解为token序列是这个转换过程的第一步。

  2. 输出生成 - LLM生成文本时,也是通过预测下一个token的概率分布,然后采样或选择概率较高的token,循环这个过程直到达到终止条件。

  3. 上下文窗口 - 大多数LLM有最大输入长度的限制,通过将输入分解为token,模型可以处理比词或字符级别更长的上下文。

  4. 子词tokenization - 一些tokenizer采用基于字节对编码(BPE)等子词tokenization算法,可以更好地处理未见词并减小词表大小。

  5. 模型参数 - LLM通常以token为单位计算参数大小。更大的token数量通常意味着模型可以处理更长、更复杂的输入。

总的来说,token是LLM进行序列建模和生成的基本单位,对于输入理解、输出生成、上下文捕获和参数大小等都有重要影响。合理的token设计对于LLM的性能至关重要。

根据不同的Tokenization(分词)策略,Token可以是单词、子词或者字符等。

以下是一些常见Token的例子:

  1. 单词Token

    • 句子: “The quick brown fox jumps over the lazy dog.”
    • Tokens: “The”, “quick”, “brown”, “fox”, “jumps”, “over”, “the”, “lazy”, “dog”
  2. 子词Token

    • 单词: “Unbelievable”
    • BPE子词Tokens: “Unbeli”, “evable”
  3. 字符Token

    • 单词: “Hello”
    • 字符Tokens: “H”, “e”, “l”, “l”, “o”
  4. SentencePiece Token

    • 句子: “The student studies at university.”
    • SentencePiece Tokens: “The”, " stu", “dent”, " studi", “es”, " at", " un", “ivers”, “ity”, “.”

不同Token粒度会影响模型的词汇表大小、输入长度等,需要根据具体任务和模型权衡选择。通常单词是最自然的Token单元,但对于特殊词或未见词,需使用子词或字符Token处理。

值得注意的是,不同NLP模型可能对同一个单词使用不同的Token划分方式,如BERT使用的是WordPiece子词Token。合理的Token设计对模型性能有很大影响。

https://platform.openai.com/tokenizer

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1614001.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

五一营销新趋势:出海品牌如何利用TikTok掀起热潮

数字化时代,TikTok作为当下全球热门的短视频社交平台,以其独特的内容生态和庞大的用户基础,成为出海品牌进行营销的重要阵地。2024年五一国际劳动节即将来临,如何利用TikTok平台进行有效的营销活动,是每个出海品牌都需…

【埋点探针】微信小程序SDK安装

一、下载微信小程序SDK埋点代码 选择Wechat,复制sdk代码 在项目根目录下,创建sdk文件,webfunny.event.js 二、在app.js文件中,引入埋点SDK代码 首先引入sdk代码 require("./webfunny.event.js")引入兼容代码&#x…

TCP传输的粘包问题和各种异常情况

文章目录 粘包问题用分隔符用数字代表长度 TCP传输可能遇到的异常情况进程终止电脑关机正常情况下关机非正常情况关机(停电)电脑断网 粘包问题 粘包问题其实并不是TCP独有的的问题而是每一个面向字节流都会出现的问题,那么什么是粘包问题呢&…

最近做的一些套利操作

最近做的套利不多,主要是两个品种:全球芯片LOF,标普500LOF,一共盈利1360元。 盈利不多,但是每天我只花了3分钟点几下就赚到了,捡钱就像呼吸一样简单,还要啥自行车? 整理交易记录的…

如何增强Java GCExcel API 的导入和导出性能

前言 GrapeCity Documents for Excel (以下简称GcExcel) 是葡萄城公司的一款服务端表格组件,它提供了一组全面的 API 以编程方式生成 Excel (XLSX) 电子表格文档的功能,支持为多个平台创建、操作、转换和共享与 Microsoft Excel 兼容的电子表格&#xf…

JavaScript —— APIs(三)

一、事件流 (一)定义 (二)事件捕获 事件捕获,对话框从大到小弹出,先弹出爷爷,最后弹出儿子 (三)事件冒泡 冒泡事件,对话框从小到大弹出,先弹出…

【C++】C++11 包装器

👀樊梓慕:个人主页 🎥个人专栏:《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 🌝每一个不曾起舞的日子,都是对生命的辜负 目录 前言 function包装器 fu…

大模型接口管理和分发系统One API

老苏就职于一家专注于音视频实时交互技术和智能算法的创新企业。公司通过提供全面的 SDK 和解决方案,助力用户轻松实现实时音视频通话和消息传递等功能。尽管公司网站上有详细的文档中心,但在实际开发中,仍面临大量咨询工作。 鉴于此&#x…

单页面首屏优化,打包后大小减少64M,加载速度快了13.6秒

需求背景 从第三方采购的vue2 ElementUI实现的云管平台,乙方说2011年左右就开始有这个项目了(那时候有Vue了吗,思考.jpg)。十几年的项目,我何德何能可以担此责任。里面的代码经过多人多年迭代可以用惨不忍睹来形容&a…

大模型培训老师叶梓:通过微调提升小型语言模型的复杂推理能力

在人工智能的快速发展中,复杂推理能力的提升一直是研究者们追求的目标。最近,一项发表在arXiv上的研究成果【1】,提出了一种创新的方法,即通过微调小型语言模型(LMs),并将其与大型语言模型&…

内旋风铣也挺有意思,不够还没搞透

内旋风铣,这一术语在机械制造业中并不陌生,它代表着一种高效且精确的加工方法。这一技术的名称“内旋风铣”便揭示了其两大核心特点:一是“内”,指的是在工件内部进行加工,通常涉及到难以触及的复杂曲面;二…

C语言趣味代码(二)

1.珠玑妙算 1.1 介绍 《珠玑妙算》(Mastermind)是英国Invicta公司于1973年开始销售的一款益智游戏,据说迄今为止已经在全世界销售了5000万套。《珠玑妙算》于1974年获奖后,在1975年传入美国,1976年leslieH.Autl博士甚至还出版了一本名为The…

C++笔试强训day4

目录 1.游游的you 2.腐烂的苹果 3.孩子们的游戏 1.游游的you 链接: 分析题意之后,发现就是一道简单的贪心,当然也可以把他看作纯数学题。 因为you和oo里面都有o,但是you可以得两分,所以贪心策略尽可能的去凑更多的…

千锤百炼之算法Scanner和System.out引起超时解决办法

题外话 觉得这个内容还是很关键的,过来写一下吧 本次内容有点抽象大家试着听一下 正题 做过算法题的人都知道,无论是在力扣还是牛客或者别的网站刷题,很多情况下都会遇到输入输出的情况,当我们用Scanner和System.out.print()就有可能产生超时问题 如下图 接下来会有一段代…

王者荣耀防御塔如何开发!新手小白做游戏开发采坑经过。phaser前端游戏框架

好嘞,游戏开发框架是js 开发的网页小游戏! phaser这个框架。好我们先上图! 目前大概是这么一个样子。 然后防御塔功能呢。简单的说就是当人物进去的时候打他。人物扣血。 我们的小人物是这样的代码 遇到的问题如下; 小白刚开始…

Qt/C++音视频开发70-无感切换通道/无缝切换播放视频/多通道流畅切换/不同视频打开无缝切换

一、前言 之前就写过这个方案,当时做的是ffmpeg内核版本,由于ffmpeg内核解析都是代码实现,所以无缝切换非常完美,看不到丝毫的中间切换过程,看起来就像是在一个通道画面中。其实这种切换只能说是取巧办法,…

计算机经典黑皮书分享

计算机经典黑皮书是一套计算机科学丛书,其中包含了多本计算机科学领域的经典教材 提供了全面的知识体系:黑皮书涵盖了计算机科学的多个领域,如计算机组成与设计、操作系统、数据库、人工智能等。它们深入浅出地介绍了相关领域的基本概念、原…

免费听音乐,下载音乐mp3,mp4,歌词的网站分享(2024-04-22)

亲测!!! 1、音乐客 免费听和免费下载 经典老歌 - 音乐客音乐客,yinyueke.net,免费音乐,免费在线音乐播放器,免费下载音乐,音乐,播放器,下载,播放,DJ,免费,mp3,高音质,…

07 文件-IO流字节流

File File类的使用 File对象既可以代表文件、也可以代表文件夹。它封装的对象仅仅是一个路径名,这个路径可以存在,也可以不存在 创建File类的对象 构造器说明public File(String pathname)根据文件路径创建文件对象public File(String parent, Strin…

短信验证码绕过漏洞(一)

短信验证码绕过漏洞 0x01原理: 服务器端返回的相关参数作为最终登录凭证,导致可绕过登录限制。 危害:在相关业务中危害也不同,如找回密码,注册,电话换绑等地方即可形成高危漏洞,如果是一些普…