AI知识补全(一):tokens是什么?

news2025/3/25 23:51:30

名人说:苔花如米小,也学牡丹开。——袁枚《苔》
创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊)

目录

很高兴你打开了这篇博客,更多AI知识,请关注我、订阅专栏《AI大白话》,内容持续更新中…

当我们与ChatGPT 或 DeepSeek这样的AI对话时,它们并不是按照我们熟悉的单词或字符来处理文本的,而是使用一种称为"Tokens"的基本单位

本文将以生动直观的方式带您了解"tokens",揭示它们如何成为人类语言与人工智能之间沟通的桥梁。

一、什么是Tokens?

在大语言模型(LLM)的世界里,Tokens是文本处理的基本单位

简单来说,Tokens就像是模型眼中的"原子",是无法再被分割的最小文本单元。但与我们通常理解的单词不同,Tokens可能是完整的单词、单词的一部分、标点符号,甚至是单个字符。

在这里插入图片描述

对于中文和英文等不同语言,Tokens的划分方式存在显著差异:

  • 英文:通常会将单词拆分为更小的部分。例如,“tokenization"可能被拆分为"token”、“ization”
  • 中文:由于汉字本身就具有较强的独立语义,所以一个汉字常常就是一个Token

我们可以试着想象一下,当我们阅读一本书时,我们看到的是完整的句子和单词。但AI大模型看世界的方式不同,它们把文本拆分成一块块小积木——这些就是"Tokens"。

Tokens就像是语言的积木,模型通过组合这些积木来理解和生成文本。

在这里插入图片描述

二、为什么Tokens如此重要?

理解Tokens的概念对于使用大语言模型至关重要,主要有以下几个原因:

1.模型的输入输出限制

所有LLM都有上下文窗口大小限制,这个限制以Tokens为单位计算。例如:

  • GPT-3.5的限制是4,096个Tokens
  • GPT-4的限制是8,192个Tokens
  • Claude 3 Opus的限制是200,000个Tokens

在这里插入图片描述

当我们提交过长的文本时,超出部分会被截断,导致模型无法获取完整信息

2.计费标准

使用 商业API时,大多按Tokens计费。例如:

  • 每1,000个输入Tokens收费$X
  • 每1,000个输出Tokens收费$Y

🌟注:了解文本会转化为多少Tokens,有助于控制成本。

3.性能影响

Tokens数量直接影响处理速度和内存占用

  • Tokens越多,处理时间越长
  • Tokens越多,所需计算资源越多

三、Tokens是如何生成的?

Tokens的生成过程称为"分词"(Tokenization),这是模型预处理阶段的重要步骤

  1. 分词器(Tokenizer)选择:不同模型使用不同的分词器,如BPE(Byte Pair Encoding)、WordPiece、SentencePiece等

在这里插入图片描述

  1. 训练过程:分词器通过在大量文本上训练,学习频繁出现的字符组合
  2. 词表构建:建立有限大小的词表(Vocabulary),通常包含数万个Tokens
  3. 文本转换:将输入文本转换为词表中Tokens的序列

例如,整体的拆分流程大致如下

在这里插入图片描述

以BPE为例,它会先将文本分割为单个字符,然后迭代地合并最常见的字符对,直到达到预定的词表大小。

四、不同语言的分词差异

各种语言在分词过程中表现出显著差异:

语言特点Tokens消耗
英文空格自然分隔,常见词汇占单个Token相对较少
中文无空格分隔,每个汉字通常是一个Token相对较多
日文混合汉字与假名,分词复杂较多
阿拉伯文连笔书写,词形变化复杂较多

举例来说:

  • 英文句子"I love programming"可能只需要3个Tokens
  • 而中文翻译"我爱编程"则需要4个Tokens
  • 日文翻译可能需要8个Tokens

在这里插入图片描述

再比如 中英文汉堡包🍔的token分解对比:

在这里插入图片描述

五、实践中的Tokens计算

为了更直观地理解Tokens的计算,以下是一些例子:

英文短句: "Hello, world!" ≈ 3 tokens
中文短句: "你好,世界!" ≈ 5 tokens
英文段落: 一段200字的英文文本 ≈ 150 tokens
中文段落: 一段200字的中文文本 ≈ 400 tokens
文本估计Tokens数
“你好!”3个 (包括标点)
“Hello!”2个 (包括标点)
一条朋友圈消息(30字)约35个
一页A4纸中文(500字)约600个
一页A4纸英文(500词)约650个

六、Tokens优化策略

了解了Tokens的工作原理后,我们可以采取一些策略来优化使用:

  1. 精简输入:移除不必要的文本,如重复说明、冗长的问候语
  2. 结构化信息:使用表格、JSON等结构化格式可能比文本描述更节省Tokens
  3. 分批处理:将长文本分成多个小块分别处理
  4. 针对不同语言调整:中文等亚洲语言需要预留更多Tokens空间
  5. 利用嵌入:对于频繁使用的长文本,可以考虑使用嵌入(embeddings)技术

七、Tokens与日常使用的关系

当你在使用ChatGPT、DeepSeek等AI工具时:

  • 聊天过程中模型开始"忘记"前文:这很可能是因为超出了Tokens限制
  • 回答突然中断:可能是生成的内容接近Tokens上限
  • 响应速度变慢:处理的Tokens越多,耗时越长

小结:tokens,AI处理文本的基本单位

在这里插入图片描述


Tokens是理解和高效使用大型语言模型的关键概念。它们决定了模型能处理的文本量、响应速度和使用成本。通过深入理解Tokens的工作原理,开发者和用户可以更有效地构建提示,优化交互流程,并充分发挥大语言模型的潜力。

希望这篇文章能帮助你更好地理解大语言模型中的Tokens概念,为你的AI应用开发提供有价值的参考!如果有什么想了解的知识,欢迎评论说出你的想法!


创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2320771.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LC插件开发】基于Java实现FSRS(自由间隔重复调度算法)

😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本文讲解【LC插件开发】基于Java实现FSRS(自由间隔重复调度算法),期待与你一同探索、学习、进步,一起卷起来叭! 目录…

AI比人脑更强,因为被植入思维模型【17】万物联系思维模型

万物联系,万物,并不孤立。 定义 万物联系思维模型是一种强调世界上所有事物都相互关联、相互影响的思维方式。它认为任何事物都不是孤立存在的,而是与周围的环境、其他事物以及整个宇宙构成一个有机的整体。这种联系不仅包括直接的因果关系,还涵盖了间接的、潜在的、动态的…

【MySQL篇】复合查询

目录 前言: 1,多表查询 2,自连接 3,子查询 3.1,单行子查询 3.2,多行子查询 3.3,多列子查询 3.3,在from子句中使用子查询 4,合并查询 4.1,union …

unsloth微调QwQ32B(4bit)

unsloth微调QwQ32B(4bit) GPU: 3090 24G unsloth安装部署 pip 安装 pip install unsloth --index https://pypi.mirrors.usrc.edu.cn/simplesource /etc/network_turbopip install --force-reinstall --no-cache-dir --no-deps githttps://github.com/unslothai/unsloth.git​…

基于腾讯云大模型知识引擎×DeepSeek的高等职业学校单独招生二级学院考前咨询系统

1、主要思路 通过大模型知识引擎DeepSeek搭建高等职业学校单独招生二级学院考前咨询专有问答,使得专业老师能够更好的服务考试学生,有利于二级学院能够更好的进行考试宣传,招来优秀学子! 2、创作过程 2.1、本地部署大模型的缺陷…

【Linux】线程库

一、线程库管理 tid其实是一个地址 void* start(void* args) {const char* name (const char *)args;while(true){printf("我是新线程 %s ,我的地址:0x%lx\n",name,pthread_self());sleep(1);}return nullptr; }int main() {pthread_t tid…

物化视图详解:数据库性能优化的利器

物化视图(Materialized View)作为数据库性能优化的核心手段,通过预计算和存储查询结果,显著提升了复杂查询的效率。本文将深入剖析物化视图的工作原理、应用场景及最佳实践,帮助企业在合适的场景中充分发挥其性能优势。…

蓝桥杯备考-》单词接龙

很明显,这道题是可以用DFS来做的,我们直接暴力搜索,但是这里有很多点是我们需要注意的。 1.我们如何确定两个单词能接上? 比如touch和choose 应该合成为touchoose 就是这样两个单词,我们让一个指针指着第一个字符串…

计算机视觉yolov8模型应用-学习笔记

计算机视觉yolov8模型应用-学习笔记 YOLOv8是由Ultralytics公司在‌2023年1月10日‌发布的一款深度学习模型。它是YOLOv5的重大更新版本,支持图像分类、物体检测和实例分割任务。这一版本在发布前就受到了广泛关注,并在发布后迅速成为目标检测领域的热门…

【网络层协议】NAT技术内网穿透

IP地址数量限制 我们知道,IP地址(IPv4)是一个4字节32位的整数,那么一共只有2^32也就是接近43亿个IP地址,而TCP/IP协议栈规定,每台主机只能有一个IP地址,这就意味着,一共只有不到43亿…

深入理解 C++11 智能指针:独占、共享与弱引用的完美管理

文章目录 std::unique_ptr(独占式智能指针)std::shared_ptr(共享式智能指针)std::weak_ptr(弱引用智能指针)示例展示:智能指针的原理内存泄漏**什么是内存泄漏,内存泄漏的危害****如…

AI Agent开发大全第四课-提示语工程:从简单命令到AI对话的“魔法”公式

什么是提示语工程?一个让AI“听话”的秘密 如果你曾经尝试过用ChatGPT或者其他大语言模型完成任务,那么你一定遇到过这样的情况:明明你的问题是清晰的,但答案却离题万里;或者你认为自己提供的信息足够详尽,可结果还是不理想。问题出在哪?很多时候并不是因为AI不够聪明,…

大模型架构记录 【综述-文字版】

名词解释: Prompt :提示词,是一个非常关键的概念,它指的是用户输入的文本或指令,用于引导语言模型生成相应的回答或执行特定任务。 Prompt Engineering:(提示工程) 是一种通过设计…

【论文笔记】Transformer

Transformer 2017 年,谷歌团队提出 Transformer 结构,Transformer 首先应用在自然语言处理领域中的机器翻译任务上,Transformer 结构完全构建于注意力机制,完全丢弃递归和卷积的结构,这使得 Transformer 结构效率更高…

使用CSS3实现炫酷的3D翻转卡片效果

使用CSS3实现炫酷的3D翻转卡片效果 这里写目录标题 使用CSS3实现炫酷的3D翻转卡片效果项目介绍技术要点分析1. 3D空间设置2. 核心CSS属性3. 布局和定位 实现难点和解决方案1. 3D效果的流畅性2. 卡片内容布局3. 响应式设计 性能优化建议浏览器兼容性总结 项目介绍 在这个项目中…

SpringSecurity——基于角色权限控制和资源权限控制

目录 基于角色权限控制 1.1 自定义 UserDetailsService 1.2 加载用户角色 1.3. 给角色配置能访问的资源(使用切面拦截,使用注解) 总结 资源权限控制 2.2. 需要有一个用户;(从数据库查询用户) 2.2 基…

红宝书第十一讲:超易懂版「ES6类与继承」零基础教程:用现实例子+图解实现

红宝书第十一讲:超易懂版「ES6类与继承」零基础教程:用现实例子图解实现 资料取自《JavaScript高级程序设计(第5版)》。 查看总目录:红宝书学习大纲 一、ES6类的核心语法:把事物抽象成“模板” 想象你要设…

Python为Word文档添加书签并打包成exe

背景简述 由于一些工作场景,需要从多个Word文档中找到出现的关键词,并阅读关键词的上下文内容。文件可能几十个,手动操作太要命了。所以python尝试处理。 目录 背景简述思路第一步、功能实现结果验证 第二步、打包成exe2-1、基础准备2-2、打…

ROS导航工具包Navigation

一,安装 Navigation工具包包含在 navigation 元功能包中。你可以通过以下命令安装: sudo apt-get install ros-noetic-navigation 如果你使用的是其他ROS版本(如Melodic),将 noetic 替换为对应的版本名称&#xff08…

资金管理策略思路

详细描述了完整交易策略的实现细节,主要包括输入参数、变量定义、趋势判断、入场与出场条件、止损与止盈设置等多个方面。 输入参数(Input): EntryFrL (.6):多头入场的前一日波动范围的倍数。 EntryFrS (.3)&#xff1…