关于LLM:揭秘token与embedding的机制

news2024/11/30 8:41:17

「GPT4 Turbo 的上下文长度为 128K token」

「Claude 2.1 的上下文长度为 200K token」

听起来像是一些重要的细节,那么token到底是什么?

请看一句话——It’s over 9000!

我们可以将其表示为 [“It’s”, “over”, “9000!”] 每个数组元素都可以称为一个token。

在自然语言处理(NLP)领域,它是我们定义的最小分析单位。如何称呼token取决于你的token化方法;有很多这样的方法。创建token基本上是大多数 NLP 任务的第一步。

图片

让我们直接跳转到代码示例,了解一些常用的字符串tokenization方法。

在这里插入图片描述

每种方法都有其将句子分解为token的独特方式。可以根据自己的需要创建自己的方法,但基本要点是相同的。

■1.1 为什么需要token化字符?

图片

●将复杂的文本分解为易于处理的单元

●以更易于分析或操作的格式呈现文本

●适用于特定的语言任务,如语音部分token、句法分析和命名实体识别

●在 NLP 应用程序中统一预处理文本,并创建结构化的训练数据

大多数 NLP 系统都会对这些token执行一些操作,以完成特定任务。例如,我们可以设计一个系统来处理一串token并预测下一个token。我们还可以将token转换为语音表示,作为文本到语音系统的一部分。我们还可以完成许多其他 NLP 任务,如关键词提取、翻译等。

■1.2 如何使用这些token来构建这些系统?

●特征提取: token用于提取输入机器学习模型的特征。特征可能包括token词本身、token词频率、token词在句子中的位置等。例如,在情感分析中,某些token词的出现可能会强烈地表明正面或负面的情感。

●矢量化: 在许多 NLP 任务中,使用 Bag of Words(BoW)、TF-IDF(Term Frequency-Inverse Document Frequency)或word embedding(如 Word2Vec、GloVe)等技术将token转换为数字向量。这一过程将文本数据转化为机器学习模型可以理解和处理的数字。

●序列建模: 在语言建模、机器翻译和文本生成等任务中,token被用于序列模型,如RNN、LSTM 或Transformer。这些模型通过理解上下文和token出现的可能性来学习预测token序列。

●训练模型: 在训练阶段,模型会收到token化文本和相应的标签或目标(如分类任务的类别或语言模型的下一个token)。模型会学习token和所需输出之间的模式和关联。

●语境理解: BERT 和 GPT 等高级模型使用token来理解上下文,并生成能捕捉特定上下文中单词含义的embedding。这对于同一个词根据其用法可能具有不同含义的任务来说至关重要。

简单来说,我们将文本字符串转换成独立的单位,称为**“token”**。这样,稍后将它们转换成计算机能理解 “数字” 就更容易了。

图片

图片

在像 ChatGPT 这样的 LLM 中,token是什么样子的?用于 LLM 的token化方法与用于一般 NLP 的方法不同。

从广义上讲,我们可以称之为 “subword tokenization”,即我们创建的token不一定是完整的词。

当他们说 GPT-4 Turbo 的上下文长度为 128K token时,它并不完全是 128K 个word,而是一个接近 128K 字的数字。

为什么要使用如此不同和复杂的tokenization方法?

●与完整的单词相比,这些token是更复杂的语言表征

●它们有助于处理大量词汇,包括罕见词和未知词

●处理较小的子单元在计算上更有效率

●有助于更好地理解上下文

●适应性更强,可以跨越与英语截然不同的语言

图片

■3.1 字节对编码(Byte-Pair-Encoding , BPE)

许多开源模型,如 Meta 的 LLAMA-2 和较早的 GPT 模型,都使用这种方法的一个版本。

在现实世界中,BPE 会对大量文本进行分析,以确定最常见的词对。

让我们用 GPT-2 Tokenizer 来举个简单的例子。

在这里插入图片描述

小菜一碟~

图片

■3.2 什么是 token ID?为什么是一个数字?

让我们来分析一下这个过程是如何进行的:

1)建立「Vocabulary」

●从字符开始: 最初,词汇由单个字符(如字母和标点符号)组成。

●查找常见配对: 对训练数据(大量文本语料)进行扫描,找出出现频率最高的字符对。例如,如果「th」经常出现,它就会成为词汇的候选对象。

●合并和创建新token: 然后将这些常见的字符对合并,形成新的token。这个过程会反复进行,每次都会确定并合并下一个出现频率最高的词对。词汇量会从单个字符增长到常见配对,并最终增长到更大的结构,如常见词或词的一部分。

●限制词汇量: 词汇量是有限制的(例如,GPT-2 中的词汇量为 50,000 个)。一旦达到这个限制,处理过程就会停止,从而产生一个固定大小的词汇表,其中包括字符、常见配对和更复杂token的组合。

2)分配token ID

●为词库建立索引: 最终词汇表中的每个唯一token都会分配一个唯一的数字索引或 ID。这个过程非常简单,就像在列表或数组中建立索引一样。

●token ID 表示法: 在 GPT-2 中,每段文本(如单词或单词的一部分)都用该词汇表中相应token的 ID 表示。如果一个词不在词汇表中,它就会被分解成词汇表中的更小的token。

●特殊token: 特殊token(如代表文本开头和结尾或未知单词的token)也被分配了唯一的 ID。

关键的一点是,token ID 的分配不是任意的,而是基于语言数据的出现频率和组合模式。通过这种方式,GPT-2 和类似的模型就能使用可管理的、有代表性的token集合有效地处理和生成人类语言。

在这里,"词汇 "指的是模型可以识别和处理的所有独特token。从本质上讲,它是使用给定的token化方法在训练数据的帮助下创建的token。

要处理的东西太多了!

目前的大多数 LLM 都使用 BPE 的某些变体。例如,Mistral 模型使用 byte fallback BPE tokenizer。

BPE 之外的其他方法包括 unigram、sentence piece 和 word piece。

如果你不知道这些方法,也不必担心。

我们只需要知道,创建token是处理 NLP 或 LLM 的第一步。有不同的token化方法来创建token,这些token也被分配了一些 token ID。

图片

虽然已经接触过这个词,但是在正式讨论embedding之前,需要先解释以下几点:

1)token ID 是token的直接数字表示。事实上,它是矢量化的一种基本形式。它们并不能捕捉到token之间任何更深层次的关系或模式。

2)标准的向量化技术(如 TF-IDF)包括根据某些逻辑创建更复杂的数字表示。

3)embedding是词块的高级向量表示。它们试图捕捉词块之间最细微的差别、联系和语义。每个embedding通常是神经网络计算的向量空间上的一系列实数。

简而言之,文本被转换为token。token被赋予token ID。这些token ID 可用于创建embedding,以便在复杂的模型中进行更细致的数字表示。

为什么要这样做?

因为计算机能理解数字,并通过数字进行运算。

embedding是 LLM 的“真实输入”。

让我们创建一个embedding模型,看看它到底是什么样的。

■4.1 token到embedding的转换

图片

就像不同的token化方法一样,我们也有多种token embedding转换方法。下面是一些常用的方法:

●Word2Vec—— 一种神经网络模型

●GloVe(用于单词表示的全局向量)——一种无监督学习算法

●FastText——Word2Vec 的扩展

●BERT(来自transformer的双向编码器表示法)

●ELMo(语言模型embedding)——一种深度双向 LSTM 模型

我们暂且不用担心每种方法的内部工作原理。只需知道,可以使用它们来创建计算机可以理解的文本数字表示。

以 BERT 创建 embeddings 为例:

from transformers import BertTokenizer, BertModel
import torch

# Load pre-trained model tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Load pre-trained model
model = BertModel.from_pretrained('bert-base-uncased')

# Text to be tokenized
text = "It's over 9000!"

# Encode text
input_ids = tokenizer.encode(text, add_special_tokens=True)

# Output the token IDs
print("Token IDs:", input_ids)

# Convert token IDs back to raw tokens and output them
raw_tokens = [tokenizer.decode([token_id]) for token_id in input_ids]
print("Raw tokens:", raw_tokens)

# Convert list of IDs to a tensor
input_ids_tensor = torch.tensor([input_ids])

# Pass the input through the model
with torch.no_grad():
    outputs = model(input_ids_tensor)
# Extract the embeddings
embeddings = outputs.last_hidden_state

# Print the embeddings
print("Embeddings: ", embeddings)

Token IDs: [101, 2009, 1005, 1055, 2058, 7706, 2692, 999, 102]
Raw tokens: ['[CLS]', 'it', "'", 's', 'over', '900', '##0', '!', '[SEP]']
Embeddings:  tensor([[[ 0.1116,  0.0722,  0.3173,  ..., -0.0635,  0.2166,  0.3236],
         [-0.4159, -0.5147,  0.5690,  ..., -0.2577,  0.5710,  0.4439],         
         [-0.4893, -0.8719,  0.7343,  ..., -0.3001,  0.6078,  0.3938],         
         ...,         
         [-0.2746, -0.6479,  0.2702,  ..., -0.4827,  0.1755, -0.3939],         
         [ 0.0846, -0.3420,  0.0216,  ...,  0.6648,  0.3375, -0.2893],         
         [ 0.6566,  0.2011,  0.0142,  ...,  0.0786, -0.5767, -0.4356]]])

仔细观察代码可以看出:

●就像上一个使用 GPT-2 的例子一样,我们首先对文本进行token。BERT使用词块法进行token化。它基本上是根据某些标准将单词分解成更小的片段。

●我们得到token ID,然后打印原始token。请注意它与 GPT-2 token生成器输出的不

同之处。

●我们根据token ID 创建一个张量,并将其作为输入传递给预先训练好的 BERT 模型。

●我们从最后一个隐藏状态获取最终输出。

可以得出embedding基本上就是数字数组。

当你说出「It’s over 9000!」的指令时,计算机基本上会读取一个包含实数的 N 维张量数组。

为什么embeddings如此庞大和复杂?它们代表什么?

●每个token的embedding都是一个高维向量。 这样,模型就能捕捉到广泛的语言特征和细微差别,如单词的含义、语篇及其与句子中其他单词的关系。

●上下文embedding: 与简单的单词embedding(如 Word2Vec)不同,BERT 的embedding是上下文式的。这意味着同一个词可以根据其上下文(周围的词)有不同的embedding。要捕捉这种上下文上的细微差别,需要丰富而复杂的embedding。

在我们的例子中,句子「It’s over 9000!」被转化为多个token(包括 BERT 为处理而添加的特殊token)。每个token都有自己的embedding向量。

●在 BERT 等更复杂的模型中,不仅可以获得最终的embedding向量,还可以访问神经网络每一层的embedding向量。每一层都能捕捉语言的不同方面,从而增加了张量的复杂性和大小。

●进一步任务的输入: 这些embedding信息可用作各种 NLP 任务的输入,如情感分析、问题解答和语言翻译。丰富的embedding使得模型能够以高度复杂的方式执行这些任务。

●模型的内部表示: 这些张量的复杂性反映了模型是如何 "理解 "语言的。embedding中的每个维度都可以代表模型在训练过程中学到的某些抽象语言特征。

简而言之,embedding式是使 LLMs 运行良好的秘诀。如果能找到更好的embedding方法,就有可能创建出更好的模型。

当这些数字被训练好的人工智能模型架构处理时,它就会以相同的格式计算出新的值,代表模型所训练任务的答案。在 LLM 中,这就是对下一个token的预测。

我们在用户界面上看到的结果基本上就是从输出数字中检索出的文本。

在训练 LLM 时,我们基本上是在尝试优化模型中所有与输入embedding相关的数学计算,以创建所需的输出。

所有这些计算都包括一些称为模型权重的参数。它们决定了模型如何处理输入数据以产生输出。

embedding实际上是模型权重的一个子集。它们是与输入层(在前馈网络中)或embedding层(通常是第一层)相关的权重。

模型权重和embedding可以作为随机变量初始化,也可以从预先训练好的模型中提取。然后在训练阶段更新这些值。

我们的目标是为模型权重找到合适的值,从而使模型在给定输入的情况下进行的计算能产生最准确的输出。

图片

◆大型语言模型基本上是用embedding和模型权重进行复杂计算的大型黑盒子;

◆text → token → token ID → embedding。计算机通过数字进行运算。embedding是 LLM 理解上下文语言的秘诀;

◆有许多不同的技术可以创建token和embedding,这对模型的工作方式有很大影响。

#Call back

我们计算了简单文字 “It’s over 9000!” 的巨大张量数组embedding。这个embedding数组中究竟有多少个元素?

可以通过一个名为 numel() 的简单函数来计算。

在这里插入图片描述

嗯,看来 “It’s over 9000!” 的元素并没有超过 9000……(汗)

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1824692.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

救命!接手了一个老项目,见到了从业10年以来最烂的代码!

后台回复“书籍”,免费领取《程序员书籍资料一份》 后台回复“5000”,免费领取面试技术学习资料一份 在程序员这个行业从业快10年了,每过几个月回头看看自己写的代码,都会觉得写的也太烂了,不敢想象是自己之前写的。…

CorelDRAW2024破解版看这里!免费分享

亲爱的设计爱好者们,你们好呀!今天我要给大家种草一款神奇的软件——CorelDRAW 2024!🤩🎉 作为一位软件技术爱好者,我一直在寻找那些能让我们事半功倍的工具。最近,我在数字设计领域发现了一个…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 目录管理器(200分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 📎在线评测链接 目录管理器(200分) 🌍 评测功能需要订阅专栏后私信联系清隆…

QShop商城-短信通知配置

QShop商城-短信通知配置 本系统短信通知配置可选阿里云/腾讯云,二者二选一即可. 阿里云短信 一、登录阿里云短信平台 阿里云短信平台管理地址:https://dysms.console.aliyun.com/dysms.html 二、账户ID和秘钥(AccessKeyId 和 AccessKeySecret&#x…

认识一些分布函数-Frechet分布及其应用

1. 何为Frechet分布 Frechet分布也称为极值分布(EVD)类型II,用于对数据集中的最大值进行建模。它是四种常用极值分布之一。另外三种是古贝尔分布、威布尔分布和广义极值分布(Gumbel Distribution, the Weibull Distribution and the Generalized Extreme Value Distributi…

3D 图片悬停效果

3D 图片悬停效果 效果展示 CSS 知识点 background 属性的综合运用transform 属性的综合运用 页面整体布局 <div class"box"><span style"--i: 0"></span><span style"--i: 1"></span><span style"--i…

数据资产管理的未来趋势:洞察技术前沿,探讨数据资产管理在云计算、大数据、区块链等新技术下的发展趋势

一、引言 随着信息技术的飞速发展&#xff0c;数据已成为企业最重要的资产之一。数据资产管理作为企业核心竞争力的关键组成部分&#xff0c;其发展趋势和技术创新受到了广泛关注。特别是在云计算、大数据、区块链等新技术不断涌现的背景下&#xff0c;数据资产管理面临着前所…

常用的JDK调优监控工具整理

JVM 调优首先要做的就是监控 JVM 的运行状态&#xff0c;这就需要用到各种官方和第三方的工具包了 一、 JDK 工具包 JDK 自带的 JVM 工具可以分为命令行工具和可视化工具 命令行工具 jps: JVM Process status tool&#xff1a;JVM进程状态工具&#xff0c;查看进程基本信息j…

阻塞IO、非阻塞IO、IO复用的区别 ?(非常详细)零基础入门到精通,收藏这一篇就够了

前言 在《Unix网络编程》一书中提到了五种IO模型&#xff0c;分别是&#xff1a;阻塞IO、非阻塞IO、IO复用、信号驱动IO以及异步IO。本篇文章主要介绍IO的基本概念以及阻塞IO、非阻塞IO、IO复用三种模型&#xff0c;供大家参考学习。 一、什么是IO 计算机视角理解IO: 对于计…

关闭kylin(麒麟)系统的安全认证(烦人的安全认证)

打开grub sudo vim /etc/default/grup修改安全认证选项 增加12行&#xff0c;把13行注释掉 保存更改, 然后执行下面的命令&#xff1a; sudo sync sudo reboot重启成功后&#xff0c;就关闭了安全认证了~~~~~。 总体来讲&#xff0c;kylin还是基于ubuntu的内核的&#xff0c;…

多号朋友圈统一管理,自动转发是什么体验?

拥有多个微信号的你&#xff0c;是不是也觉得手动管理和发布多个朋友圈可能会非常耗时&#xff1f; 今天&#xff0c;就分享一个神器给你&#xff0c;让你可以高效管理多个微信号的朋友圈&#xff0c;并实现自动转发。 首先&#xff0c;你需要在个微管理系统上登录所有的微信…

停止游戏中的循环扣血显示

停止游戏中循环扣血并显示的具体实现方式会依赖于你的代码结构和游戏的逻辑。通常情况下&#xff0c;你可以通过以下方式来实现停止循环扣血和显示&#xff1a; 1、问题背景 在使用 Python 代码为游戏开发一个生命值条时&#xff0c;遇到了一个问题。代码使用了循环来减少生命…

【博客718】时序数据库基石:LSM Tree(log-structured merge-tree)

时序数据库基石&#xff1a;LSM Tree(log-structured merge-tree) 1、为什么需要LSM Tree LSM被设计来提供比传统的B树更好的写操作吞吐量&#xff0c;通过消去随机的本地更新操作来达到这个目标&#xff0c;使得写入都是顺序写&#xff0c;而不是随机写。 那么为什么这是一个…

Eclipse 单步调试的时候报错,通过一些设置处理下。

先帖张图&#xff1a; 勾选不提醒。 1、通过Java Compiler&#xff0c;进行设置: 然后设置以后&#xff0c;进入调试&#xff0c;还是 报上面的错&#xff0c;有的小伙伴说是先去勾选&#xff0c;然后确认。 然后再选择&#xff0c;确认。 2、设置Jdk为自己安装的。 设置成功后…

积木搭建游戏-第13届蓝桥杯省赛Python真题精选

[导读]&#xff1a;超平老师的Scratch蓝桥杯真题解读系列在推出之后&#xff0c;受到了广大老师和家长的好评&#xff0c;非常感谢各位的认可和厚爱。作为回馈&#xff0c;超平老师计划推出《Python蓝桥杯真题解析100讲》&#xff0c;这是解读系列的第83讲。 积木搭建游戏&…

LaTeX 学习 第2节 数学结构

----用教授的方式学习 目录 2.1 上标与下标 2.2 上下画线与花括号 2.3 分式 2.4 根式 2.5 矩阵 ​​​​​​​LaTex安装包&#xff1a;https://download.csdn.net/download/weixin_38135241/89416392 LaTex- windows安装包&#xff1a;https://download.csdn.net/down…

TF-IDF算法:探究文本分析的关键技术

在自然语言处理(NLP)和信息检索领域,TF-IDF(Term Frequency-Inverse Document Frequency)算法是一种被广泛使用且极其重要的技术。它通过衡量单词在文档集中的重要性来帮助理解和处理文本数据。本文将详细探讨TF-IDF算法的原理、实现、应用及其在实际场景中的表现,并分析…

JVM 垃圾回收分配及算法

一、判断对象是否可以回收 垃圾收集器在做垃圾回收的时候&#xff0c;首先需要判定的就是哪些内存是需要被回收 的&#xff0c;哪些对象是「存活」的&#xff0c;是不可以被回收的&#xff1b;哪些对象已经「死掉」了&#xff0c;需 要被回收。 一般有两种方法来判断&#xff…

深度学习之---迁移学习

目录 一、什么是迁移学习 二、为什么需要迁移学习&#xff1f; 1. 大数据与少标注的矛盾&#xff1a; 2. 大数据与弱计算的矛盾&#xff1a; 3. 普适化模型与个性化需求的矛盾&#xff1a; 4. 特定应用&#xff08;如冷启动&#xff09;的需求。 三、迁移学习的基本问题有…

utm投影

一 概述 UTM (Universal Transverse Mercator)坐标系是由美国军方在1947提出的。虽然我们仍然将其看作与“高斯&#xff0d;克吕格”相似的坐标系统&#xff0c;但实际上UTM采用了网格的分带&#xff08;或分块&#xff09;。除在美国本土采用Clarke 1866椭球体以外&#xff0c…