AI学习记录 - 如何进行token理论知识,以GPT2为举例

news2024/9/24 13:17:35

AI学习记录已经发了十几篇,大佬们可以看看,如果有帮助动动小手点赞

token入门版,有空会更新具体代码操作,能学到一点东西的话,大佬们点个赞!!!

GPT4当中,我们提问问题是按照token进行扣费的,那到底什么是token?

在不同的语言模型当中,会有不一样的token训练方式,这却决于具体的应用场景,以GPT2为例,一共有50257个token。token就是词汇表,是训练使用到的所有的词汇。下面看下第1000个token到第1300个token之间的词汇长什么样?

。。。。。。‘ale’, ‘ĠSe’, ‘ĠIf’, ‘//’, ‘ĠLe’, ‘Ġret’, ‘Ġref’, ‘Ġtrans’,
‘ner’, ‘ution’, ‘ters’, ‘Ġtake’, ‘ĠCl’, ‘Ġconf’, ‘way’, ‘ave’,
‘Ġgoing’, ‘Ġsl’, ‘ug’, ‘ĠAmeric’, ‘Ġspec’, ‘Ġhand’, ‘Ġbetween’,
‘ists’, ‘ĠDe’, ‘oot’, ‘It’, ‘Ġear’, ‘Ġagainst’, ‘Ġhigh’, ‘gan’, ‘az’,
‘ather’, ‘Ġexp’, ‘Ġop’, ‘Ġins’, ‘Ġgr’, ‘Ġhelp’, ‘Ġrequ’, ‘ets’, ‘ins’,
‘ĠPro’, ‘ism’, ‘Ġfound’, ‘land’, ‘ata’, ‘uss’, ‘ames’, ‘Ġperson’,
‘Ġgreat’, ‘pr’, ‘Ġsign’, ‘ĠAn’, “'ve”, ‘Ġsomet’, ‘Ġser’, ‘hip’,
‘Ġrun’, ‘Ġ:’, ‘Ġter’, ‘irect’, ‘Ġfollow’, ‘Ġdet’, ‘ices’, ‘Ġfind’,
‘12’, ‘Ġmem’, ‘Ġcr’, ‘ered’, ‘ex’, ‘Ġext’, ‘uth’, ‘ense’, ‘co’,
‘Ġteam’, ‘ving’, ‘ouse’, ‘ash’, ‘att’, ‘ved’, ‘Ġsystem’, ‘ĠAs’, ‘der’,
‘ives’, ‘min’, ‘Ġlead’, ‘ĠBl’, ‘cent’, ‘Ġaround’, ‘Ġgovern’, ‘Ġcur’,
‘velop’, ‘any’, ‘Ġcour’, ‘alth’, ‘ages’, ‘ize’, ‘Ġcar’, ‘ode’, ‘Ġlaw’,
‘Ġread’, “'m”, ‘con’, ‘Ġreal’, ‘Ġsupport’, ‘Ġ12’, ‘…’, ‘Ġreally’,
‘ness’, ‘Ġfact’, ‘Ġday’, ‘Ġboth’, ‘ying’, ‘Ġserv’, ‘ĠFor’, ‘Ġthree’,
‘Ġwom’, ‘Ġmed’, ‘ody’, ‘ĠThey’, ‘50’, ‘Ġexper’, ‘ton’, ‘Ġeach’,
‘akes’, ‘Ġche’, ‘Ġcre’, ‘ines’, ‘Ġrep’, ‘19’, ‘gg’, ‘illion’, ‘Ġgrou’,
‘ute’, ‘ik’, ‘We’, ‘get’, ‘ER’, ‘Ġmet’, ‘Ġsays’, ‘ox’, ‘Ġduring’,
‘ern’, ‘ized’, ‘ared’, ‘Ġfam’, ‘ically’, ‘Ġhapp’, ‘ĠIs’, ‘Ġchar’,
‘med’, ‘vent’, ‘Ġgener’, ‘ient’, ‘ple’, ‘iet’, ‘rent’, ‘11’, ‘ves’,
‘ption’, ‘Ġ20’, ‘formation’, ‘Ġcor’, ‘Ġoffic’, ‘ield’, ‘Ġtoo’,
‘ision’, ‘Ġinf’, ‘ĠZ’, ‘the’, ‘oad’, ‘Ġpublic’, ‘Ġprog’, ‘ric’, ‘**’,
‘Ġwar’, ‘Ġpower’, ‘view’, ‘Ġfew’, ‘Ġloc’, ‘Ġdifferent’, ‘Ġstate’,
‘Ġhead’, “'ll”, ‘Ġposs’, ‘Ġstat’, ‘ret’, ‘ants’, ‘Ġval’, ‘Ġiss’,
‘Ġcle’, ‘ivers’, ‘anc’, ‘Ġexpl’, ‘Ġanother’, ‘ĠQ’, ‘Ġav’, ‘thing’,
‘nce’, ‘Wh’, ‘Ġchild’, ‘Ġsince’, ‘ired’, ‘less’, ‘Ġlife’, ‘Ġdevelop’,
‘ittle’, ‘Ġdep’, ‘Ġpass’, ‘ãĥ’, ‘Ġturn’, ‘orn’, ‘This’, ‘bers’,
‘ross’, ‘ĠAd’, ‘Ġfr’, ‘Ġresp’, ‘Ġsecond’, ‘oh’, ‘Ġ/’, ‘Ġdisc’, ‘Ġ&’,
‘Ġsomething’, ‘Ġcomple’, ‘Ġed’, ‘Ġfil’, ‘Ġmonth’, ‘aj’, ‘uc’,
‘Ġgovernment’, ‘Ġwithout’, ‘Ġleg’, ‘Ġdist’, ‘Ġput’, ‘Ġquest’, ‘ann’,
‘Ġprot’, ‘20’, ‘Ġnever’, ‘ience’, ‘Ġlevel’, ‘Ġart’, ‘Ġthings’,
‘Ġmight’, ‘Ġeffect’, ‘Ġcontro’, ‘Ġcent’, ‘Ġ18’, ‘Ġallow’, ‘Ġbelie’,
‘chool’, ‘ott’, ‘Ġincre’, ‘Ġfeel’, ‘Ġresult’, ‘Ġlot’, ‘Ġfun’, ‘ote’,
‘Ġty’, ‘erest’, ‘Ġcontin’, ‘Ġusing’, ‘Ġbig’, ‘201’, ‘Ġask’, ‘Ġbest’,
‘Ġ)’, ‘IN’, ‘Ġopp’, ‘30’, ‘Ġnumber’, ‘iness’, ‘St’, ‘lease’, ‘Ġca’,
‘Ġmust’, ‘Ġdirect’, ‘Ġgl’, ‘Ġ<’, ‘Ġopen’, ‘Ġpost’, ‘Ġcome’, ‘Ġseem’,
‘ording’, ‘Ġweek’, ‘ately’, ‘ital’, ‘Ġel’, ‘riend’, ‘Ġfar’, ‘Ġtra’,
‘inal’, ‘Ġpri’, ‘ĠUS’, ‘Ġplace’, ‘Ġform’, ‘Ġtold’, ‘":’, ‘ains’
。。。。。。

这个词汇表不是天生就有的,而是通过文本语料训练出来的。

训练的基础是使用utf-8编码。

utf-8编码是机器对计算机文本的一种表示形式,目前可以表示计算机世界当中的所有文本。如下举例:

在这里插入图片描述

上面举例的是英文,一个字符都可以用一个整数来表示,有的复杂字符需要2到4位自字符表示。如下,都是utf-8:
中 [228 184 173] 三个字节表示
¢ [194 162] 两个字节表示

假如在大量的文本训练当中,通过一些算法,计算出经常出现在一起的词汇,例如 “骑车” 二字

骑 [233, 170, 145] , 车 [232, 189, 166]

根据出现的频率,这两个单词出现的概率非常大,那么就合并成一个词汇 [233, 170, 145, 232, 189, 166]

当一篇文章有100个词,那么转换成的utf-8编码数组的数组长度肯定是>=100的,然后经过一些算法,
发现 [ 233, 170, 145, 232, 189, 166 ] 这几个整数数组经常在一起,就把他们组合成一个token,然后将他放到我们的token词汇表当中

(位置:14430,token:“骑车”,utf8编码:[233, 170, 145, 232, 189, 166]) // 假设

经过大量的高频的词汇查找然后合并词汇,就构成了50257个token。

所以GPT-4当中,按照token计费,准确来说,一个token有可能代表一个字母,半个词,一个词,也有可能代表几个词。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1993343.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

免费【2024】springboot 甘肃旅游工艺品商城的设计与实现

博主介绍&#xff1a;✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌ 技术范围&#xff1a;SpringBoot、Vue、SSM、HTML、Jsp、PHP、Nodejs、Python、爬虫、数据可视化…

ubuntu20.04 环境搭建教程

1&#xff1a; Ubuntu 版本说明 我使用版本为 ubuntu20.04 ->镜像文件网上下载最新版本 mirrors.huaweicloud.com/ubuntu-releases/20.04.6/ Ubuntu 其他说明 Ubuntu 安装的位置不建议放到 C 盘(除非你只有一个 C 盘) Ubuntu 需要 120G 的空间 2&#xff1…

从“萝卜快跑”到“东敏快跑”,百度未来路在何方?

在资本市场的波澜中&#xff0c;百度再次被推上了风口浪尖。近日&#xff0c;百度“老板娘”马东敏的减持行为不仅引发了网友的广泛讨论&#xff0c;更让百度Robotaxi&#xff08;无人驾驶出租车&#xff09;的商业化前景蒙上了一层阴影。 7月1日&#xff0c;马东敏悄然减持了百…

Swagger的介绍与使用(一)

一. 简介 OpenAPI 规范&#xff08;以前称为 Swagger 规范&#xff09;是 REST API 的 API 描述格式。 Swagger 是一个规范且完整的框架&#xff0c;用于生成、描述、调用和可视化 RESTful 风格的 Web 服务。 Swagger 的目标是对 REST API 定义一个标准且和语言无关的接口&am…

Journyx项目管理软件 soap_cgi.pyc XXE漏洞复现

0x01 产品简介 Journyx-Journyx成立于1996年,提供自托管项目管理解决方案ProjectXecute。主要功能包括资源跟踪、待办事项列表、任务分配以及与MS Project的集成。要运行ProjectXecute,需要Windows 2003或更高版本、IIS Web服务器和Intel处理器。也可以在Linux、Solaris、AI…

AI资本泡沫要来了么?——Coatue EMW 2024会议摘要

引言 随着生成式人工智能的快速发展&#xff0c;科技领域正经历着一场前所未有的变革。然而&#xff0c;伴随这一热潮而来的&#xff0c;是关于AI资本泡沫的激烈讨论。历史上&#xff0c;每一次技术革命都带来了巨大机遇&#xff0c;同时也伴随着泡沫和风险。本文将通过Coatue…

windows远程连接银河麒麟系统中的人大金仓数据库

以下来自人大金仓的官方&#xff1a; 概述 由微软提出的ODBC&#xff08;开放式数据库互连&#xff09;&#xff0c;为访问数据库提供统一的接口&#xff08;API&#xff09;。其调用流程为&#xff1a;首先应用程序调用驱动管理器以加载与数据库相对应的ODBC驱动&#xff0c;…

P35算数转换作业讲解

1.单选题 B 2.单选题 A 3.编程题 4.编程题 5.编程题 6.编程题 1.单选题 D

Java八股文面试全套真题-下

Java八股文面试全套真题-下 七、Java多线程7.1、线程的基础知识7.1.1、线程和进程的区别&#xff1f;7.1.2、并行和并发有什么区别&#xff1f;7.1.3、创建线程的四种方式7.1.4、Runnable 和 Callable有什么区别7.1.5、线程的 run()和 start()有什么区别&#xff1f;7.1.6、线程…

GLM大模型的机器翻译能力测试

背景介绍 最近想对GLM-4今年发布的几个大模型 glm-4-0520&#xff0c;glm-4-air以及glm-4-flash简单评测一下它们的机器翻译能力&#xff0c;由于这几个大模型的容量和训练数据都有区别&#xff0c;所以它们的翻译能力也是不同的。我们这里就分别选择一些有趣的&#xff0c;有…

Qt使用lupdate工具生成.ts文件

Qt提供了lupdate工具&#xff0c;用于从源代码中提取需要翻译的字符串【1】&#xff0c;并生成或更新.ts文件 注解【1】&#xff1a;使用tr()函数&#xff08;或者QCoreApplication::translate()等其他相关的翻译函数&#xff09;来标记所有需要翻译的文本。例如&#xff1a; …

MySQL4多表查询 内连接

多表查询 数据准备 CREATE DATABASE db4; USE db4; -- 创建部门表 create table if not exists dept(deptno varchar(20) primary key , -- 部门号name varchar(20) -- 部门名字 );-- 创建员工表 create table if not exists emp(eid varchar(20) primary key , -- 员工编号…

【蝉联】摩斯再次获得“中国隐私计算市场份额第一”

蝉联第一 8月2日&#xff0c;全球领先的IT市场研究和咨询公司IDC发布了《中国隐私计算平台厂商市场份额&#xff0c;2023》报告。蚂蚁集团凭借商用隐私计算平台摩斯&#xff08;MORSE&#xff09;&#xff0c;以 35.3%的市场份额蝉联第一。 2023年&#xff0c;中国隐私计算平台…

CSP 2023 普及组第一轮 - CSP/S 2023初试题 基础部分解析

第 1 题 在 C 中&#xff0c;下面哪个关键字用于声明一个变量&#xff0c; 其值不能被修改?&#xff08;B) A. unsigned B. const C. static D. mutable 【const声明的变量不可修改】 第 2 题 八进制数 12345670(8) 和 07654321(8) 的和为&#xff08;D&#xff09; A. 222222…

智能工单派单:助力家政、售后服务、维修安装等行业高效管理

在家政、售后服务、维修安装等行业&#xff0c;任务的派单、管理和客户服务一直是关键环节。自从我们公司使用了搭贝低代码平台的工单派单应用&#xff0c;这些流程变得更加流畅和高效&#xff0c;显著提升了整体运营效率。 1. 提高工作效率 &#x1f4c8; 通过搭贝平台&#…

力扣面试经典算法150题:多数元素

多数元素 今天的题目是力扣面试经典150题中的数组的简单题: 多数元素 题目链接&#xff1a;https://leetcode.cn/problems/majority-element/description/?envTypestudy-plan-v2&envIdtop-interview-150 题目描述 给定一个大小为 n 的数组 nums&#xff0c;其中包含 n 个…

ESP32开发板单向点对点ESP-NOW无线通信

ESP32开发板单向点对点ESP-NOW无线通信 简介读取ESP32接收方Receiver的MAC地址ESP32发送方Sender程序ESP32接收方Receiver程序ESP-NOW通信验证总结 简介 本例程通过两个ESP32开发板实现单向点对点ESP-NOW无线通信&#xff0c;一个ESP32开发板作为Sender发送方&#xff0c;另一…

CSP-J复赛 模拟题6 解析

此题为水题不讲解 根据无解析写代码1&#xff1a; #include <bits/stdc.h> using namespace std; string s; int main(){getline(cin,s);int lens.length();for(int i0;i<len;i){if(s[i]>A && s[i]<Z){s[i]32;}else if(s[i]>a && s[i]<z…

python自动化笔记:配置文件.ini及yml文件

目录 一、.ini配置文件1.1、ini编写格式1.2、读取.ini配置文件的数据1.3、编辑&#xff1a;写入和删除&#xff08;了解即可&#xff09; 二、yaml文件2.1、yaml编写语法规则2.2、yaml三种数据结构2.3、yaml文件的读取和写入 一、.ini配置文件 后缀名.ini 用于存储项目全局配置…

【单片机开发软件】使用VSCode开发STM32环境搭建

&#x1f48c; 所属专栏&#xff1a;【单片机开发软件技巧】 &#x1f600; 作  者&#xff1a; 于晓超 &#x1f680; 个人简介&#xff1a;嵌入式工程师&#xff0c;专注嵌入式领域基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大家&#xff1…