结合具体场景举例说明chatgpt预训练模型中Tokenization的原理

news2024/11/17 7:36:20

65029d1bab8fba8bcd0a750e63b80535.jpeg

假设我们有一个场景,Alice想向Chatbot询问一部电影的推荐。她发送了一条消息:“你好,能给我推荐一部好看的电影吗?”

在这个场景中,Chatbot使用了ChatGPT预训练模型。首先,Chatbot需要对Alice的消息进行Tokenization,也就是将文本转换为标记(tokens)序列。以下是Tokenization的具体过程:

1. 分词:首先将文本拆分成更小的单元。在英文中,这通常是按照空格拆分;在中文中,可能需要使用分词工具将句子拆分成单个词。

   Alice的消息为:“你好,能给我推荐一部好看的电影吗?”

   分词后的结果为:["你好", ",", "能", "给", "我", "推荐", "一部", "好看", "的", "电影", "吗", "?"]

2. 子词切分:将分词后的结果进一步拆分成子词(subwords)或字符(characters)。

   在这个例子中,我们可以假设子词切分后的结果与分词结果相同。

3. 将子词转换为标识符:将子词映射到预训练模型的词汇表中的唯一标识符(如整数ID)。

   例如:["你好": 1234, ",": 56, "能": 789, "给": 1011, "我": 1213, "推荐": 1415, "一部": 1718, "好看": 1920, "的": 2122, "电影": 2324, "吗": 2526, "?": 2728]

4. 添加特殊标记:在序列的开始和结束位置添加特殊的标记,如[BOS](Beginning of Sentence)和[EOS](End of Sentence)。

   标记化后的序列为:[BOS, 1234, 56, 789, 1011, 1213, 1415, 1718, 1920, 2122, 2324, 2526, 2728, EOS]

现在,输入序列已经转换为一组整数ID,可以被ChatGPT模型理解和处理。模型将对这些标记进行处理,生成一个回应,并将回应的标记通过类似的逆向过程(Detokenization)转换回文本,以便Alice能够理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/734500.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【力扣周赛】第 108 场双周赛

文章目录 Q1:6913. 最长交替子序列思路竞赛时代码代码优化 Q2:6469. 重新放置石块思路竞赛时代码 Q3:6923. 将字符串分割为最少的美丽子字符串解法1—— dfs回溯 剪枝 判断解法2——动态规划 Q4:6928. 黑格子的数目代码优化 成绩…

Jenkins持续集成

文章目录 Jenkins介绍Jenkins的特征 Jenkins架构Gitlab安装1. Gitlab代码托管服务器安装2. Gitlab添加组、创建用户、创建项目 jenkins安装安装JenkinsJenkins插件管理Jenkins用户权限管理Jenkins凭证管理安装Git插件和Git工具设置SSH免密登录 Maven安装和配置JenkinsDockerspr…

【数据结构】栈和队列详解

⭐️ 往期相关文章 ✨链接1:数据结构和算法的概念以及时间复杂度空间复杂度详解 ✨链接2:【数据结构】手撕顺序表 ✨链接3:【数据结构】手撕单链表 ✨链接4:【数据结构】双向带头循环链表 ⭐️ 栈和队列 🌠 栈 栈是…

react-native项目手机预览

初始化项目 使用 expo 初始化 react-native 项目,https://reactnative.cn/docs/environment-setup 运行项目 执行 start 命令运行项目 拿起你的iPhone手机,安装 expo APP,https://expo.dev/client 或者到 APP store 搜索下载。下载完成之…

基于TCP协议的聊天系统TCP-ChatSystem

基于TCP协议的点对点聊天系统 网络协议:TCP 聊天形式:点对点 所用技术:socket、多路转接、线程池、互斥锁、条件变量、MFC等。 功能点:注册、登录、添加好友、聊天等。 实现示意图 客户端登陆注册消息流转图: 客…

【MATLAB第54期】基于LSTM长短期记忆网络的多输入多输出滑动窗口回归预测模型

【MATLAB第54期】基于LSTM长短期记忆网络的多输入多输出滑动窗口回归预测模型 往期第13期已实现多输入单输出滑动窗口回归预测 本次在此代码基础上,新增多输出滑动窗口功能。 多输入单输出滑动窗口回归预测 一、实现效果 往期文章提到了对单列时间序列数据进行滑…

spdlog入门教程(1)

spdlog入门教程(1) 文章目录 spdlog入门教程(1)1、前言1.1 为什么要使用日志库1.2 尽量使用通用日志框架而不要自己实现1.3 spdlog概述1.4 地址 2、源码编译配置spdlog3、在Qt中使用spdlog1.1 验证spdlog是否配置成功1.2 将日志输…

全网最牛,Pytest自动化测试-pytest.mark.parametrize参数化实战(详细)

目录:导读 前言 一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 pytest允许在多个…

删除数据库记录错误

删除数据库记录错误:Unexpected update count received (Actual: 2, Expected: 1). All changes will be rolled back. 解决:同时删掉ID为8的记录就行了 分析:这种情况是未设置主键约束,插入了相同的记录导致的。推测应该是框架对…

Clip-Path

前言 借助clip-path,我们可以实现一些复杂的animation动画效果,我们先来简单概述一下它的特性,如MDN所描述的。 The clip-path CSS property creates a clipping region that sets what part of an element should be shown. Parts that are inside the region are shown, whi…

基于aarch64分析kernel源码 一:环境搭建

一、测试环境 功能工具操作系统ubuntu 22.04编译工具gcc-12-aarch64-linux-gnu调试工具gdb-multiarch模拟器qemu 6.2.0busyboxbusybox-1.36.1kernellinux-6.4.1编辑器vscode 二、编译器 1、查找ubuntu仓库中aarch64编译器 lqlq-virtual-machine:~/my$ apt-cache search aar…

零矩阵

暴力解法:先全部检索,定位0所在的位置, 记录到新的数组 数组的行列分别进行去重 数组中记录的行列赋值为零 如果直接修改,在行被修改之后,修改列时会因为行已经被修改产生影响 import org.junit.Test;import java.uti…

tensorboard命令行使用方法

第一步:进入虚拟环境 conda activate 虚拟环境名称 第二步: tensorboard --logdir绝对地址 第三步:在浏览器输入提供的网址

day03 重新学python——python函数

文章目录 一、python函数1.函数介绍2.函数的定义3.函数的参数4.函数的返回值5.函数的说明文档6.函数的嵌套调用7.变量的作用域8.综合案例 一、python函数 1.函数介绍 函数:即组织好的、课重复利用,用来实现特殊功能的代码段,这样可以提高代码…

生产者消费者

前言 生产者消费者模式属于一种经典的多线程协作的模式,弄清生产者消费者问题能够让我们对于多线程编程有更深刻的理解,下面,为大家分享一个生产者消费者的案例。 一、案例描述 这里以快递为例,假设有一个快递柜,用来…

蚂蚁链发布零知识证明技术架构 可满足数据“隐私保护”、“可验证”双要求

7 月 8 日,在 2023WAIC 全球区块链产业高峰论坛上,蚂蚁链宣布隐私协作平台 AntChain FAIR 进行全新架构升级,引入零知识证明(ZKP)为核心的可验证计算技术,从可信数据流转拓展到计算过程、数据属性以及身份的…

Vmware环境下的CentOS安装

CentOS7 下载安装 因为 centos 是安装在 VMware 上面的,所以需要提前安装 VMware centos 下载 网址:http://isoredirect.centos.org/centos/7/isos/x86_64/ 镜像源:http://centos.mirror.rafal.ca/7.9.2009/isos/x86_64/ 安装 centos 创建…

哪些软件分析工具需要使用到pdb符号文件?

目录 1、什么是pdb文件?pdb文件有哪些用途? 2、pdb文件的时间戳与pdb文件名称 3、常用软件分析工具有哪些? 4、使用Windbg调试器查看函数调用堆栈时需要加载pdb文件 4.1、给Windbg设置pdb文件路径 4.2、为什么要设置系统库pdb文件下载服…

深度剖析线上应用节点流量隔离技术

作者:谢文欣(风敬) 为什么要做流量隔离 源于一个 EDAS 客户遇到的棘手情况:他们线上的一个 Pod CPU 指标异常,为了进一步诊断问题,客户希望在不重建此 Pod 的情况下保留现场,但诊断期间流量还…

Element-UI 实现动态增加多个输入框并校验

文章目录 前言实现通过按钮动态增加表单并验证必填实现动态多个输入框为行内模式,其它为行外模式 前言 在做复杂的动态表单,实现业务动态变动,比如有一条需要动态添加的el-form-item中包含了多个输入框,并实现表单验证&#xff0…