生成式AI的短板在于“Token”的存在

news2024/11/27 16:52:51

生成式AI模型处理文本的方式与人类不同。理解它们基于“token”的内部环境,可能有助于解释一些奇怪行为和固有局限性。

从小型设备上的Gemma到OpenAI领先行业的GPT-4o,大多数模型都是基于一种称为Transformer的架构。由于Transformer在将文本与其他类型的数据关联时的独特方式,它们不能直接处理原始文本——至少在不消耗大量计算资源的情况下是不行的。WildCard平台支持订阅各类服务,包括GPT-4,OF,X,Overleaf等

因此,出于实用和技术原因,当前的Transformer模型都使用被分解为较小的、易处理的片段——称为“token”的文本,这一过程被称为分词。

Token可以是单词,比如“fantastic”(极好的)。也可以是音节,比如“fan”,“tas”和“tic”。根据分词器(进行分词的模型)的不同,它们甚至可能是单词中的单个字符(例如,“f”,“a”,“n”,“t”,“a”,“s”,“t”,“i”,“c”)。

通过这种方法,Transformer能够在达到称为上下文窗口的上限之前,吸收更多信息(从语义上讲)。但分词也可能引入偏差。

一些token的间距不规则,这可能会扰乱Transformer。例如,分词器可能将“once upon a time”编码为“once”,“upon”,“a”,“time”,而将“once upon a ”(带有尾随空格)编码为“once”,“upon”,“a”,“”。根据模型的提示方式——是“once upon a”还是“once upon a ,”——结果可能完全不同,因为模型并不理解(如人类那样)两者的意义相同。

分词器对大小写的处理也不同。“Hello”对模型来说不一定与“HELLO”相同;“hello”通常是一个token(取决于分词器),而“HELLO”可能多达三个(“HE”,“El”和“O”)。这也是许多Transformer未能通过大写字母测试的原因。

“要解决语言模型中‘单词’究竟应该是什么这个问题有点困难,即使我们让语言专家达成一致的完美token词汇表,模型可能仍然会发现将内容‘块化’进一步有用,”东北大学研究大型语言模型可解释性的博士生谢里丹·福伊希特(Sheridan Feucht)告诉TechCrunch。“我猜这种模糊性导致了不存在完美的分词器。”

这种“模糊性”在英语以外的语言中问题更为严重。

许多分词方法假设句子中的空格表示新词。这是因为它们是针对英语设计的。但并非所有语言都用空格来分隔单词。中文和日语没有——韩语、泰语和高棉语也没有。

2023年牛津大学的一项研究发现,由于非英语语言在分词方式上的差异,Transformer完成用非英语语言表达的任务所需时间可能是用英语表达的两倍。同一研究——以及另一项研究——发现,使用分词效率较低语言的用户可能会看到模型性能较差,但使用成本更高,因为许多AI供应商按token收费。

分词器通常将汉字系统中的每个字符(如中文)视为一个独立的token,从而导致token数量大幅增加。同样,处理黏着语(如土耳其语)——即由小的有意义词素构成单词的语言——的分词器往往将每个词素视为一个token,增加了整体token数量。(泰语中“你好”的等价词“สวัสดี”是六个token。)

2023年,谷歌DeepMind的AI研究员延妮·俊(Yennie Jun)进行了一项分析,比较了不同语言的分词及其下游影响。利用一个翻译成52种语言的平行文本数据集,俊展示了一些语言需要多达10倍的token来捕捉英语中的相同意义。

除了语言不平等,分词可能还解释了当今模型在数学上的糟糕表现。

数字很少被一致地分词。因为它们不真正知道数字是什么,分词器可能将“380”视为一个token,但将“381”表示为一对token(“38”和“1”),从而有效地破坏了数字与公式和方程结果之间的关系。结果是Transformer的混淆;最近一篇论文表明,模型难以理解重复的数字模式和上下文,特别是时间数据。(见:GPT-4认为7735大于7926。)

这也是模型不擅长解决字谜问题或倒转单词的原因。

那么,分词显然给生成式AI带来了挑战。这些挑战能解决吗?

也许可以。

福伊希特指出了“字节级”状态空间模型,如MambaByte,它可以直接处理表示文本和其他数据的原始字节,不使用分词,从而在不影响性能的情况下摄取更多数据。MambaByte在语言分析任务上与一些Transformer模型竞争,同时更好地处理“噪音”,如字符交换、间距和大写字符。

然而,像MambaByte这样的模型还处于早期研究阶段。

“让模型直接查看字符而不进行分词可能是最好的,但现在对于Transformer来说,这在计算上是不可行的,”福伊希特说。“对于Transformer模型,计算量随着序列长度成二次方增长,因此我们真的希望使用短文本表示。”

除非分词技术取得突破,否则新模型架构将是关键

阅读原文:生成式AI的短板在于“token”的存在

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1903283.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Golang | Leetcode Golang题解之第220题存在重复元素III

题目: 题解: func getID(x, w int) int {if x > 0 {return x / w}return (x1)/w - 1 }func containsNearbyAlmostDuplicate(nums []int, k, t int) bool {mp : map[int]int{}for i, x : range nums {id : getID(x, t1)if _, has : mp[id]; has {retu…

电商利器——淘宝商品月销量API接口解析

在电商时代,数据就是金钱。对于淘宝商家而言,掌握商品的销量数据无异于掌握了市场的脉搏。如今,淘宝商品月销量API接口的出现,联讯数据让商家如虎添翼,能够更加精准地把握市场动态,优化商品策略。 淘宝商…

Unity3D游戏 RPG

丛林探险游戏 人物进行探险游戏 拥有登录,首页,3D物体旋转浏览的功能,还能进行种植树等功能

[图解]SysML和EA建模住宅安全系统-12-内部块图

1 00:00:00,580 --> 00:00:02,770 接下来我们来画流了 2 00:00:03,100 --> 00:00:05,050 首先第一个是站点状态 3 00:00:05,140 --> 00:00:08,130 从这里到这里,我们画一个过来 4 00:00:10,290 --> 00:00:11,890 这里流到这里 5 00:00:11,900 -->…

[c++] 可变参数模版

前言 可变参数模板是C11及之后才开始使用,学校的老古董编译器不一定能用 相信大家在刚入门c/c时都接触过printf函数 int printf ( const char * format, ... ); printf用于将数据格式化输出到屏幕上,它的参数非常有意思,可以支持任意数量,任意类型的多参数.而如果我们想实现类…

算法系列--分治排序|归并排序|逆序对的求解

一.基本概念与实现 归并排序(mergeSort)也是基于分治思想的一种排序方式,思路如下: 分解:根据中间下标mid将数组分解为两部分解决:不断执行上述分解过程,当分解到只有一个元素时,停止分解,此时就是有序的合并:合并两个有序的子区间,所有子区间合并的结果就是原问题的解 归并…

基于java+springboot+vue实现的仓库管理系统(文末源码+lw+ppt)23-499

第1章 绪论 伴随着信息社会的飞速发展,仓库管理所面临的问题也一个接一个的出现,所以现在最该解决的问题就是信息的实时查询和访问需求的问题,以及如何利用快捷便利的方式让访问者在广大信息系统中进行查询、分享、储存和管理。这对我们的现…

QListWidget 缩略图IconMode示例

1、实现的效果如下&#xff1a; 2、实现代码 &#xff08;1&#xff09;头文件 #pragma once #include <QtWidgets/QMainWindow> #include "ui_QListViewDemo.h" enum ListDataType { ldtNone -1, ldtOne 0, ldtTwo 1, }; struct ListData…

系统化学习 H264视频编码(01)基础概念

说明&#xff1a;我们参考黄金圈学习法&#xff08;什么是黄金圈法则?->模型 黄金圈法则&#xff0c;本文使用&#xff1a;why-what&#xff09;来学习音H264视频编码。本系列文章侧重于理解视频编码的知识体系和实践方法&#xff0c;理论方面会更多地讲清楚 音视频中概念的…

读书笔记:终身成长

思维模式 两种思维模式对你意味着什么 相信自己的才能是一成不变的——也就是固定型的思维模式——会使你急于一遍遍地证明自己的能力。如果你只拥有一般水平的智力和品德&#xff0c;以及普通的个性——那么&#xff0c;你最好证明你自己能够在这些方面达到正常水平&#xf…

【Python】一文向您详细介绍 argparse中 action=‘store_true’ 的作用

【Python】一文向您详细介绍 argparse中 action‘store_true’ 的作用 下滑即可查看博客内容 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地&#xff01;&#x1f387; &#x1f393; 博主简介&#xff1a;98…

自动控制:前馈控制

自动控制&#xff1a;前馈控制 前馈控制是一种在控制系统中通过预先计算和调整输入来应对已知扰动或变化的方法。相比于反馈控制&#xff0c;前馈控制能够更快速地响应系统的变化&#xff0c;因为它不依赖于系统输出的反馈信号。前馈控制的应用在工业过程中尤为广泛&#xff0…

DAMA学习笔记(四)-数据建模与设计

1.引言 数据建模是发现、分析和确定数据需求的过程&#xff0c;用一种称为数据模型的精确形式表示和传递这些数据需求。建模过程中要求组织发现并记录数据组合的方式。数据常见的模式: 关系模式、多维模式、面向对象模式、 事实模式、时间序列模式和NoSQL模式。按照描述详细程度…

染色の树-美团2023笔试(codefun2000)

题目链接 染色の树-美团2023笔试(codefun2000) 题目内容 输入描述 输出描述 输出一行一个整数表示根节点的值。 样例1 输入 3 1 1 2 2 2 输出 0 题解1 #include<bits/stdc.h> using namespace std;const int N 50005;int n, c[N];vector<int> edge[N];int dfs(…

【pytorch20】多分类问题

网络结构以及示例 该网络的输出不是一层或两层的&#xff0c;而是一个十层的代表有十分类 新建三个线性层&#xff0c;每个线性层都有w和b的tensor 首先输入维度是784&#xff0c;第一个维度是ch_out,第二个维度才是ch_in(由于后面要转置)&#xff0c;没有经过softmax函数和…

基于java+springboot+vue实现的校园外卖服务系统(文末源码+Lw)292

摘 要 传统信息的管理大部分依赖于管理人员的手工登记与管理&#xff0c;然而&#xff0c;随着近些年信息技术的迅猛发展&#xff0c;让许多比较老套的信息管理模式进行了更新迭代&#xff0c;外卖信息因为其管理内容繁杂&#xff0c;管理数量繁多导致手工进行处理不能满足广…

11.常见的Bean后置处理器

CommonAnnotationBeanPostProcessor (Resource PostConstructor PreDestroy) AutowiredAnnotationBeanPostProcessor (Autowired Value) GenericApplicationContext是一个干净的容器&#xff0c;它没有添加任何的PostProcessor处理器。 调用GenericApplicationContext.refre…

MSPM0G3507——编码器控制速度

绿色设置的为目标值100&#xff0c;红色为编码器实际数据 。 最后也是两者合在了一起&#xff0c;PID调试成功。 源码直接分享&#xff0c;用的是CCStheia&#xff0c;KEIL打不开。大家可以看一下源码的思路&#xff0c;PID部分几乎不用改 链接&#xff1a;https://pan.baid…

CSS【详解】长度单位 ( px,%,em,rem,vw,vh,vmin,vmax,ex,ch )

px 像素 pixel 的缩写&#xff0c;即电子屏幕上的1个点&#xff0c;以分辨率为 1024 * 768 的屏幕为例&#xff0c;即水平方向上有 1024 个点&#xff0c;垂直方向上有 768 个点&#xff0c;则 width:1024px 即表示元素的宽度撑满整个屏幕。 随屏幕分辨率不同&#xff0c;1px …

HCIE之IPV6和OSPFv6(十四)

IPV6 1、IPv6基础1.1 Ipv6地址静态配置、Eui 641.1.1 Ipv6地址静态配置1.1.2、Ipv6地址计算总结1.1.2.1、IEEE eui 64计算1.1.2.1.1、作用1.1.2.1.2、计算方法1.1.2.1.3、计算过程 1.1.2.2、被请求加入的组播组地址计算&#xff08;三层&#xff09;1.1.2.2.1、 作用1.1.2.2.2、…