GPT的token是怎么计算的

news2024/11/25 20:30:29

百花齐放的AI模型

自从ChatGPT横空出世

计算机进入了AI时代

国内也诞生了不少优秀的替代品

讯飞系、通义系、文心等等

国内排名最高的阿里通义

720亿参数的模型Qwen-72B

力压Llama 2等国内外开源大模型

登顶Hugging Face的开源大模型排行榜首

包括C-Eval、CMMLU、Gaokao-Bench、AGIEval等参数

更是超过了GPT-4
在这里插入图片描述


随之而来

各个厂商也开启了AI应用接入的服务

比如讯飞星火

早在1.0、1.5版就提供了API接入的方式

后续各个厂商也逐步对齐

讯飞注册的时候

直接赠送200万的token使用量

哪怕收费版都做到了

几毛钱购买几万tokens的使用

那么问题来了

token是什么?

是文字吗?

图片等媒体怎么算费用呢?

自然语言处理

token的来源是NLP和机器学习的术语

指的是文本中的基本单位

如果简单理解就是文字/词的个数

比如 hello world

就是2个tokens

又比如 我爱北京天安门

就是7个tokens

不同厂商的算法略有不同

可能会有子词单元

比如定义了一些专业术语

北京,可以把这个词组当作一个整体token

标点符号也算1个token

但空格一般不算


对于多模内容服务

比如图片生成

我们可以通过输入prompt提示语

快速生成图片

这种计算则会将图像分割成不同的小块

然后每一块通过一个线性变换映射到一个更高维度的向量

最后加上位置编码形成最终的tokens

主要包括拆分、转换、编码等步骤

把图片想象成二维码就明白了

二维码是一堆黑白格子组成的

比如常见的一个512x512像素的区域

会算作约170个tokens

计费

比如我们在某某云购买了AI接入服务

以100万tokens为例

那是不是说

可以发送100万个文字呢?


这里有个误区

首先,输入输出都是算tokens的

就像20多年前

手机双向收费一样

打电话收钱

接电话也收钱

那使用AI对话也是一样

你发出去的文字

和AI回复的内容

都是要算成tokens的


而且如果您想要更好的对话效果

比如语言有前后连贯性

通常发送文字的时候

会将前文对话的来回内容

都再次发送给AI

因此每次消耗的tokens

远比你想象的多

以常规对话为例

我每次提问20个字

AI回复我500字

我连续提问三次

他回复三次

这时的消耗量是:

第一轮:20+500=520

第二轮:520+20+500=1040

第三轮:520+20+500=1560

以此类推,只要兼顾上下文

消耗量会成倍增长

因此为了节约成本

通常不会回传超过5句的上下文

体验AI

现在各大AI厂商都开始吸引用户

无论免费体验

还是API接入

门槛已经变得很低

新生事物多试试准没错

甚至还能帮我们写代码呢

反正不花钱

先体验一把

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2061285.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

electron-vite封装UI级的消息提示

说明 Electron Vite Vue3 Element Plus Electron中写提示有两种方案: 系统级:electron带的dialog相关APIUI级:UI框架内部的提示,如ElMessage、ElMessageBox、ElNotification等 今天来封装一下UI级别的提示 代码 效果图 源…

tomcat利用 nginx 反向代理

利用 nginx 反向代理功能,实现图中的代理功能,将用户请求全部转发至指定的同一个 tomcat 主机 利用 nginx 指令 proxy_pass 可以向后端服务器转发请求报文 , 并且在转发时会保留客户端的请求报文中的 host首部 实现 tomcat 中的负载均衡 动态服务器的…

day6JS-DOM(文档对象模型)

DOM树 DOM 操作 1. 获取元素 1.1 根据id名获取元素 document.getElementById("id名"); 案例&#xff1a; <body><div id"box">div盒子</div><h1>一级标题</h1><script>console.log(document.getElementById(&quo…

软件测试费用怎么算?湖南软件测评公司简析

随着信息技术的迅猛发展&#xff0c;软件在各行各业中的应用日益广泛&#xff0c;软件测试的重要性愈加凸显。特别是对于各种规模的企业&#xff0c;确保软件质量和安全性不仅是提升竞争力的关键因素&#xff0c;更是维护用户信赖的基础。 软件测试作为软件开发过程中的关键环…

IO进程线程8月21日

1&#xff0c;思维导图 2&#xff0c;登录 #ifndef __LOG_H__ #define __LOG_H__ #include<myhead.h> typedef struct {char name[20];char pwd[20]; }str;int regist();int login(); #endif#include"log.h" int login() {char a[20]"\n";str p,s;…

IPC进程间通信方式及网络通信

一、IPC进程间通信方式 1.共享内存&#xff08;最高效的进程间通信方式&#xff09; 其允许两个或多个进程共享一个给定的存储区&#xff0c;这一段存储区可以被两个或以上的进程映射至自己的地址空间中&#xff0c;一个进程写入共享内存的信息&#xff0c;可以被其他使用这个…

SQL Server数据库查询常用语句汇总

这里&#xff0c;汇总了在使用SQL Server数据库的过程中经常会写的查询语句。 情形1 根据时间查询最新一条数据 &#xff08;dtime类型为datetime&#xff09; select top 1 名称 as name,列名1 as parname1,列名2 as parname2,dtime,col1,col2 from demo order by dtime …

算法基础及例题

1、双指针 维护区间信息、子序列匹配、利用序列有序性、单项链表找环双指针 - OI Wiki (oi-wiki.org) 盛最多水的容器https://leetcode.cn/problems/container-with-most-water/ public class Solution {public int maxArea(int[] height) {int l 0, r height.length - 1;int…

docker 导出导入镜像

这两天我在自己的虚拟机器上想docker pull tomcat 但是一直失败&#xff0c;那么我想到了一个思路就是在阿里云上的服务器上把镜像打包&#xff0c;然后倒导入的本地的虚拟机上。 查看当前的镜像&#xff1a; 我们现在想要打包哪个镜像呢&#xff0c;比如打包&#xff1a;tom…

线段树-点修区查

翻博客的时候突然发现线段树好像一个没有&#xff0c;我就准备把线段树给讲一下 分三个章节 点修区查 区修区查 区修区查&#xff08;带乘法&#xff09; 今天这一章比较简单&#xff0c;最多就区查稍微要动一点脑子 题目简介 输入n和m&#xff0c;n代表数的个数&#x…

python多进程multiprocessing(共享字典)

一&#xff0c;线程与进程的区别 纲领&#xff1a;进程是资源分配的最小单位&#xff0c;线程是CPU调度的最小单位 听老师傅说&#xff0c;在python上线程作用不大&#xff0c;最好还是使用多进程。 二&#xff0c;简单使用multiprocessing 检测一下电脑性能如何&#xff1a…

Mac电脑遇到DNS解析失败,ip可以访问,域名无法访问

当Mac电脑遇到DNS解析失败的问题时&#xff0c;可以尝试以下几个解决方法‌&#xff1a; 1.检查网络连接‌&#xff1a;确保Mac已连接到可用的网络&#xff0c;并且网络连接正常。可以尝试重新连接Wi-Fi或使用有线连接来排除网络问题。 2.清除DNS缓存‌&#xff1a;打开终端应…

技术革新,智能恢复:2024年AI驱动的数据恢复软件

数据的脆弱性不容忽视&#xff0c;误删、格式化、硬盘损坏等意外情况时有发生&#xff0c;让我们面临数据丢失的风险。幸运的是现在有不少数据恢复精灵应运而生。今天&#xff0c;就让我们一起探索2024年大家都在用的数据恢复精灵工具。 1.福昕数据恢复 链接直达&#xff1a;…

项目控件组(基于项)Item-Based-Qt-思维导图-学习笔记

项目控件组&#xff08;基于项&#xff09;Item-Based 控件组 &#xff08;1&#xff09;List Widget:清单控件 QListWidget 控件简介 继承关系&#xff1a;继承自 QListView 功能&#xff1a;提供一个基于项的列表小部件&#xff0c;允许添加和删除项目&#xff0c;使用内部…

springboot的启动流程原理

目录 一:入口简介: 二。创建SpringApplication对象 1.推倒出当前项目的启动类型 2.设置Initializer初始化器 3.初始化Listerner监听器 4.反推出main方法所在的class对象。 三.运行SpringApplication#run(java.lang.String...)方法 1):获取运行监听器: 2)发布启动过程中…

IPC进程通信以及网络通信

一、IPC 进程间通信方式 共享内存 //最高效的进程间通信方式 不需要把用户的东西再复制到内核 他们与内核进行绑定 共享内存&#xff1a; 1、是一块&#xff0c;内核预留的空间 2、最高效的通信方式 //避免了用户空间到内核空间的数据拷贝 IPC通信方式 ---操作流程类似的…

“决胜面试:高频题目与算法策略一览”

干货分享&#xff0c;感谢您的阅读&#xff01; &#xff08;暂存篇---后续会删除&#xff0c;完整版和持续更新见高频面试题基本总结回顾&#xff08;含笔试高频算法整理&#xff09;&#xff09; 备注&#xff1a;引用请标注出处&#xff0c;同时存在的问题请在相关博客留言…

wps题注为表格或图片编号

word中为表格添加题注&#xff1a; 问题&#xff1a;多次或多人编辑导致--序号不能联动更新&#xff08;域代码不一致,如图&#xff09; 所以是否可以批量替换word里的域代码&#xff1f;如果可以这问题就解决了————失败 解决办法&#xff1a; 如图&#xff0c;复制表头&…

[数据集][目标检测]工程机械车辆检测数据集VOC+YOLO格式3189张10类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;3189 标注数量(xml文件个数)&#xff1a;3189 标注数量(txt文件个数)&#xff1a;3189 标注…

万户 ezOFFICE receivefile_gd.jsp SQL注入漏洞复现

0x01 产品简介 万户OA ezoffice是万户网络协同办公产品多年来一直将主要精力致力于中高端市场的一款OA协同办公软件产品,统一的基础管理平台,实现用户数据统一管理、权限统一分配、身份统一认证。统一规划门户网站群和协同办公平台,将外网信息维护、客户服务、互动交流和日…