「AIGC」Python实现tokens算法

news2026/2/14 17:00:10

本文主要介绍通过python实现tokens统计，避免重复调用openai等官方api，开源节流。

一、设计思路

初始化tokenizer
使用tokenizer将文本转换为tokens
计算token的数量

二、业务场景

2.1 首次加载依赖

在这里插入图片描述

2.2 执行业务逻辑

在这里插入图片描述

三、核心代码

from transformers import AutoTokenizer
import time
from datetime import datetime

# 获取开始时间，并格式化为"年-月-日 时：分：秒"
start_time = time.time()
start_datetime = datetime.fromtimestamp(start_time).strftime('%Y-%m-%d %H:%M:%S')

# 初始化tokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')

# 示例文本
text = "ChatGPT is great!"

# 使用t

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1679725.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【RSGIS数据资源】2001-2021 年亚洲季风区主要国家作物种植制度数据集

文章目录 1. 数据集概况2. 数据格式3. 文件名命名规则4. 数据生产服务单位5. 元数据6. 数据引用与参考文献引用 1. 数据集概况 2001-2021 年亚洲季风区主要国家作物种植制度数据集（ACIA500）是结合MODIS 影像和现有的土地利用等多源数据，基于…

数据结构——直接插入排序

基本思想再插入第i个元素时，前面i-1个已经排好序。排序过程初始状态（假设第一个元素为有序，其余均为无序元素） 问题一：如何构建初始的有序序列？ 办法将第一个记录看成是初始有序表，然后…

万字长文破解 AI 图片生成算法-Stable diffusion (第一篇）

想象一下：你闭上眼睛，脑海中构思一个场景，用简短的语言描述出来，然后“啪”的一声，一张栩栩如生的图片就出现在你眼前。这不再是科幻小说里才有的情节，而是Stable Diffusion——一种前沿的AI图片生成算法—…

有多少小于当前数字的数字

链接：https://leetcode.cn/problems/how-many-numbers-are-smaller-than-the-current-number/description/ 思路： 最简单的思路来说，就是双重for循环进行遍历，来判断个数， 优化思路，其中一个思路就是递推 …

首次曝光！我喂了半年主食冻干，喵状态真滴顶~

科学养猫理念的推广，使得主食冻干喂养越来越受到养猫者的欢迎。主食冻干不仅符合猫咪的自然饮食习惯，还能提供丰富的营养，有助于保持猫咪的口腔和消化系统健康。我家喂了半年主食冻干，猫咪的状态是真的不一样了！ 然而…

轻松玩转2.5GHz 12nm双核CPU实战—Black Box

在2.5GHz 12nm A72双核CPU项目物理设计中，BlackBox 类似于一个 Hard Macro，它内部的东西完全看不见，只是一个黑盒子，但是它又类似于一个 Module Boundary。它可以被改变形状，而且它可以被分配 pin 和被分割出去&#x…

C++自定义头文件使用（函数和类）

简单案例需求： 1，计算正方形和三角形的周长——函数 2，模拟不同类型的动物叫声——类一、创建项目 C空项目 Class_Study 二、创建主函数在源文件下添加新建项，main.cpp 三、自定义头文件——函数需求：1&a…

K210开发板MicroPython开发环境搭建

一、安装CanMV IDE开发软件 1、进入如下连接 https://developer.canaan-creative.com/resource 2、点击下载 3、下一步 4、修改安装路径，下一步 5、接受许可下一步 6、下一步 7、安装 8、完成 9、区域①菜单栏：操作文件，使用工具等。…

【Python大数据】PySpark

CSDN不支持多个资源绑定，另外两个数据文件下载： 订单数据-json.zip search-log.zip Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎简单来说，Spark是一款分布式的计算框架，用于调度成百上千的服…

Unity射击游戏开发教程：（13）如何在Unity中播放音效

在本文中，我将向大家展示一些为游戏添加声音的不同方法。我们为游戏添加声音的第一种方法是播放背景音乐。在此，我们将创建游戏对象（“音频管理器”）并创建一个子游戏对象（“背景音乐”）。该子游戏对象将是播放音乐的对象，因此需要向其添加音频源组件。如果没有音频源组…

山东大学计算机考研数据分析，初复试占比6：4，复试内容不少得花精力准备！

山东大学（ShandongUniversity），简称山大，位于中国山东，是中华人民共和国教育部直属的综合性全国重点大学，是国家“211工程”、“985工程”重点建设院校，入选“111计划”、“珠峰计划”、“卓越工…

【软考】模拟考卷错题本2024-05-14

1 活动图-计算时间差审题，第几天~选的3、10是结束了上一次的活动并未开始呢 ！所以记得按照正常的语序表达哦！ 2 队列-算长度代入法，设计一个开始为0，结尾为9 ，容量为10即M的队列；带入计算当前…

国际化日期（inti）

我们可以使用国际化API自动的格式化数字或者日期，并且格式化日期或数字的时候是按照各个国家的习惯来进行格式化的，非常的简单； const now new Date(); labelDate.textContent new Intl.DateTimeFormat(zh-CN).format(now);比如说这是按照…

web学习笔记（五十五）

目录 1. 配置代码片段的步骤 2. 条件判断 2.1 v-if、v-else、v-else-if 2.2 v-show 2.3 v-show和v-if的区别 1. 配置代码片段的步骤在Visual Studio Code中我们可以将常用的代码配置成代码片段，这样就可以在页面上快速输入大段代码了。 （1&#…

Linux进程控制——Linux进程程序替换

前言：Linux进程控制包含了进程终止，进程等待，进程程序替换。走到现在我们也只剩下进程程序替换没介绍了，那么让我们来看看进程程序替换到底是什么！ 本篇主要内容： 替换原理替换函数实现简易shell 我们所创…

Linux FT260驱动内核学习笔记

目录 1. 安装ft260驱动 2. 编译ft260源码 3. 通过sysfs配置ft260设备 3.1 多功能GPIO配置 3.2 控制GPIO 3.3 配置i2c总线频率 4. UART 5. 使用i2c-tools交互I2C设备 5.1 安装i2c-tools 5.2 探测I2C设备 5.3 读取所有寄存器数据 5.4 读取和写入 5.5 16位地址的读写…

私活更好用：SpringBoot开源项目！！【送源码】

今天分享一款非常香的SpringBoot大屏开源项目，非常适合接私活用。这是一款基于SpringBoot代码生成器的快速开发平台！采用前后端分离架构：SpringBoot，Mybatis，Shiro，JWT，Vue&Ant Design。强…

C++ 日志库 log4cpp 编译、压测及其范例代码 [全流程手工实践]

文章目录一、 log4cpp官网二、下载三、编译1.目录结构如下2.configure 编译3.cmake 编译四、测试五、压测源码及结果1.运行环境信息2.压测源码3.压测结果文章内容：包含了对其linux上的完整使用流程，下载、编译、安装、测试用例尝试、以及一份自己写好…

使用VMware或VirtualBox安装eNSP Pro并使用CRT连接设备

文章目录使用Oracle Virtual Box安装eNSP Pro创建虚拟机配置网卡配置带外管理网络使用VMware Workstation安装eNSP Pro转换文件格式及虚拟磁盘模式配置网卡创建虚拟机配置使用CRT连接管理设备前一段时间是开放了eNSP Pro的账号权限，但是在写博客时，权…

[董晓算法]搜索相关题目及模板

前言： 本系列是学习了董晓老师所讲的知识点做的笔记董晓算法的个人空间-董晓算法个人主页-哔哩哔哩视频 (bilibili.com) 动态规划系列（还没学完） 【董晓算法】动态规划之线性DP问题-CSDN博客【董晓算法】动态规划之背包DP问题&#xff…