AI开发-三方库-Hugging Face-Tokenizer

AI开发-三方库-Hugging Face-Tokenizer

news2025/12/21 14:23:52

1 需求

需求1：from transformers import AutoTokenizer

需求2：from transformers import BertTokenizer

2 接口

关键参数

text
padding
truncation
return_tensors

3 示例

BertTokenizer.from_pretrained()

PreTrainedTokenizer

PreTrainedTokenizerBase.from_pretrained()

text = "今天天气不错"

# 第一步：数据预处理（Raw text -》Input IDs）
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('./model')

# 方法一：convert_tokens_to_ids函数
token = tokenizer.tokenize(text)
print(tokenizer.convert_tokens_to_ids(token))

# 方法二：encode函数
print(tokenizer.encode(text))

print(tokenizer.encode(text, add_special_tokens=False))

# 方法三：encode_plus函数
print(tokenizer.encode_plus(text, padding=True, truncation=True, return_tensors="pt"))

# 方法四：tokenizer函数
print(tokenizer(text, padding=True, truncation=True, return_tensors="pt"))

4 参考资料

https://huggingface.co/docs/transformers/main_classes/tokenizer

https://hf-mirror.com/docs/transformers/main_classes/tokenizer

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2212427.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

医疗图像之基于Unet++的息肉分割

医疗图像之基于Unet++的息肉分割

第一步：准备数据息肉分割数据，总共有1000张第二步：搭建模型 UNet，这是一种旨在克服以上限制的新型通用图像分割体系结构。如下图所示，UNet由不同深度的U-Net组成，其解码器通过重新设计的跳接以相同的分…

阅读更多...

CountUp.js 实现数字增长动画 Vue

CountUp.js 实现数字增长动画 Vue

效果： 官网介绍 1. 安装 npm install --save countup.js2. 基本使用 // template <span ref"number1Ref"></span>// script const number1Ref ref<HTMLElement>() onMounted(() > {new CountUp(number1Ref.value!, 9999999).sta…

阅读更多...

C语言 | Leetcode C语言题解之第477题汉明距离总和

C语言 | Leetcode C语言题解之第477题汉明距离总和

题目： 题解： int totalHammingDistance(int* nums, int numsSize) {int ans 0;for (int i 0; i < 30; i) {int c 0;for (int j 0; j < numsSize; j) {c (nums[j] >> i) & 1;}ans c * (numsSize - c);}return ans; }

阅读更多...

超GPT3.5性能，无限长文本，超强RAG三件套，MiniCPM3-4B模型分享

超GPT3.5性能，无限长文本，超强RAG三件套，MiniCPM3-4B模型分享

MiniCPM3-4B是由面壁智能与清华大学自然语言处理实验室合作开发的一款高性能端侧AI模型，它是MiniCPM系列的第三代产品，具有4亿参数量。 MiniCPM3-4B模型在性能上超过了Phi-3.5-mini-Instruct和GPT-3.5-Turbo-0125，并且与多款70亿至90亿参数的…

阅读更多...

元组与列表嵌套用法

元组与列表嵌套用法

1.可以对列表中的元素修改，不能对元组中的元素修改；当元组与列表嵌套时遵循上述原则. 下图为元组与列表的嵌套案例（学生信息的完善）：

阅读更多...

QQ快捷键冲突解决方法

QQ快捷键冲突解决方法

注意：快捷键被占用，更改快捷键后使用不了，是因为有其他系统快捷键被占用，多尝试几个就可以了

阅读更多...

计算机是如何输入存储输出汉字、图片、音频、视频的

计算机是如何输入存储输出汉字、图片、音频、视频的

计算机是如何输入存储输出汉字、图片、音频、视频的为了便于理解，先了解一下计算机的组成。冯诺依曼计算机的五大组成部分。分别是运算器、控制器、存储器、输入设备和输出设备。参见下图： 一、运算器运算器又称“算术逻辑单元”，是计算…

阅读更多...

Golang | Leetcode Golang题解之第477题汉明距离总和

Golang | Leetcode Golang题解之第477题汉明距离总和

题目： 题解： func totalHammingDistance(nums []int) (ans int) {n : len(nums)for i : 0; i < 30; i {c : 0for _, val : range nums {c val >> i & 1}ans c * (n - c)}return }

阅读更多...

SQLI LABS | SQLI LABS 靶场初识

SQLI LABS | SQLI LABS 靶场初识

关注这个靶场的其它相关笔记：SQLI LABS —— 靶场笔记合集-CSDN博客 0x01：SQLI LABS 靶场简介 SQLi-Labs 靶场是一个专门用于学习和测试 SQL 注入漏洞的开源靶场，该靶场提供了多个具有不同漏洞类型和难度级别的 Web 应用程序的环境。这些应用…

阅读更多...

C++ | Leetcode C++题解之第477题汉明距离总和

C++ | Leetcode C++题解之第477题汉明距离总和

题目： 题解： class Solution { public:int totalHammingDistance(vector<int> &nums) {int ans 0, n nums.size();for (int i 0; i < 30; i) {int c 0;for (int val : nums) {c (val >> i) & 1;}ans c * (n - c);}return …

阅读更多...

Telegram——Bot 机器人/小程序入门指南

Telegram——Bot 机器人/小程序入门指南

一、Bot 介绍在 TG 中，机器人可以用于接收和发送消息、管理群组（在有权限的情况下可以封禁用户、删除消息、置顶消息等）、通过API进行编程操作、使用 Inline 查询功能在不同的聊天室中提供查询服务、创建自定义键盘按钮、发出账单并收款、接入小程序游戏等。然而，Bot 默…

阅读更多...

VMware免安装直接使用Win7成品虚拟机

VMware免安装直接使用Win7成品虚拟机

VMware17 pro免安装直接使用Win7成品虚拟机下载文件下载VMWare与win7成品虚拟机（PS：里面有Win10 和Win11，使用方法都是一样的） ⏬下载链接⏬ 下载链接使用虚拟机打开成品虚拟机

阅读更多...

stable diffusion系列（1）------概述

stable diffusion系列（1）------概述

本文是对李宏毅老师的课程的总结，B站链接如下： stable diffusion(1)概述讲最经典的DDPM。 1. DDPM图像生成是一个多个step的去噪过程 DDPM是一个从噪声图像中通过不断去噪（经过很多个step），生成图像的过程。 “雕像…

阅读更多...

java面向对象编程--高级（二）

java面向对象编程--高级（二）

目录一、内部类 1.1 成员内部类 1.1.1 静态和非静态 1.1.2 调用外部类的结构 1.2 局部内部类 1.2.1 非匿名和匿名 1.2.2 比较 1.2.3 练习二、枚举类 2.1 枚举类讲解 2.2 代码实现三、包装类 3.1 包装类与基本数据类型 3.2 练习 3.3 补充四、自动生成单元测试…

阅读更多...

vector(3)

vector(3)

vector(3) vector 迭代器失效问题。（重点） 迭代器的主要作用就是让算法能够不用关心底层数据结构，其底层实际就是一个指针，或者是对指针进行了封装，比如：vector的迭代器就是原生态指针T 。因此迭代器失效…

阅读更多...

sql server 用户只读表权限

sql server 用户只读表权限

新建登录名数据库建用户用户赋予登录名和架构赋予用户只读权限 GRANT SELECT ON Users TO gt

阅读更多...

Vue——Uniapp回到顶部悬浮按钮

Vue——Uniapp回到顶部悬浮按钮

代码示例 <template><view class"updata" click"handleup" :style"{bottom: bottomTypepx}" ><i class"iconfont icon-huidaodingbu"></i></view> </template><script> export default {n…

阅读更多...

利用弹性盒子完成移动端布局（第二次实验作业）

利用弹性盒子完成移动端布局（第二次实验作业）

需要实现的效果如下： 下面是首先是这个项目的框架： 然后是html页面的代码： <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"wid…

阅读更多...

解决element-ui图标不出现，或者乱码问题（已解决）复制粘贴

解决element-ui图标不出现，或者乱码问题（已解决）复制粘贴

其实就是资源没找到，需要你手动添加。下载个文件通过百度网盘分享的文件：css 链接：https://pan.baidu.com/s/1jLngnKV3PuDYu2ohSlE5IQ?pwdt1z9 提取码：t1z9 https://pan.baidu.com/s/1jLngnKV3PuDYu2ohSlE5IQ?pwdt1z9 提取…

阅读更多...

Python_函数式编程（生成器、迭代器、动态性）

Python_函数式编程（生成器、迭代器、动态性）

简单说：时间换空间！想要得到庞大的数据，又想让它占用空间少，那就用生成器！延迟计算！需要的时候，再计算出数据！ 创建生成器的方式二(生成器函数)生成器函数： 如果一个函数…

阅读更多...

推荐文章

最新文章