tokenizers Tokenizer 类

news2024/11/18 11:41:38

Tokenizer 类

依赖安装

pip install tensorflow
pip install tensorflow -i https://pypi.tuna.tsinghua.edu.cn/simple

基类原型

tokenizers.Tokenizer(model)

基类说明

Tokenizer 函数构造一个分词器对象。分词方式主要有word-level、subword-level、char-level三种,其中,subword-level分词方式又有四种不同实现的方法:BPE、Unigram、WordPiece、SentencePiece。
参数 model 表示分词器使用的分词方式,接受一个Model对象,这里主要实现了 word-level 的分词方式以及 subword-level 的分词方式。Tokenizer 类主要的方法有:

# 从指定文件加载 Tokenizer 对象。
from_file(path)
# 从Hugging Face Hub官网上加载一个已存在的Tokenizer对象。参数identifier 就是加载的对象模型。
from_pretrained(identifier, revision = ‘main’, auth_token = None)
# 从 json 格式的字符串来加载 Tokenizer 对象。
from_str(json)
# 从缓冲区来加载 Tokenizer 对象。
from_buffer(buffer)
# 对于给定的一个分句进行编码,返回一个Encoding 对象。参数 pair 表示第二个分句。参数 is_pretokenized 表示是否已经预分词化,如果为 True,则输入的 sequence 和 pair 都应该为一个列表。
encode(sequence, pair = None, is_pretokenized = False, add_special_tokens = True)
# 对多个分句进行编码,返回一个 Encoding 对象。
encode_batch(input, is_pretokenized = False, add_special_tokens = True)
# 表示对一个 id 序列进行解码,将 id 映射为字符串。参数 skip_special_tokens 表示是否跳过特殊的字符串。这些特殊的字符串是由 add_special_tokens 函数来创建的。
decode(ids, skip_special_tokens = True)
# 表示对多个 id 序列进行解码。
decode_batch(sequences, skip_special_tokens = True)
# 添加新的分词,这些分词会添加到词汇表中。
add_tokens(tokens)
# 添加特殊的分词到词汇表中,与 add_tokens 函数不同的是,这些特殊的分词可以在解码时被忽略。
add_special_tokens(tokens)
# 设置在进行 encode_batch 操作时,当各个分句的长度不一样时应用填充。
enable_padding(direction = ‘right’, pad_id = 0, pad_type_id = 0, pad_token =[PAD], length = None, pad_to_multiple_of = None)
# 设置在进行 encode_batch 操作时,当各个分句的长度不一样时对分句进行截取。
enable_truncation(max_length, stride = 0, strategy = ‘longest_first’, direction = ‘right’)
# 禁用填充。
no_padding()
# 禁用截取。
no_truncation()
# 保存 tokenizer 模型(一个 json 文件)到指定路径,参数 pretty 表示用一行还是多行来表示 json 文件,默认为多行。
save(path, pretty = True)
# 用指定文件列表里面的数据来训练分词器。
train(files, trainer = None)
# 将单个 id 转换成单个字符。
id_to_token(id)
# 将单个字符转换成单个 id。
token_to_id(token)

函数使用

tokenizer 模型的加载

# 第一种加载方式
# 从 json 文件中加载 tokenizer 对象
tokenizer0 = tokenizers.Tokenizer.from_file("./tokenizer4/vocab.json")
# 从 hugging face 官网中在线加载 tokenzier 对象
tokenizer1 = tokenizers.Tokenizer.from_pretrained("distilbert-base-uncased")
# 根据 json 文件的内容字符串来加载 tokenizer 对象
with open("./tokenizer4/vocab.json", "r", encoding="utf8") as file:
    json_dict = json.load(file)
    json_string = json.dumps(json_dict)
tokenizer2 = tokenizers.Tokenizer.from_str(json_string)

# 第二种加载方式
tokenizer = tokenizers.Tokenizer()
tokenizer.model = models.BPE().from_file(vocab="./tokenizer4/vocab.json", merges="./tokenizer4/merges.txt")

tokenizer 模型的训练

# 中文分词方式,除了 BPE,还有 WordPiece、Unigram 两种
tokenizer = tokenizers.Tokenizer(models.BPE())
tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
tokenizer.decoder = decoders.BPEDecoder()
trainer = trainers.BpeTrainer()
tokenizer.train(["ch_demo_sm.txt"], trainer)

# 英文分词方式,word-level 分词方式
tokenizer = tokenizers.Tokenizer(models.WordLevel())
tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
trainer = trainers.WordLevelTrainer(special_tokens=["[PAD]"])
tokenizer.train(["en_demo_sm.txt"], trainer)

# 英文分词方式,subword-level 分词方式
# 这里使用 wordpiece 分词方法
tokenizer = tokenizers.Tokenizer(models.WordPiece())
tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
trainer = trainers.WordPieceTrainer(special_tokens=["[PAD]"])
tokenizer.train(["en_demo_sm.txt"], trainer)

tokenizer 模型的保存

# 使用 tokenizer.save 函数保存,会生成一个 vocab.json 文件
tokenizer.save("./tokenizer4/vocab.json")

# 使用 tokenizer.model.save 保存,会生成一个 vocab.json 和一个 merges.txt 文件
# 注意这个 vocab.json 和上面的 vocab.json 文件内容不一样。
tokenizer.model.save("./tokenizer4")

使用 tokenizer 模型进行 encode 和 decode 操作

# 编码一个句子
encoding0 = tokenizer.encode("any attempt to leave surprises me.")
# 编码一个有两个分句的句子
encoding1 = tokenizer.encode("any attempt to leave surprises me.", pair="arrival of John dead surprised me.")
# 参数 is_pretokenized=True 时,参数 sequence 应为一个列表
encoding2 = tokenizer.encode(["any attempt to leave surprises me."],
                             is_pretokenized=True)
# 编码多个句子
encodings0 = tokenizer.encode_batch(["any attempt to leave surprises me.",
                                    "the arrival of John dead surprised me."])
# 编码多个有两个分词的句子
encodings1 = tokenizer.encode_batch([("any attempt to leave surprises me.", "John's arrival dead surprised me."),
                                     ("John's attempt to leave surprised me.", "the arrival of John dead surprised me.")])
# 参数 is_pretokenized=True 时,参数 sequence 应为一个列表
encodings2 = tokenizer.encode_batch([["any attempt to leave surprises me."],
                                    ["the arrival of John dead surprised me."]], 
                                    is_pretokenized=True)
                                    
# 对一个 ids 进行解码
decode_string = tokenizer.decode(encoding1.ids, skip_special_tokens=False)
# 对多个 ids 进行解码
decode_strings = tokenizer.decode_batch([encodings1[0].ids, encodings1[1].ids])

# 将单词变成 id
token_id = tokenizer.token_to_id("me")
# 将 id 变成单词
token = tokenizer.id_to_token(62)

实操

from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

def train_tokenizer():
    # 创建一个空的 BPE 模型
    tokenizer = Tokenizer(BPE())

    # 创建一个 Trainer,并指定一些训练参数
    trainer = BpeTrainer(special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>"])

    # 创建一个 PreTokenizer
    pre_tokenizer = Whitespace()

    # 使用 Trainer 和 PreTokenizer 训练 BPE 模型
    tokenizer.pre_tokenizer = pre_tokenizer
    #files = ["/path/to/your/dataset.txt"] # 替换为你用来训练tokenizer的文本数据的路径
    # 参考地址:https://job.yanxishe.com/blogDetail/18050
    # 下载地址:https://wortschatz.uni-leipzig.de/en/download/Chinese
    files = ["/home/*/tokenizers/zho_news_2020_10K/zho_news_2020_10K-words.txt"]
    tokenizer.train(files, trainer)

    return tokenizer

def count_tokens(text, tokenizer):
    # 使用 tokenizer 将文本转化为 tokens
    output = tokenizer.encode(text)
    print("count_tokens", output.tokens)
    print("count_tokens", output)

    # 输出的 tokens 的数量
    return len(output.tokens)

# 创建 tokenizer
tokenizer = train_tokenizer()

# 测试字符串的 tokens 数量
text = "这是一个测试句子。"
print(count_tokens(text, tokenizer))

运行结果
tokenizers

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1233641.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

visionOS空间计算实战开发教程Day 1:环境安装和编写第一个程序

安装 截至目前visionOS还未在Xcode稳定版中开放&#xff0c;所以需要下载​​Xcode Beta版​​。比如我们可以下载Xcode 15.1 beta 2&#xff0c;注意Xcode 15要求系统的版本是macOS Ventura 13.5或更新&#xff0c;也就是说2017年的MacBook Pro基本可以勉强一战&#xff0c;基…

数据仓库

一. 各种名词解释 1.1 ODS是什么&#xff1f; ODS层最好理解&#xff0c;基本上就是数据从源表拉过来&#xff0c;进行etl&#xff0c;比如mysql 映射到hive&#xff0c;那么到了hive里面就是ods层。 ODS 全称是 Operational Data Store&#xff0c;操作数据存储.“面向主题的…

[C++随想录] 哈希之unordered_map和unordered-set的封装

unordered_map和unordered_set的封装 1. hash模版的改变1.1 hash类模板 头的改变1.2 封装迭代器类1.2.1 构造 && 拷贝构造1.2.2. 1.2.3. 其他运算符重载 1.3 hash类实现普通迭代器和const迭代器 2. unordered_set的底层逻辑3. unordered_map的底层逻辑4. 源码4.1 hash类…

buildadmin+tp8表格操作(4) Table组件,baTable类和 elementplus中的属性关系

在buildadmin 中&#xff0c;table组件是封装的 element-plus中的方法&#xff0c; 所以说&#xff0c; 在 buildadmin的table组件中&#xff0c;是可以通用 elementplus中的属性的 以上这些属性&#xff0c; 在buildadmin中都是可以使用的 使用方式和 elementplus el-table用…

终端仿真软件 SecureCRT v9.4.2

SecureCRT是一款终端仿真软件&#xff0c;它提供了类似于Telnet和SSH等协议的远程访问功能。SecureCRT专门为网络管理员、系统管理员和其他需要保密访问网络设备的用户设计。 SecureCRT具有以下特点&#xff1a; 安全性&#xff1a;SecureCRT支持SSH1、SSH2、SSL和TLS等加密和…

git可以pull到代码,push时提示没有权限。解决办法:git生成ssh密钥(详细步骤)

1、首先右键点击电脑桌面&#xff0c;点击“git bash here”&#xff0c;打开git命令窗口 2、如果git用户名和邮箱等已经完成配置&#xff0c;则跳过此步骤&#xff0c;直接操作第3条&#xff1b;假如没有配置&#xff0c;继续如下操作&#xff1a; (1)、在命令窗口配置用户&a…

怎么实现在微信公众号预约挂号功能呢

随着移动互联网的普及&#xff0c;微信公众号已经成为人们获取信息、了解资讯、预约服务的重要渠道。为了方便患者&#xff0c;许多医院也纷纷开通了微信公众号预约挂号功能。本文将介绍如何在微信公众号上实现预约挂号功能&#xff0c;帮助患者更加便捷地预约挂号。 一、关注医…

HarmonyOS ArkTS List组件和Grid组件的使用(五)

简介 ArkUI提供了List组件和Grid组件&#xff0c;开发者使用List和Grid组件能够很轻松的完成一些列表页面。常见的列表有线性列表&#xff08;List列表&#xff09;和网格布局&#xff08;Grid列表&#xff09;&#xff1a; List组件的使用 List是很常用的滚动类容器组件&…

python接口自动化测试之接口数据依赖

一般在做自动化测试时&#xff0c;经常会对一整套业务流程进行一组接口上的测试&#xff0c;这时候接口之间经常会有数据依赖&#xff0c;那又该如何继续呢&#xff1f; 那么有如下思路&#xff1a; 抽取之前接口的返回值存储到全局变量字典中。初始化接口请求时&#xff0c;…

数据资产入表实务操作的难点及解决方案

在当前数字化的浪潮下&#xff0c;数据已经成为劳动、土地、知识、技术以后的第五大生产要素&#xff0c;“数据就是资源”已成为共识。8月21日&#xff0c;财政部正式印发《企业数据资源相关会计处理暂行规定》&#xff0c;对于符合规定定义和确认条件的数据资产&#xff0c;可…

vue3.0 + qiankun遇到的问题

进入子应用再回到主应用切换动态路由时 TypeError: Cannot read properties of undefined (reading ‘appWrapperGetter’) application ‘plat’ died in status UNMOUNTING: instance.$destroy is not a function 第一个报错是因为子应用切走时没有销毁 vue的实例&#xff0…

麒麟系统开机忘记密码,密码重置

开机后&#xff0c;麒麟系统忘密码了... ... 1.关机状态下&#xff0c;点击电源开机&#xff0c;进入GRUB界面&#xff08;这个得看自己的系统进入GRUB的方式&#xff0c;有的直接进GRUB&#xff0c;有的直接进系统启动&#xff0c;我是按的F2进入GRUB界面&#xff09;&#xf…

深度学习之自监督模型汇总

1.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding paper:https://arxiv.org/pdf/1810.04805v2.pdf code:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT Abstract&#xff1a;我们引入了一种名为 BE…

ECharts零基础使用思路 图表案例网站推荐

1、用npm安装echarts npm i echarts -S 2、引入 &#xff08;1&#xff09;可以在mian.js里全局引入 import echarts from ‘echarts’ Vue.prototype.$echarts echarts 将echarts挂载在Vue原型上 用时直接this.$echarts即可 &#xff08;2&#xff09;也可以在组件中按需引入…

OpenAI宫斗,尘埃落定,微软成最大赢家

周末被OpenAI董事会闹剧刷屏,ChatGPT之父Sam Altman前一天被踢出董事会,免职CEO,后一天重返OpenAI,目前结局未知。 很多同学想要围观,缺少背景知识,这里老章为大家简单介绍前因后果及涉及的人物,时间线,让大家轻松围观。 备好瓜子,开始。 1、主角 先看一张图,看一…

SWAT-MODFLOW耦合

耦合模型被应用到很多科学和工程领域来改善模型的性能、效率和结果&#xff0c;SWAT作为一个地表水模型可以较好的模拟主要的水文过程&#xff0c;包括地表径流、降水、蒸发、风速、温度、渗流、侧向径流等&#xff0c;但是对于地下水部分的模拟相对粗糙&#xff0c;考虑到SWAT…

解决收集问卷难的方法与策略:提升数据收集效率

随着社会的发展和科技的进步&#xff0c;问卷调查成为了获取信息和研究数据的重要手段之一。然而&#xff0c;面临的一个普遍难题是如何解决收集问卷困难的问题。无论是在学术研究、市场调研还是社会调查中&#xff0c;都存在着一些挑战和阻碍因素。本文将从不同角度探讨如何突…

手机 IOS 软件 IPA 签名下载安装详情图文教程

由于某些应用由于某些原因无法上架到 appStore 或者经过修改过的软件游戏等无法通过 appStore 安装&#xff0c;我们就可以使用签名的方式对相应软件的IPA文件进行签名然后安装到你的手机上 这里我们使用爱思助手进行签名安装&#xff0c;爱思助手支持两种方式&#xff0c;一种…

seleninum 基础及简单实践

网页自动化 1 Selenium自动化基础 1.1 Selenium简介 Selenium自动化流程如下&#xff1a; 自动化程序调用Selenium客户端库函数客户端库会发送Selenium命令&#xff0c;给浏览器的驱动程序浏览器驱动程序接收到命令后&#xff0c;驱动浏览器去执行命令浏览器执行命令浏览器驱…

基于单片机电梯液晶显示防超重,防气体报警、防夹报警控制系统及源程序

一、系统方案 1、本设计采用51单片机作为主控器。 2、液晶显示楼层。 3、防超重&#xff0c;防气体报警、防夹报警。 二、硬件设计 原理图如下&#xff1a; 三、单片机软件设计 1、首先是系统初始化 /lcd1602初始化设置*/ void init_1602() //lcd1602初始化设置 { write_co…