深度学习-19-深入理解并训练自己的Tokenizer分词器

深度学习-19-深入理解并训练自己的Tokenizer分词器

news2025/7/13 8:37:12

文章目录

1 tokenization是什么
2 Tokenization方法简介
- 2.1 单词级的Tokenization
- 2.2 子词Tokenization技术
- 2.3 举例说明
- - 2.3.1 字符级别
  - 2.3.2 词语级别
  - 2.3.3 子词级别
3 训练自己的Tokenizer
- 3.1 下载数据集
- 3.2 huggingface的Tokenizer实现
- 3.3 my-tokenizer.json字段说明
- 3.4 验证一下tokenizer的结果
- 3.5 使用AutoTokenizer
- - 3.5.1 tokenizer_config.json
  - 3.5.2 加载使用分词器示例一
  - 3.5.3 加载使用分词器示例二
4 问题及解决
- 4.1 untagged enum ModelWrapper
5 参考附录

1 tokenization是什么

任何一段文本，输入给模型，都是要转换成一串embedding。
这个过程简单概括为：
(1)分词，并把词转换为token（即词的ID）
(2)token转换成embedding

而tokenization就是在做这第一步。

而对于第二步就是常见的Embedding查表操作，即根据token_id的值，去Embedding矩阵中查找第token_id行的数据作为embedding。

对于以下文本：你好，我的小名是小明
在这里插入图片描述

2 Tokenization方法简介

子词Tokenization(可以理解为分词)在很多SOTA NLP模型上得到广泛的使用，包括BERT和GPT-3。
它能很有效的处理未登陆词。

2.1 单词级的Tokenization

假设我们有一个训练数据集。
我们从这个训练数据集中构建一个词表。
为了构建该词表，我们将数据集中的

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2186485.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

猫猫cpu的缓存

猫猫cpu的缓存

原题过长，放一下题目大意题目大意给你 m m m 个 1 1 1 到 n n n 之间的整数，你要找到若干个大小为固定的 k k k 的闭区间，使得所有这些数都在你找到的某个区间内。你需要最小化这些区间的并集的大小，并输出此大小。本题里…

阅读更多...

[RabbitMQ] Spring Boot整合RabbitMQ

[RabbitMQ] Spring Boot整合RabbitMQ

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…

阅读更多...

【AI驱动TDSQL-C Serverless 数据库技术实战营】基于Langchain的电商可视化分析

【AI驱动TDSQL-C Serverless 数据库技术实战营】基于Langchain的电商可视化分析

人工智能技术的飞速发展已深刻影响电商行业，显著提升了个性化推荐、用户行为分析、库存管理和市场预测等领域的效率。构建一个高效的AI驱动电商数据分析平台已成为行业的核心需求。本文里，我们将使用腾讯云的高性能应用平台 HAI（专为AI和科学…

阅读更多...

物流行业中的AI平台架构与智能化应用

物流行业中的AI平台架构与智能化应用

随着物流行业的迅速发展，尤其是电商、仓储、运输的需求日益增多，AI技术逐渐成为推动物流企业高效运营、提升服务水平的关键力量。AI平台架构为物流行业的各个环节提供了智能化解决方案，助力物流企业在仓储管理、运输调度、客户服务等方面实现…

阅读更多...

netty之基于Netty搭建WebSocket，模仿微信聊天页面

netty之基于Netty搭建WebSocket，模仿微信聊天页面

前言模仿微信聊天页面，开发一个基于Netty搭建WebSocket通信案例。Netty的应用方面非常广；聊天、MQ、RPC、数据等等，在5G到来的时候更加需要大量数据传输，Netty的应用也会更加广阔。 1:案例使用SpringBootNettyWebSocket搭建功能。…

阅读更多...

c++MFC项目结构中有：外部依赖项、头文件，他们两个有啥区别，好像都是.h文件吧？

c++MFC项目结构中有：外部依赖项、头文件，他们两个有啥区别，好像都是.h文件吧？

目录头文件（Header Files） 特点示例外部依赖项（External Dependencies） 特点示例区别作用和来源不同内容不同使用方式不同结合示例总结在C项目结构中，外部依赖项和头文件确实可能都包含.h文件…

阅读更多...

力扣（leetcode）每日一题 983 最低票价 |动态规划

力扣（leetcode）每日一题 983 最低票价 |动态规划

983. 最低票价题干在一个火车旅行很受欢迎的国度，你提前一年计划了一些火车旅行。在接下来的一年里，你要旅行的日子将以一个名为 days 的数组给出。每一项是一个从 1 到 365 的整数。火车票有三种不同的销售方式 ： 一张为期一天的通…

阅读更多...

Linux复习--Linux服务管理类（SSH服务、DHCP+FTP、DNS服务、Apache服务、Nginx服务、HTTP状态码）

Linux复习--Linux服务管理类（SSH服务、DHCP+FTP、DNS服务、Apache服务、Nginx服务、HTTP状态码）

前言：本博客仅作记录学习使用，部分图片出自网络，如有侵犯您的权益，请联系删除一、SSH服务 1、问题引出哪些设置能够提升SSH远程管理的安全等级？ 2、SSH的登录验证方式-口令登录 3、SSH的登录验证方式-密钥登录 4、…

阅读更多...

高质量的翻译如何提高界面可用性

高质量的翻译如何提高界面可用性

翻译质量在提高界面可用性方面起着重要作用，特别是在全球受众使用的应用程序、网站和软件中。有效地翻译界面可以确保清晰度、连贯性和易用性，从而改善不同地区和语言的用户体验。以下是高质量翻译提高界面可用性的关键方法： 清晰直观的导航…

阅读更多...

SAP HCM PE51工资单教程

SAP HCM PE51工资单教程

作者：vivi，来源：osinnovation 一：故事背景最近在做一个越南的ecp集成事情，因为客户是越南，所以对工资单没有国内一样，用微信小程序一套单独开发，而是使用标准的paylisp&#xff0…

阅读更多...

【路径规划】路径平滑算法，A星算法拐点的圆弧化处理

【路径规划】路径平滑算法，A星算法拐点的圆弧化处理

摘要 A算法广泛应用于路径规划中，但其生成的路径通常在拐点处呈现不平滑的折线。为了提升路径的平滑性，本文提出了一种基于圆弧的平滑处理方法，用于对A算法产生的路径拐点进行优化。通过在MATLAB中进行仿真验证，该方法能够有效减…

阅读更多...

9. 正则表达式

9. 正则表达式

编程工具和技术是以一种混乱、进化的方式生存和传播的。获胜的并不总是最好或最杰出的工具，而是那些在合适的利基市场中发挥足够好的功能，或者恰好与另一项成功的技术相结合的工具。在本章中，我将讨论这样一种工具--正则表达式。正则表达式是…

阅读更多...

YOLOv11改进 | 上采样篇 | YOLOv11引入DySample轻量级动态上采样器

YOLOv11改进 | 上采样篇 | YOLOv11引入DySample轻量级动态上采样器

1. DySample介绍 1.1 摘要：我们提出了DySample，一个超轻量和有效的动态上采样器。虽然最近的基于内核的动态上采样器（如CARAFE、FADE和SAPA）的性能提升令人印象深刻，但它们引入了大量工作负载，主要是由于耗…

阅读更多...

Spring Boot 中的拦截器 Interceptors

Spring Boot 中的拦截器 Interceptors

博客主页: 南来_北往系列专栏：Spring Boot实战前言 Spring Boot中的拦截器（Interceptor）是一种用于拦截和处理HTTP请求的机制，它基于Spring MVC框架中的HandlerInterceptor接口实现。拦截器允许在请求到达控制器&#…

阅读更多...

C++函数模板、选择排序实现（从大到小）

C++函数模板、选择排序实现（从大到小）

template <class T> void mysw (T &a , T &b) {T temp b;b a;a temp; }template <class T> void muSort( T &arr ,int len) {//该实现为选择排序(高到低)for (int i 0; i < len; i) {int max i ; //首先默认本次循环首位元素为最大for (int j …

阅读更多...

scrapy爬取汽车、车评数据【中】

scrapy爬取汽车、车评数据【中】

这个爬虫我想分三期来写： ✅ 第一期写如何爬取汽车的车型信息； ✅ 第二期写如何爬取汽车的车评； ✅ 第三期写如何对车评嵌入情感分析结果，以及用简单的方法把数据插入mysql中； 技术基于scrapy框架、BERT语言模型、mysq…

阅读更多...

SQL Server中关于个性化需求批量删除表的做法

SQL Server中关于个性化需求批量删除表的做法

在实际开发中，我们常常会遇到需要批量删除表，且具有共同特征的情况，例如：找出表名中数字结尾的表之类的，本文我将以3中类似情况为例，来示范并解说此类需求如何完成： 第一种，批量删除…

阅读更多...

【Godot4.3】图形碰撞相关函数库ShapeTests

【Godot4.3】图形碰撞相关函数库ShapeTests

概述最近积累了一些图形重叠检测，以及求图形的轴对齐包围盒Rect2，还有求Rect2的外接圆等函数。感觉可以作为一个单独的函数库，提供日常的使用，所以汇总成了ShapeTests。注意：函数名和写法可能会不断改进。代码 …

阅读更多...

基于SSM的北京冬奥会志愿者服务系统

基于SSM的北京冬奥会志愿者服务系统

文未可获取一份本项目的java源码和数据库参考。本课题国内外研究现状当前，国外志愿者服务活动开展的十分活跃。志愿服务正以其突出的社会效益受到越来越多国家政府的重视。许多国家的志愿服务活动起步早、规模大，社会效益好。他们在国内有广泛的群众…

阅读更多...

第四届生物医学与智能系统国际学术会议（IC-BIS 2025）

第四届生物医学与智能系统国际学术会议（IC-BIS 2025）

在线投稿：学术会议-学术交流征稿-学术会议在线-艾思科蓝 2025年第四届生物医学与智能系统国际学术会议（IC-BIS 2025） 将于2025年4月11-13日在意大利隆重举行。该会议旨在汇集全球学术界和工业界的研究人员、专家和从业人员，共…

阅读更多...

推荐文章

最新文章