辅导男朋友转算法岗第1天|tokenizer

news2025/4/17 2:52:09

文章目录

LLM训练流程
LLM中的tokenizers
- BPE
- WordPiece
- Unigram
- SentencePiece（使用BBPE或Unigram）

LLM训练流程

在这里插入图片描述

【大语言模型LLM基础之Tokenizer完全介绍-哔哩哔哩】 https://b23.tv/2kdTKxf

LLM中的tokenizers

三种不同分词粒度的Tokenizers

word-based
character-based
subword-based
- WordPiece：BERT、DistilBERT
- Unigram：XLNet、ALBERT
- BPE（Byte-Pair Encoding）：GPT-2、RoBERTa
- SentencePiece

BPE

词频统计->词表合并

设置：BPE的合并次数

在这里插入图片描述

改进：BBPE

在这里插入图片描述

WordPiece

在这里插入图片描述

Unigram

先初始化一个很大的词表（字母、单词、subword都包括）

设置：删减的次数

在这里插入图片描述

删去对词表的表达能力影响不大的token

在这里插入图片描述

基于统计的划分

loss：负对数似然

SentencePiece（使用BBPE或Unigram）

解决多国语言的分词问题，输入都当做字节流（含空格）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1717545.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

python 获取网页乱码怎么解决

在使用python爬取网页时，经常会遇到乱码问题，一旦遇到乱码问题，就很难得到有用的信息。本人遇到乱码问题，一般有以下几个方式： 1、查看网页源码中的head标签，找到编码方式，例如： 可…

【UML用户指南】-02-UML基本元素的介绍（二）

1、语法和语义规则命名——为事物、关系和图起的名字； 范围——使名字具有特定含义的语境； 可见性——这些名字如何让其他成分看见和使用； 完整性——事物如何正确、一致地相互联系； 执行——运行或模拟一个动态模型意味着什…

安卓 Flutter Channel 源码解析

Flutter 官方提供三种 Platform 与 Dart 端消息通信方式，他们分别是 MethodChannel 、 BasicMessageChannel 、 EventChannel MethodChanel ：用于传递方法调用， MethodCallHandler 最终必须在 UI 线程通过 result. success(x) 方法返回…

【深度学习】YOLOv10实战：20行代码将笔记本摄像头改装成目标检测监控

目录一、引言二、YOLOv10视觉目标检测—原理概述 2.1 什么是YOLO 2.2 YOLO的网络结构三、YOLOv10视觉目标检测—训练推理 3.1 YOLOv10安装 3.1.1 克隆项目 3.1.2 创建conda环境 3.1.3 下载并编译依赖 3.2 YOLOv10模型推理 3.2.1 模型下载 3.2.2 WebUI推理 …

成功解决“ImportError: cannot import name ‘mapping‘ from ‘collections‘”错误的全面指南

成功解决“ImportError: cannot import name ‘mapping’ from ‘collections’”错误的全面指南成功解决“ImportError: cannot import name ‘mapping’ from ‘collections’”错误的全面指南一、引言在Python编程中，当我们尝试从某个模块中导入某个名称时&…

上弦外媒新闻发稿：2024年度国外主流新闻媒体和海外媒体软文分发平台有哪些?

2024年度主流海外媒体新闻发稿和海外媒体软文分发平台有很多，下面是一些常见的和广受认可的平台： 主流新闻媒体 CNN - 美国知名新闻网络，覆盖广泛的国际新闻。BBC - 英国广播公司，提供全球新闻和深入报道。纽约时报 - 美国主流报…

UnityAPI学习之事件函数(生命周期函数)的整体调用流程及细节

事件函数(生命周期函数)的整体调用流程 Reset() 这个函数会在用户首次添加该组件时或单击 Reset 按钮时被调用，且只在编辑器生效,可用于保存默认值示例： using System.Collections; using System.Collections.Generic; using UnityEngine;public cla…

Docker中布置Jenkins实现Android项目的自动化构建

因项目需要，要在服务器上使用Jenkins完成Android项目的自动化构建，但服务器上登录的账户没有管理员权限，无法用sudo命令，因此需要把相应环境布置在docker中。环境搭建 docker容器相关命令创建容器 docker create -it contai…

Android Handler机制使用及全面解析

前言我是真的不想写这篇总结，说实话，关于Handler，全面且优秀的文章多的很。但是这东西吧，还是想以自己的方式再去细看一下它的原理，实现源码，它的各种机制，在App中使用到的地方。这样或许…

【深度揭秘GPT-4o】：全面解析新一代AI技术的突破与优势

目录编辑 1.版本对比：从GPT-3到GPT-4，再到GPT-4o的飞跃 1.1 模型规模的扩展 1.2 训练数据的更新 1.3 算法优化与效率提升 1.4 案例分析 2.技术能力：GPT-4o的核心优势 2.1 卓越的自然语言理解 2.1.1 上下文理解能力 2.1.2 语义分…

地质灾害位移应急监测站

地质灾害位移应急监测站是一种专门用于地质灾害预警和应急响应的设施，它能够实时监测和分析山体、建筑物、管道等的位移变化情况。以下是关于地质灾害位移应急监测站的详细介绍： 主要组成部分传感器：安装于需要监测的位置，用于…

chap4 simple neural network

全连接神经网络问题描述利用numpy和pytorch搭建全连接神经网络。使用numpy实现此练习需要自己手动求导，而pytorch具有自动求导机制。我们首先先手动算一下反向传播的过程，使用的模型和初始化权重、偏差和训练用的输入和输出值如下： 我…

鹤城杯 2021 流量分析

看分组也知道考http流量是布尔盲注过滤器筛选http流量将流量包过滤分离 http tshark -r timu.pcapng -Y "http" -T json > 1.json这个时候取 http.request.uri 进一步分离 http.request.uri字段是我们需要的数据 tshark -r timu.pcapng -Y "http&quo…

MFC 模态对话框的实现原理

参考自MFC 模态对话框的实现原理 - 西昆仑 - OSCHINA - 中文开源技术交流社区 1. 模态对话框在涉及 GUI 程序开发的过程中，常常有模态对话框以及非模态对话框的概念模态对话框：在模态对话框活动期间，父窗口是无法进行消息响应&#xff0…

Deep Learning for Coders with Fastai and PyTorch: AI Applications Without a PhD is the book that forms the basis for this course. We recommend reading the book as you complete the course. There’s a few ways to read the book – you can buy it as a paper bo…