中文文本分类

news2026/2/14 23:02:02

手把手带你做一个文本分类实战项目(模型+代码解读)

https://www.bilibili.com/video/BV15Z4y1S7aR/?spm_id_from=333.788.recommend_more_video.-1&vd_source=c47fbb8166930edc486d8fdc405bf569

在这里插入图片描述
中文汉字对应的数字索引
之后对应的数字索引
之后找到tokn embedding的东西

1、模型预处理
2、模型构建
3、损失函数构建

词袋模型

在这里插入图片描述

我们得到了单词的向量表示
那么我们如何得到文本的向量表示
再所有的词出现变为0

在这里插入图片描述

词袋模型的问题在哪里?

词袋模型也有一种表示叫做one-hot表示
我和吃，吃和饭，我和饭这两个词之间的距离是一样的，但实际上是不一样的，这个就是表达的意思是缺失的。

1、维度会很大

词表是2万个字

one-hot来表示

2、信息表达缺失

词向量：每个维度都有值，维度可控
在这里插入图片描述
每一个索引对应一个向量

词向量表格怎么来？

（1）先用模型学出来，再放到文本分类模型中去
在这里插入图片描述
（2) 随机初始化，放入文本分类模型中学习

如何生成词表

最简单：从零开始给一个数字索引

但是考虑一个问题：是所有的词我都要嘛？

UNK
删掉的词再出现
线上的遇到没看到的词

PAD符号
为了方便矩阵化处理，一个batch保持一致

把所有句子最开始pad到一个长度
把一个Batch pad到一个长度，不同abtch长度可能不同

模型是为了得到一个句子的表达

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/112523.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

34. 池化层 / 汇聚层

34. 池化层 / 汇聚层

1. 池化层如果我们拍摄黑白之间轮廓清晰的图像X，并将整个图像向右移动一个像素，即Z[i, j] X[i, j 1]，则新图像Z的输出可能大不相同。而在现实中，随着拍摄角度的移动，任何物体几乎不可能发生在同一像素上。即使用三脚…

阅读更多...

15【SpringMVC的注解开发】

15【SpringMVC的注解开发】

文章目录二、SpringMVC注解支持2.1 回顾Servlet容器启动源码流程2.2 分析SpringMVC启动源码分析2.2.1 SpringServletContainerInitializer源码分析2.2.2 WebApplicationInitializer源码分析1）AbstractContextLoaderInitializer2）AbstractDispatcherServl…

阅读更多...

短视频播放量超10w后，流量变少的问题解决方案

短视频播放量超10w后，流量变少的问题解决方案

短视频播放量超10w后，流量变少的问题解决方案上一篇我们聊了视频播放超10w后，会遇到流量变少的问题并分析了可能的原因，既然知道了原因，那么我们就可以针对性的去解决了。今天给大家聊一聊在我赢助手跟超200名短视频创作者沟通…

阅读更多...

Allegro如何设置差分动态等长规则操作指导

Allegro如何设置差分动态等长规则操作指导

Allegro如何设置差分动态等长规则操作指导 Allegro上可以对差分设置动态等长规则，让差分对在任意一段距离上都是满足等长误差的，尤其是在差分对走线较长的情况下以下面这两对线为例具体操作如下打开constraint Manage选择Physical规则

阅读更多...

Linux 管理联网设置主机名（ nmtui图形化和 hostnamectl命令）

Linux 管理联网设置主机名（ nmtui图形化和 hostnamectl命令）

设置主机名 # 常用的有两种方式，一种是 nmtui 图形化界面的方式来设置， 一种是 hostnamectl 命令的方式来设置。 nmtui 直接在命令行输入 nmtui 便进入图形化界面 >>> 最后一选项（ 红底） 便是设置主机名~&#x…

阅读更多...

微导纳米科创板上市：市值125亿无锡首富王燕清再敲钟

微导纳米科创板上市：市值125亿无锡首富王燕清再敲钟

雷递网雷建平 12月23日江苏微导纳米科技股份有限公司（简称：“微导纳米”，股票代码为：“688147”）今日在科创板上市。微导纳米此次发行4544.55万股，发行价为24.21元，募资总额为11亿元。微导纳米…

阅读更多...

react笔记_11 redux

react笔记_11 redux

目录redux定义使用时机redux基本概念StoreStateActionreducerredux工作原理语法[1] 创建StorecreateStorecombineReducers[2]创建并分发actiondispatchapplyMiddleware语法举例说明- 做一个加法运算执行原理redux-thunk中间件使用[3]创建reducer语法渲染过程[4]getState[5]subs…

阅读更多...

基于meanshift算法的目标聚类和目标跟踪matlab仿真

基于meanshift算法的目标聚类和目标跟踪matlab仿真

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 meanshift算法其实通过名字就可以看到该算法的核心，mean（均值），shift（偏移），简单的说，也就是有一个…

阅读更多...

Web前端105天-day63-HTML5_CORE

Web前端105天-day63-HTML5_CORE

HTML5CORE03 目录前言一、复习二、SVG 三、Echarts 四、Webworker 五、回调地狱六、Promise 七、promiseajax 八、promise_axios 九、async_await 总结前言 HTML5CORE03学习开始一、复习跨域浏览器的同源策略限定: 网页中利用 AJAX 请求数据, 必须访问同源…

阅读更多...

【CSS】flex布局用法解析，快速上手flex布局，flex:1是什么意思？肯定看的懂好吧？

【CSS】flex布局用法解析，快速上手flex布局，flex:1是什么意思？肯定看的懂好吧？

一、flex布局 flex 是 flexible box 的缩写，意为"弹性布局"，用来为盒状模型提供最大的灵活性。任何一个容器都可以指定为 flex 布局。采用 flex 布局的元素，称为 flex 容器（flex container），…

阅读更多...

如何解决跨越

如何解决跨越

解决跨域我想在坐的各位都会听说过几个解决跨域的方法： 1.有什么 cors后端配置（加几个请求头 2.jsonp（利用script的src属性） 3.还有vue-cli前端配置。跨域其实就是违背了浏览器的一种策略，这种策略就是同源策略&…

阅读更多...

公司刚来的阿里p8，看完我构建的springboot框架，甩给我一份文档

公司刚来的阿里p8，看完我构建的springboot框架，甩给我一份文档

前言： 我们刚开始学习 JavaWeb 的时候，使用 Servlet/JSP 做开发，一个接口搞一个 Servlet ，很头大，后来我们通过隐藏域或者反射等方式，可以减少 Servlet 的创建，但是依然不方便，再后…

阅读更多...

【Transformer】医学分割领域的应用与扩展（论文阅读）（二） || DETR

【Transformer】医学分割领域的应用与扩展（论文阅读）（二） || DETR

声明：仅学习使用~ 目录 1. Transformer学习2. DETR1. Transformer学习前篇指路：【Transformer】医学分隔领域的应用与扩展（论文阅读）（一）继续… 关于Self-Attention的公式：原来是 m x m 是2D的，现在变成1 x m了，是1D的了。下图中。左图是传统的Transformer，右…

阅读更多...

【python圣诞树的实现】

【python圣诞树的实现】

🤵‍♂️ 个人主页老虎也淘气个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持我们一起进步！😄 如果文章对你有帮助的话， 欢迎评论 💬点赞👍🏻 收藏…

阅读更多...

拒不外传，阿里内部耗重金找人总结出这份并发编程手册（全彩版）

拒不外传，阿里内部耗重金找人总结出这份并发编程手册（全彩版）

并发世界很有趣，不要错过前言： 时间飞逝，转眼间毕业七年多，从事 Java 开发也六年了。我在想，也是时候将自己的 Java 整理成一套体系。这一次的知识体系面试题涉及到 Java 知识部分、性能优化、微服务、并发编程、开…

阅读更多...

python常用模块

python常用模块

time模块常用操作 1.直接获取时间 time.time() #获取结果是秒数，即从1970年1月1日8:00起计#1671856010.9592516 2.获取结构化时间 time.localtime() #获取本地时间，中国为东八区，为上海时间 time.gmtime() …

阅读更多...

C++控制台圣诞树

C++控制台圣诞树

前言有是一年圣诞节，先祝大家圣诞节快乐，所以本蒟蒻在AFO之后决定回来更新一篇打印字符圣诞树的教程 （呃好吧我承认我就是想嫖奖品） 效果展示呃我知道这有点拉，但是……蒟蒻能有什么坏心思呢，他只不过想…

阅读更多...

客户端服务端交互实现

客户端服务端交互实现

问题客户端业务逻辑如何实现？ 与服务设备具体交互细节如何设计？ 客户端业务逻辑实现用户输入处理字符串空格处理，分割获取命令与参数服务信息处理字符串预处理，分割获取服务命令存储服务命令与设备地址之间的映射(命令字…

阅读更多...

Java Socket实现NIO通信

Java Socket实现NIO通信

文章目录一.简单介绍通道（Channel）多路复用器（Selector）二.代码实现.客户端服务端运行结果一.简单介绍 NIO 很多人也称之为 Non-block I/O，即非阻塞 I/O，因为这样叫，更能体现它的特点。为什么…

阅读更多...

kdump功能

kdump功能

kdump功能前言1 kdump流程2 kdump配置2.1 kexec、makedumpfile编译2.2 系统内核2.3 捕获内核3 kdump测试4 kdump的不足前言 kdump 是一种先进的基于 kexec 的内核崩溃转储机制。当系统崩溃时，kdump会将内存导出为vmcore保存到磁盘。在kernel1运行的时候&#xff…

阅读更多...

推荐文章

最新文章