365天深度学习训练营:第N2周:构建词典

news2025/2/28 23:51:19
  • 🍨 本文为🔗365天深度学习训练营中的学习记录博客
  • 🍖 原作者:K同学啊

本周任务:
使用N1周的.txt 文件构建词典,停用词请自定义

1. 导入数据

from torchtext.vocab import build_vocab_from_iterator
from collections import Counter
from torchtext.data.utils import get_tokenizer
import jieba, re, torch

data = [
    "我是K同学啊!",
    "我是一个深度学习博主,",
    "这是我的365天深度学习训练营教案,",
    "你可以通过百度、微信搜索关键字【K同学啊】找到我"
]

2. 设置分词器

# 中文分词方法
tokenizer = jieba.lcut

# 加载自定义词典
jieba.load_userdict("/root/365_DL/n2/my_dict.txt")

 my_dict.txt内容如下:

K同学啊
365天深度学习训练营
深度学习

 3. 清除标点符号与停用词

分词过程中可以通过清除标点符号与停用词(对文本语义没有影响的词,例如"的、是、这")来减少分词结果的噪音

# 去除标点符号的函数
def remove_punctuation(text):
    return re.sub(r'[^\w\s]', '', text)
# 假设我们有一个停用词表,内容如下:
stopwords = set(["的", "这", "是"])

# 去除停用词的函数
def remove_stopwords(words):
    return [word for word in words if word not in stopwords]

 4. 设置迭代器

# 定义一个迭代器来返回文本数据中的词汇
def yield_tokens(data_iter):
    for text in data_iter:
        # 去除标点符号
        text = remove_punctuation(text)
        # 分词并生成词汇
        text = tokenizer(text)
        # 去除停用词
        text = remove_stopwords(text)
        yield text

5. 构建词典

# 使用 build_vocab_from_iterator 来构建词汇表
vocab = build_vocab_from_iterator(yield_tokens(data), specials=["<unk>"])

# 将未知的词汇索引为 <unk>
vocab.set_default_index(vocab["<unk>"])

 build_vocab_from_iterator()函数:从一个可迭代对象中统计token的频次并返回一个vocab

build_vocab_from_iterator(iterator: Iterable,
                          min_freq: int = 1,
                          specials: Optional[List[str]] = None,
                          special_first: bool = True,
                          max_tokens: Optional[int] = None)

参数详解:
· iterator:用于创建 vocab(词汇字典)的可迭代对象。
· min_freq:最小频数。只有在文本中出现频率大于等于 min_freq 的 token 才会被保留下来。
· specials:特殊标志,字符串列表。用于在词汇字典中添加一些特殊的 token/标记,比如最常用的 <unk>,用于代表词汇字典中未存在的 token,当然也可以用自己喜欢的符号来代替,具体的意义也取决于用的人。
· special_first:表示是否将 specials 放到字典的最前面,默认是 True。
· max_tokens:即限制一下这个词汇字典的最大长度。且这个长度包含的 specials 列表的长度。

以上需要注意的几点:
· 若是 specials 设置为了 False,则直接默认加在末尾。
· 通过该方法建立的 vocab 默认按照频次从大到小的顺序排列,若 specials_first 为 True,则 specials 在最前面。
· max_tokens 也是按照 vocab 的顺序,从前往后的保存,也就是说如果两个 token 出现的频次一样,那么是按照出现的顺序来决定 vocab 中两个单词的顺序。
· 一般使用 <unk> 时,通常配合 set_default_index() 一起使用。

6. 文本数字化

# 打印词汇表中的内容
print("词典大小:", len(vocab))
print("词典内部映射:", vocab.get_stoi())

text = "这是我的365天深度学习训练营教案"
words = remove_stopwords(jieba.lcut(text))

print("\n")
print("jieba分词后的文本: ", jieba.lcut(text))
print("去除停用词后的文本: ", remove_stopwords(jieba.lcut(text)))
print("数字化后的文本: ", [vocab[word] for word in words])

7. 个人学习总结

通过本周的深度学习训练营项目,我学到了如何使用自然语言处理(NLP)中的基本技术来构建词典,并对文本进行预处理。首先,我掌握了如何从文本数据中提取词汇,并通过去除标点符号和停用词来减少噪音。这一步骤非常重要,因为干净的文本数据能够显著提高模型的训练效果。例如,在去除“的”、“是”等停用词后,文本的语义更加突出,模型可以更好地捕捉关键信息。

其次,我学会了如何使用jieba进行中文分词,并通过自定义词典来优化分词结果。例如,在项目中,我将“K同学啊”和“365天深度学习训练营”等专有名词添加到自定义词典中,确保这些词汇在分词时不会被错误地拆开。这一技巧在实际应用中非常有用,尤其是在处理特定领域的文本时,能够有效提高分词的准确性。

此外,我还学习了如何使用torchtext库中的build_vocab_from_iterator函数来构建词汇表,并将文本数据数字化。通过这一过程,我理解了如何将自然语言转换为模型可以处理的数字形式。例如,在项目中,我将“这是我的365天深度学习训练营教案”这句话分词后,去除停用词,并将其转换为数字序列,方便后续的模型输入。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2273625.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue2迁移至rsbuild

背景 由于远程机器配置较低&#xff0c;每次运行vue2项目都会非常卡。后期项目文件、路由更多的时候&#xff0c;启动到一半直接会跳出open too many files类似的错误&#xff0c;尝试将路由屏蔽掉只剩下开发所需的一个路由也不行&#xff08;不是说webpack的打包是全部打包&am…

升级 Spring Boot 3 配置讲解 — 新版本的秒杀系统怎么做?

学会这款 &#x1f525;全新设计的 Java 脚手架 &#xff0c;从此面试不再怕&#xff01; 1. Spring Boot 3 升级指南 在升级 Spring Boot 3 之前&#xff0c;首先需要确保你的项目已经升级到 Java 17&#xff0c;因为 Spring Boot 3 不再支持 Java 8 和 Java 11。接下来&…

Seata的部署与微服务集成

文章目录 Seata的部署与微服务集成1. Seata介绍2. 部署TC服务2.1 数据准备2.2 配置文件2.3 docker 部署2.4 访问 3. 微服务集成Seata3.1 引入服务3.2 改造配置3.3 添加数据库表3.4 注解标记 Seata的部署与微服务集成 1. Seata介绍 Seata 是一款开源的分布式事务解决方案&…

NFS 组件容器化部署实战指南

文章目录 前言部署NFS服务器K8S部署NFS问题记录 前言 使用nfs-client-provisioner这个应用&#xff0c;利用nfs server给kubernets提供作为持久化后端&#xff0c;并且动态提供pv。所有节点需要安装nfs-utils组件&#xff0c;并且nfs服务器与kubernets worker节点都能网络连通…

【江协STM32】10-2/3 MPU6050简介、软件I2C读写MPU6050

1. MPU6050简介 MPU6050是一个6轴姿态传感器&#xff0c;可以测量芯片自身X、Y、Z轴的加速度、角速度参数&#xff0c;通过数据融合&#xff0c;可进一步得到姿态角&#xff0c;常应用于平衡车、飞行器等需要检测自身姿态的场景3轴加速度计&#xff08;Accelerometer&#xff…

裸机器搭建k8s部署 1.28.10版本

问了搭建k8s集群踩了很多坑&#xff0c;问题主要出现在网络插件处&#xff0c;因此主要是master节点操作问题。重新走一下流程整理一下笔记。 目录 虚拟机准备 虚拟机 系统版本信息 修改镜像地址 配置静态ip 关闭防火前和交换分区 转发 IPv4 并让 iptables 看到桥接流量…

HCIE-day10-ISIS

ISIS ISIS&#xff08;Intermediate System-to-Intermediate System&#xff09;中间系统到中间系统&#xff0c;属于IGP&#xff08;内部网关协议&#xff09;&#xff1b;是一种链路状态协议&#xff0c;使用最短路径优先SPF算法进行路由计算&#xff0c;与ospf协议有很多相…

70.爬楼梯 python

爬楼梯 题目题目描述示例 1&#xff1a;示例 2&#xff1a;提示&#xff1a; 题解思路分析Python 实现代码空间优化代码解释提交结果 题目 题目描述 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢&#xff…

优质内容在个人IP运营中的重要性:以开源AI智能名片商城小程序为应用实例的深度探讨

摘要&#xff1a;在数字化时代&#xff0c;个人品牌&#xff08;IP&#xff09;的塑造与传播已成为各行各业提升影响力、吸引用户关注、促进商业转化的关键策略。优质内容作为连接个人IP与目标受众的桥梁&#xff0c;其在个人IP运营中的重要性不言而喻。本文旨在深入探讨优质内…

有限元分析学习——Anasys Workbanch第一阶段笔记(8)水杯案例的对称与轴对称处理

目录 1 序言 2 对称处理 2.1 模型处理 2.2 网格划分、约束载荷及接触设置 2.3 计算结果 3 轴对称处理 3.1 对称与轴对称概念 3.2 轴对称问题的应用 3.2.1 创建分析案例 3.2.2 导入并处理模型 3.2.3 网格划分、约束载荷及接触设置 3.2.4 后处理计算结果 1 序言 本章…

网络安全-web渗透环境搭建-BWAPP(基础篇)

01--所需系统环境&#xff1a; 虚拟主机系统部署&#xff08;vmware&#xff0c;虚拟主机创建、虚拟主机网络配置&#xff08;桥接&#xff0c;便于网络中多个主机都能访问虚拟主机&#xff09;、虚拟软件功能&#xff0c;快照、克隆、镜像文件加载&#xff0c;ova文件制作&am…

Java 实现 Elasticsearch 查询当前索引全部数据

Java 实现 Elasticsearch 查询当前索引全部数据 需求背景通常情况Java 实现查询 Elasticsearch 全部数据写在最后 需求背景 通常情况下&#xff0c;Elasticsearch 为了提高查询效率&#xff0c;对于不指定分页查询条数的查询语句&#xff0c;默认会返回10条数据。那么这就会有…

算能AI计算服务器SE5设备树的二次修改实操

目录 1.大纲 2.实操 2.下载对应文件包 3.解包启动文件 4.修改对应的设备树 5.重启后 教程链接&#xff1a;https://github.com/sophgo/sophon-tools/tree/main/source/pmemory_edit 1.大纲 2.实操 2.1 选择串口&#xff0c;波特率115200&#xff0c;重启设备&#xff0…

Python的Matplotlib库应用(超详细教程)

目录 一、环境搭建 1.1 配置matplotlib库 1.2 配置seaborn库 1.3 配置Skimage库 二、二维图像 2.1 曲线&#xff08;直线&#xff09;可视化 2.2 曲线&#xff08;虚线&#xff09;可视化 2.3 直方图 2.4 阶梯图 三、三维图像 3.1 3D曲面图 3.2 3D散点图 3.3 3D散…

Flutter:封装一个自用的bottom_picker选择器

效果图&#xff1a;单列选择器 使用bottom_picker: ^2.9.0实现&#xff0c;单列选择器&#xff0c;官方文档 pubspec.yaml # 底部选择 bottom_picker: ^2.9.0picker_utils.dart AppTheme&#xff1a;自定义的颜色 TextWidget.body Text() <Widget>[].toRow Row()下边代…

牛客网刷题 ——C语言初阶(6指针)——BC106 上三角矩阵判定

1. 题目描述——BC106 上三角矩阵判定 牛客网OJ题链接 描述 KiKi想知道一个n阶方矩是否为上三角矩阵&#xff0c;请帮他编程判定。上三角矩阵即主对角线以下的元素都为0的矩阵&#xff0c;主对角线为从矩阵的左上角至右下角的连线。 示例 输入&#xff1a; 3 1 2 3 0 4 5 0 0…

力扣刷题:数组OJ篇(下)

大家好&#xff0c;这里是小编的博客频道 小编的博客&#xff1a;就爱学编程 很高兴在CSDN这个大家庭与大家相识&#xff0c;希望能在这里与大家共同进步&#xff0c;共同收获更好的自己&#xff01;&#xff01;&#xff01; 目录 1.轮转数组&#xff08;1&#xff09;题目描述…

《(限)战斗天赋VR》V02122024官方中文学习版

《(限)战斗天赋VR》官方中文版https://pan.xunlei.com/s/VODaeHDXSxw4BNDNl39dxJXnA1?pwdusm5# 一款具有挑战性的基于物理的roguelite剑术格斗游戏&#xff0c;你可以在一个超级无缝的程序地牢中创造自己的战斗风格&#xff0c;体验无与伦比的游戏体验。有80多种敌人变种、10…

《Spring Framework实战》3:概览

欢迎观看《Spring Framework实战》视频教程 Spring Framework 为基于现代 Java 的企业应用程序提供了全面的编程和配置模型 - 在任何类型的部署平台上。 Spring 的一个关键要素是应用程序级别的基础设施支持&#xff1a;Spring 专注于企业应用程序的 “管道”&#xff0c;以便…

基于SpringBoot+Vue动漫交流系统平台设计和实现

系统介绍&#xff1a; 免费的源码&#xff0c;我刚找到的&#xff0c;给大家推荐一下源码下载 动漫交流系统平台是一个专为动漫爱好者设计的在线社区平台&#xff0c;旨在为用户提供一个便捷的环境来分享动漫。这个系统包含了多种功能&#xff0c;如动漫分类、动漫视频、动漫…