《学术小白学习之路12》进阶-基于Python实现中文文本的DTM主题动态模型构建

news2024/11/27 16:33:23

《学术小白学习之路》基于Python实现中文文本的DTM主题动态模型构建

  • 一、数据选择
  • 二、数据预处理
  • 三、输入数据ID映射词典构建
  • 四、文档加载成构造语料库
  • 五、DTM模型构建与结果分析
  • 六、结果进行保存
  • 七、保存模型

一、数据选择

所选取的数据集是论文摘要,作为实验数据集,共计12条数据信息。每一条代表一条数据信息
主要注意的是本文用的是txt的数据集,而且每一个文档用换行的符号进行划分。
获取的数据主要为中文的数据所以需要进行清洗处理

在这里插入图片描述

二、数据预处理

导入相应的库

#encoding=utf-8
from __future__ import unicode_literals
import sys
sys.path.append("../")
import re
import jieba
import jieba.posseg
import jieba.analyse
import re

首先需要将数据集中进行分词,同时过滤掉一些标点符号
数据保存在本地的一个1.txt文件就可以
同时,将生成的分词文件命名为1.data.txt文件

f = open('1.txt', 'r', encoding='utf-8')
new_f = open("1.data.txt", "w", encoding="utf-8")
lines = f.readlines()

遍历每个行的数据,用正则清洗掉数据中的标点符号
r = ‘[’,。!"#$%&’()*+,-./:;<=>?@[\]^_`{|}~]+'——表示[]中的符号用re.sub(r, ‘’,line)替换成空,可以自己添加
同时将清洗后的数据进行分词为,并将每个词用“ ”空格隔开
将分词后的数据写入1.data.txt文件

# 代码缺少中文标点符号逗号之类的,不全,分词结果会存在标点符号
r = '[’,。!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]+'
n = 0
for line in lines:
    print(line)
    n += 1
    line = re.sub(r, '',line)
    line = ' '.join(jieba.cut(line))
    new_f.write(line)
    print(line)
print('一共有{}篇文档'.format(n))

分词后的数据格式如下
在这里插入图片描述
在这里插入图片描述

三、输入数据ID映射词典构建

其中logging用于查看执行日志,导入的gensim版本是gensim-3.8.3,根据自己系统要求以及pyhton版本选择合适的版本,强调一下最好使用3.8.3版本,不然会报错。

#coding:utf-8
# 1.首先导入相关模块:
import logging
import sys

from gensim import corpora
from six import iteritems

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1042258.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中国人民大学与加拿大女王大学金融硕士为何占据在职读研人的心?一起来看看

说起北京地区的中外合作办学在职硕士项目哪个最受欢迎呢&#xff1f;无疑是中国人民大学与加拿大女王大学金融硕士项目&#xff0c;它已经深深占据在职读研人的心。项目历经十年的风雨&#xff0c;有口皆碑。一起去人大女王金融硕士项目为什么这么受青睐。 一、名校光环 女王金…

基于微信小程序的校园代送跑腿系统(源码+lw+部署文档+讲解等)

文章目录 前言系统主要功能&#xff1a;具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序&#xff08;小蔡coding&#xff09;有保障的售后福利 代码参考源码获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计…

Python和Scrapy构建可扩展的框架

构建一个可扩展的网络爬虫框架是利用Python和Scrapy实现高效数据采集的重要技能。在本文中&#xff0c;我将为您介绍如何使用Python和Scrapy搭建一个强大灵活的网络爬虫框架。我们将按照以下步骤展开&#xff1a; 1. 安装Scrapy&#xff1a; 首先&#xff0c;确保您已经安装了…

QT配置FFmpeg出现错误原因

文章目录 QT配置ffmpeg出现&#xff1a; undefined reference to "avcodec_version"没有配置环境变量QT和FFmpeg的版本不对应直接添加FFmpeg的头文件没有在.pro文件添加路径 QT 程序异常退出没有在debug文件里面存放dll库 QT配置ffmpeg出现&#xff1a; undefined re…

优思学院|怎样制定有效的质量管控措施?要善用六西格玛思维!

要看质量管控措施行不行&#xff0c;关键在于这些措施是不是经过认真分析才定的。分析要严谨&#xff0c;就可以用DMAIC这六个步骤&#xff0c;它是六西格玛方法的核心。DMAIC是六西格玛分析过程中的步骤&#xff0c;就是&#xff1a;定义&#xff08;Define&#xff09;、测量…

华为云云耀云服务器L实例使用教学|Unbelievable, 带你用云服务器部署Windows12

&#x1f4cb; 前言 &#x1f5b1; 博客主页&#xff1a;在下马农的碎碎念&#x1f917; 欢迎关注&#x1f50e;点赞&#x1f44d;收藏⭐️留言&#x1f4dd;✍ 本文由在下马农原创&#xff0c;首发于CSDN&#x1f4c6; 首发时间&#xff1a;2023/09/26&#x1f4c5; 最近更新时…

Bitcoin Consensus Mechanism——SYSU SSE Blockchain 5th lecture(English Version)

目录 Part 1: What is Consensus? Definition Distributed Consensus Consensus in Bitcoin CAP Theorem Definitions Trade-offs ("Pick Two" Dilemma) Part 2: Why Bitcoin needs Consensus Types of Consensus Mechanisms Why Bitcoin Needs Consensus…

LaTex排版系统:TeX Live+Visual Studio Code的配置

配置Tex排版系统需要安装编译器编辑器&#xff0c;编译器通常安装TeX Live&#xff0c;编辑器主要有TeXworks、TexStudio、WinEdt、Visual Studio Code等&#xff0c;目前VS Code普遍评价不错。下面介绍Windows平台安装LaTex的详细步骤。 1 安装TeX Live 1.1 下载地址选择国内…

babel的配置执行顺序

babel配置文件&#xff1a; //.babelrc {"presets": ["babel/preset-env","babel/preset-react"],"plugins": ["babel/plugin-proposal-class-properties",["babel/plugin-transform-runtime",{"corejs&quo…

R | R及Rstudio安装、运行环境变量及RStudio配置

R | R及Rstudio安装、运行环境变量及RStudio配置 一、介绍1.1 R介绍1.2 RStudio介绍 二、R安装2.1 演示电脑系统2.2 R下载2.3 R安装2.4 R语言运行环境设置&#xff08;环境变量&#xff09;2.4.1 目的2.4.2 R-CMD测试2.4.3 设置环境变量 2.5 R安装测试 三、RStudio安装3.1 RStu…

Windows下conda安装pytorch GPU版

1.安装miniconda,不细讲了,自己去百度,miniconda自带python,可以通过conda创建虚拟python环境,安装Pytorch的话建议python版本大于3.8,完成后注意配置环境变量。 2.安装CUDA: 查看自己CUDA版本,Nvidia控制面板中找,不再赘述。根据查看的版本,下载 CUDA Toolkit并安装…

ChatGPT重磅升级:可以看图、听声音、说话啦!

美东时间9月25日&#xff0c;OpenAI在官网宣布&#xff0c;对ChatGPT进行重磅升级实现看图、听声音、输出语音内容三大功能。 早在今年3月OpenAI发布GPT-4模型时&#xff0c;就展示过看图的功能&#xff0c;但由于安全、功能不完善等原因一直没有开放。现在不仅开放了看图&…

《玩转smardaten | 无代码开发移动端APP需要几步?最全操作!》

看完这么多免编程、无代码APP软件开发的文章&#xff0c;还是一脸茫然&#x1f62e;...只讲能开发出什么玩意&#xff0c;不讲到底怎么开发&#xff0c;我怎么学会&#xff1f; 来了&#xff0c;无代码的移动端操作教程&#xff0c;从PC移动端一体式开发&#xff0c;到移动端单…

python+nodejs+php+springboot+vue 导师双选系统

为了直观显示系统的功能&#xff0c;运用用例图这样的工具显示分析的结果。分析的导师功能如下。导师管理导师选择信息&#xff0c;管理项目&#xff0c;管理项目提交并对学员提交的项目进行指导。 为了直观显示系统的功能&#xff0c;运用用例图这样的工具显示分析的结果。分析…

Golang 函数 不定参数

不定参数 在C语言时代大家一般都用过printf()函数&#xff0c;从那个时候开始其实已经在感受不定参数的魅力和价值。如同C语言中的printf()函数&#xff0c;Go语言标准库中的fmt.Println()等函数的实现也严重依赖于语言的不定参数功能。 我们将介绍不定参数的用法。合适地使用…

✔★ 算法基础笔记(Acwing)(五)—— 动态规划【java版本】

动态规划 一、背包问题★f[i][j] 背包容量为j&#xff0c;前i个物品的最大价值 1. 01背包问题(不需要初始化) ✔1.6 ✔1.72. ☆ 完全背包问题&#xff08;后面的 前面的某一项的最大值&#xff09;一、朴素做法&#xff08;三重循环&#xff09;二、二维数组的优化&#xff08…

OpenCV 实现 SIFT→SURF 算法关键点检测实现

1&#xff0c;SIFT算法原理 1.1&#xff0c;基本流程 1.1.1 尺度空间极值检测 1.1.2 关键点定位 1.1.3 关键点方向确定 、 1.1.4 关键点描述 1.1.5 总结 1.2 SURF原理 2 代码实现 import cv2 as cv import matplotlib.pyplot as plt import numpy as np from pylab i…

open ai chartgpt 安装插件 txyz.ai

1 chatgpt 页面 左下角 用户 -> setting 2 3

RK3568驱动指南|第五期-中断-第44章 共享工作队列实验

瑞芯微RK3568芯片是一款定位中高端的通用型SOC&#xff0c;采用22nm制程工艺&#xff0c;搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码&#xff0c;支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU&#xff0c;可用于轻量级人工…

2023年深圳等保测评机构名称以及地址汇总

你知道深圳等保测评机构有哪些&#xff1f;知道在哪里吗&#xff1f;今天我们小编就给大家汇总一下。 2023年深圳等保测评机构名称以及地址汇总 序号&#xff1a;1 名称&#xff1a;深圳市信息安全管理中心 地址&#xff1a;深圳市福田区莲花街道福中路城市数字资源中心 序…