面包多面包多面包多面包多面包多面包多

news2024/11/17 20:47:43

1.背景

在这里插入图片描述

1.摘要

本文是针对智慧政务中的文本数据挖掘应用的研究。通过建立基于三层网络结构的fastText文本分类模型,聚类量化模型,熵权评估模型解决了群众留言分类,热点问题挖掘,答复意见评价等问题。
针对群众留言分类问题,本文利用所给数据进行词频统计和词云图分析。得到所给训练集是一种不平衡数据集,我们对已有的数据集进行采样,从而扩充训练集,解决数据不平衡问题。为了方便应用分类模型,我们对文本数据进行正则预处理,去停用词,jieba智能分词来获取特征文本。分词部分,我们利用逆向最大匹配分词算法BMM和jieba分词实现了更好的分词效果。对于分类模型的建立,我们考虑基于TFIDF关键词抽取和最大相似度匹配的无监督分类模型,最终在验证集上的F1得分为0.56。为了得到更加精准的分类模型,利用表征学习进行文本词嵌入,结合fastText文本分类模型实现了有监督聚类,最终的验证集F1评分为0.93。该模型的分类效果较好,基本满足分类需求。
针对热点问题挖掘,本文通过建立k-means聚类量化模型实现了问题热度指数的量化。首先量化留言关注度,将一条留言所有的点赞数和反对数相加作为一个留言关注度量化评分。我们考虑从留言具体内容的角度来研究留言热度。我们利用词频共现算法来获取关键词指数,然后利用文本相关系数构建k-means聚类量化模型,文本热度指数可以根据留言到中心簇的距离公式来量化。综合考虑点赞数与反对数指标,从而加权归一化得到整体的留言热度指数。最终根据留言热度指数量化结果排序,获取了排名前五的热点问题。进一步利用聚类算法对热点问题进行归类,得到的最终热点问题结果表见正文表3。其中前五的热点问题中有三条是关于A市58车贷案,这也说明该问题引起了广泛关注。
针对答复意见的评价问题,本文通过量化相关性,完整性,可解释性来综合量化留言质量。对于相关性,我们利用莱文斯坦相似度计算留言和答复的文本相似性来量化。对于答复意见的完整性指标量化,我们考虑利用文本分词算法,通过文本分词数来衡量。可解释性指标,我们利用字符串匹配结合高频词统计来获取。根据量化的三个指标,我们建立了熵权综合评估模型,利用python编程,最终给出了每个答复的熵权评分作为答复意见质量评分。最终给出了排名前10的留言答复意见结果表,具体见正文表4。

2.思路分析

2.1问题一的分析

本题要求针对文本留言内容建立一个一级标签分类模型。从而实现群众留言的自动化分类。我们首先针对附件二多给的文本数据进行定性的分析,包括文本词频统计,词云图绘制等。
为了能够较好的应用分类模型,我们首先针对文本数据进行特征预处理,利用正则替换,jieba分词,去除停止词等手段来清洗数据。进一步利用清洗之后的特征数据进行分类建模。对于分词部分,虽然利用了jieba智能分词模块,但仍旧有很多比较长的专业词很难完整的划分出来,因此我们利用逆向最大匹配分词算法BMM借助自建词表实现最佳分词。利用预处理之后的分类特征,我们首先尝试利用关键词提取以及关键词和标签词的最大相似度匹配来实现文本分类。关键词提取主要采用TFIDF算法来实现文本关键词抽取。
但是考虑到这种方法是一种无监督的分类算法,准确率可能比较低,因此我们考虑利用表征学习进行词嵌入,进一步利用开源Fasttext文本分类框架构建分类模型,从而实现有监督训练的文本分类。我们还提出了利用word2vec对文本进行表征学习,并且构建LGB最大提升树模型来实现文本分类的有监督训练。并且对比主流模型在测试集评分结果,从而得到较好的分类结果。

2.2问题二的分析

本题要求针对热点问题进行挖掘,主要目的是从群众留言中挖掘出热点问题。也就是给每一条留言都量化一个热度指数。并且根据热度指数进行排序,从而获取热度较高的评价问题。
对于热度指数的量化,我们通过对附件3数据可以发现问题的点赞数与反对数可以在一定程度上反应这个问题的关注度情况。因此问题的点赞数与反对数也是衡量问题热度的一个重要指标。比如问题的点赞数越多,就越说明这个问题反应人民群众的心声。进一步我们考虑从留言具体内容的角度来研究留言热度。首先对文本数据进行预处理,同样包括正则字符处理,jieba分词,然后针对预处理之后留言文本进行词频统计分析。进一步根据词频共现算法来获取关键词指数。根据关键词指数量化文本之间的相关关系,然后根据文本相关系数进行聚类。从而将距离聚类中心簇较远的留言视为热点问题。
文本热度指数可以根据留言到中心簇的距离公式来量化,再综合考虑点赞数与反对数指标,从而加权归一化得到整体的留言热度指数。进一步排序获取最终的结果。

2.3问题三的分析

本题要求根据部门对于留言的答复意见给出一套意见的质量评价。我们尝试从各种角度来评估答复意见的质量,主要包括从相关性,完整性以及可解释性等角度。
对于答复意见的相关性质量,我们考虑利用文本相似度计算来衡量,通过利用前文的关键词抽取算法,抽取出留言的关键词文本和答复意见文本计算余弦相似度或者是莱文斯坦相似度。其中,莱文斯坦相似度描述的是两端文本之间的形体相似性。最终利用上述相似度计算结果归一化获取答复意见与问题的相关性系数。对于答复意见的完整性评价,我们利用前文的文本分词算法,通过文本词长度统计来衡量,一般来说文本含有的词语越多,回复意见越完整。此外对于答复意见的可解释性评估,主要考虑利用字符串匹配来获取,主要是统计答复意见中高频词出现在问题中高频词的次数进行统计。最终量化出三个评价指标,然后建立熵权综合评价模型,最终给出每个答复意见的质量评价得分。

3.解题过程

本题要求针对文本留言内容建立一个一级标签分类模型。从而实现群众留言的自动化分类。我们首先针对附件二给的文本数据进行定性的分析,包括文本词频统计,词云图绘制等。
对于文本标签的分类,我们结合无监督相似性识别和有监督聚类来实现最终的多分类模型构建,从而训练一个更加准确的分类器。
根据上述分析,我们给出了问题一解题思路流程图如下:

在这里插入图片描述
在这里插入图片描述

图2 一级标签留言的占比情况

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/445376.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《学习循环》---C语言

目录 前言: 1.while循环 1.1while循环的结构 1.2while语句中的break和continue 2.getchar配合循环清空缓冲区 3.for循环 3.1for循环的结构 3.2for循环中的break和continue 3.3for循环的注意事项 3.4使用多个循环变量控制for循环 4.do while循环 4.1do …

chrome 浏览器在 112 正式版本以及 114 canary 版本从 devtools 控制台复制文本不会复制高亮显示的文本?

问题 我的 chrome 浏览器版本如下:版本 112.0.5615.138(正式版本) (64 位) 今天我在写代码的时候报错了,看了一下控制台浏览器,是某个属性没有定义,然后我双击这个属性名称 ctrl c…

asp.net+C#大学生高校运动会比赛综合管理系统

目录 1 绪论 3 1.1 课题背景 3 1.2 课题目标 3 1.3 研究现状 3 1.4 论文工作内容以及结构安排 4 1.4.1 论文工作内容 4 1.4.2 论文结构安排 4 2 系统开发技术介绍 6 2.1 ASP.NET简介 6 2.2 Microsoft Visual Studio 2010平台 7 2.3 SQL Serve…

第16章_网络编程

第16章_网络编程 讲师:尚硅谷-宋红康(江湖人称:康师傅) 官网:http://www.atguigu.com 本章专题与脉络 1. 网络编程概述 Java是 Internet 上的语言,它从语言级上提供了对网络应用程序的支持,程…

达梦数据迁移问题罗列

目录 一、前言 二、问题罗列 一、前言 最近小编接触到国产的数据库达梦数据库,然后在用达梦数据迁移工具MySQL迁移至达梦的时候遇到了一系列的问题现在罗列一下在这里。目前关于国产的数据库达梦这些资料比较少,希望能够帮到有需要的同志们&#xff01…

MySQL 服务的启动和停止

4.MySQL 服务的启动和停止_mysql数据库启停_头疼小宇的博客-CSDN博客

【网络编程】TCP

✨个人主页:bit me👇 ✨当前专栏:Java EE初阶👇 目 录 🔮一. TCP流套接字编程💿二. TCP中的长短连接📀三. 写一个 TCP 版本的 回显服务器-客户端 🔮一. TCP流套接字编程 ServerSock…

d2l 注意力评分函数 --附加mask_softmax讲解

本章节tensor处理操作也不少,逐个讲解下: 目录 1.mask_softmax 1.1探索源码d2l.sequence_mask 2.加性注意力 3.缩放注意力 1.mask_softmax dim-1表示对最后一个维度进行softmax .dim()返回的是维度数 对于需要mask的数,要用绝对值非…

FreeRTOS 任务创建与删除实验

本实验主要实现 FreeRTOS 使用动态方法创建和删除任务,本实验设计了四个任务,这四 个任务的功能如下表所示: 软件设计 1. 程序流程图 本实验的程序流程图,如下图所示: 2. FreeRTOS 函数解析 (1) 函数 xTaskCreate…

spring框架基础知识和基于XML的Bean对象的管理回顾

什么是spring框架? spring基本功能所必须的jar包就是这些 如何获取bean? IOC原理 上面耦合度太高了 改进使用工厂模式 上面并没有把耦合度降低到最低,使用反射 spring实现IOC的两种方式 BeanFactory和ApplicationContext IOC如何管理Bea…

5个方法,帮助你快速提高团队管理效率

团队中,大家看起来都很忙,但最终交付的结果却总是差强人意。会议那么多,但有效的却很少越管理,但偏偏有时候越管理越乱......相信以上这些问题,很多管理者都有遇到过,团队管理是一个项目中最关键的一环。好…

如何打造全流程数字化零工场景,实现零工管理一体化?

近年来,零工市场发展迅速,不仅为企业提供更低成本、更便捷的用工方式,也为劳动者就业提供更低门槛更灵活形式,发挥了就业「蓄水池」的重要作用。但由于零工经济模式下的用工形式非常灵活,企业想要管好零工并不容易。 …

短视频平台-小说推文(知乎)推广任务详情

知乎会员 知乎日结内测中,可能暂只对部分优质会员开放! 2023/03/29通知: 知乎拉新项目,由于内部测试转化较低,暂时下线,原有关键词出单不受影响。 1、关键词 1.1 选择会员文 在知乎【首页】或者【会员】里面选取,需…

PEIS体检系统全套源代码,C# 源码

医院体检信息系统PEIS源码,C# 源码,PEIS源码源码 文末获取联系! 系统概述 医院体检信息系统是专门针对医院体检中心的日常业务运作的特点和流程,结合数字化医院建设要求进行设计研发的一套应用系统。该系统覆盖体检中心的所有业务&#xff0…

使用nvm替换nvmw作为nodejs的版本切换(亲测)

之前的文章:同时使用vue2.0和vue3.0版本的采坑记录 安装的nvmw,今天想要用nvmw切换时,居然给我报错了: 然后我就走上了使用nvm替换nvmw之路。。 1.安装 nvm-windows下载 下载release版 中Assets中的包,window10&…

APIs -- DOM正则表达式

1. 介绍 正则表达式(Regular Expression)是用于匹配字符串中字符组合的模式。在JavaScript中,正则表达式也是对象通常用来查找、替换那些符合正则表达式的文本,许多语言都支持正则表达式。正则表达式在JavaScript中的使用场景: 例如验证表单:用户名表单…

数据库的实际操作

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、关系模型二、数据库的操作 创建数据库查看数据库选择数据库删除数据库三、MySQL 数据库命名规范总结 一、关系模型 关系数据库是建立在关系模型上的。而关系模…

flutter学习之旅(一)

初学Flutter flutter官网和中文开发手册 安装flutter - windows 官方文档-windows flutter_windows_3.7.9-stable.zip 编辑环境变量 在 用户变量 一栏中,检查是否有 Path 这个条目: 如果存在这个条目,以 ; 分隔已有的内容,加入 f…

物联网能源能耗之场景控制原理

物联网能源能耗系统利用物联网技术,可帮助企业构建能耗分布,帮助操作人员实时监控各类关键参数,计算关键环节的能耗指标,和既定的能耗基线进行对比,得出能耗差距。 对于制造企业而言,物联网能源能耗不仅能…

商业策划的基本功:竞品分析

商业策划的基本功:竞品分析 商业的三个视角:用户,竞争,自己 有方法会更有效 趣讲大白话:磨刀不误砍柴工 【趣讲信息科技138期】 **************************** 世界上如果只有一种矿泉水 就不会竞争 就不会有农夫山泉这…