TextMining day1 电力设备运维过程中的短文本挖掘框架

news2025/1/23 2:14:14

电力设备运维过程中的短文本挖掘框架

  • III. 短文本挖掘框架的具体设计
    • A. 预处理模块的具体设计
    • B. 数据清洗模块的具体设计
    • C. 表示模块的具体设计
    • D. 数据分析模块的具体设计
  • IV. 案例研究
    • A. 基于文本分类的缺陷程度判断
    • B. 基于文本检索的缺陷处理决策
  • V. 结论

image-20230703092411160

  • 预处理 首先,与一般的自然语言处理任务类似,对日志、票据和规范中的短文本进行预处理。

    • 分词 是对中文文本进行预处理的一个必要的基本步骤。在英语文本中,两个单词之间有一个空格用来分隔,所以这一步通常被跳过。
    • POS标记 对每个单词的词性(POS,part-of-speech)进行标记,这可能有利于后续的分析。
    • 停止词消除 对于除统计工作外的大多数文本挖掘任务来说,检查员名称、地点、变电站等停止词都是没有意义的,因此一般需要将它们从文本中删除。
  • 数据清理 由于检验工程师的知识和经验有限,除了规范中的简短文本外,日志和标签中可能存在信息遗漏、信息矛盾等错误。因此,为了保证短文本挖掘的可信度,需要将日志和票据中的文本数据分错误识别和质量改进两步进行清理。

    • 错误识别
    • **质量改进 **
  • Representation 表示模块将文本数据转换成计算机可以理解的形式。

    • 结构化形式 传统的方法是用结构化的形式来表示短文本,通常是向量或矩阵。
    • 半结构式 本文提出了一种基于知识图谱技术的短文本半结构化表示形式,将短文本转化为图形结构。

    最后,结合其他形式的数据(如数值数据),结合电力设备运维的实际应用,对结构化或半结构化文本数据进行分析。

  • 数据分析

    • 机器学习 机器学习方法主要用于数据和结果之间的映射关系复杂和隐蔽的情况。
    • 基于规则 对于某些可以确定映射关系的任务,基于规则的方法更合适,因为它们具有很强的可解释性。

    最后,数据分析模块将输出与电力设备运维判断和决策相关的结果。

  • 应用

    • 判断
      • 缺陷程度
      • 健康指数
    • 决策
      • 缺陷处理
      • 维护策略

III. 短文本挖掘框架的具体设计

A. 预处理模块的具体设计

image-20230703104617346

如图2所示,第一阶段是获取包含术语和习语的词汇,以及经过良好分割和标记的权力语料库。

image-20230703104633926

第二阶段如图3所示,对发送到预处理模块的原始短文本进行分割和标记。

B. 数据清洗模块的具体设计

image-20230704092212538

质量改进步骤中的关键参数和算法

image-20230704092853556

C. 表示模块的具体设计

image-20230704092224633

image-20230704092327683

image-20230704092335978

D. 数据分析模块的具体设计

CNN的关键参数如表六所示

image-20230704095947413

IV. 案例研究

A. 基于文本分类的缺陷程度判断

基于短文本挖掘框架,实验组1 (EG1)将文本表示为向量并应用SVM进行数据分析,实验组2 (EG2)将文本表示为矩阵并通过CNN对文本数据进行分析。

另外,为了与EG1进行比较,在对照组1 (CG1)中略过专门设计的数据清洗模块,在对照组2 (CG2)中略过专门设计的VSM在表示模块中的具体设计。

同样,为了与EG2进行比较,我们在对照组3 (CG3)和对照组4 (CG4)中分别跳过了专门设计的数据清洗模块和专门设计的数据分析模块中的CNN。实验过程中,记录机器学习分类器的训练时间和测试时间,分别反映数据分析模块离线和在线计算的效率。结果见表七。

image-20230704100351330

对比EG1和EG2,可以看出深度学习模型CNN比传统机器学习模型SVM准确率更高,但效率更低。深度学习模型有更多的参数,可以更有效地分析特征,但需要更多的时间。模型的选择会影响精度和效率,在实际应用中,精度和效率是具体设计的重要组成部分。

EG2的准确率高达97.98%,虽然花费了最多的训练和测试时间,但效率显著高于人工分类。因此,经过专门设计模块的短文本挖掘框架可以有效地指导判断,并在总体精度和效率上取得令人满意的结果。

B. 基于文本检索的缺陷处理决策

对于新的缺陷日志,如果可以检索到与新日志缺陷条件相同的已有缺陷日志,则可以参考之前的处理方法,做出新缺陷的处理决策。

在实践中,即使两个缺陷日志中的缺陷条件相同,由于不同工程师的知识和经验不同,对这两个日志的描述可能会有很大的不同。因此,文字相似性并不能很好地反映一致性,需要深入理解文本信息所包含的关系。针对这一问题,在表示模块中采用半结构化形式表示缺陷日志,以知识图谱的形式清晰地表达缺陷日志之间的关系。

电力知识图谱构建(主要是关系提取步骤)中的关键参数如表VIII所示,

image-20230704103225379

所构建的知识图包含2386个节点和2769条边,部分如图8所示。

image-20230704103233166

缺陷日志检索的统计结果

image-20230704104034498

如表9所示,所提出的基于知识图的半结构化表示在三个指标中表现最好,这证明了表示模块的具体设计可以有效提高整体效果。知识图通过直接表示关系,实现知识推理,从而更深入地理解文本信息。为了给出更直观的解释,我们选择了表X中的两组缺陷日志进行说明。

image-20230704104053990

对于每一种表示方法,判断每一组中两个缺陷日志的一致性,结果如表XI所示。

image-20230704104115618

在表X中,A1和A2指的是相同的缺陷,但对缺陷设备和部件的描述有很大的不同。与A2相比,A1缺少缺陷设备“变压器”,并且没有说明元件“分接开关”的类型是有载还是离路。因此,基于结构化形式的三种表示方法无法识别A1和A2的一致性。然而,知识图模型可以通过节点的连接,推理出两个缺陷日志对应的路径是相同的,如图9所示,其中灰色节点为标记出的缺陷日志对应的节点,日志对应的路径用粗体边突出显示(下同)。

image-20230704104215053

image-20230704104249171

V. 结论

提出了一种适用于电力设备运维的文本挖掘框架。我们的主要创新是针对电力设备运维中短文本的特点,对框架的各个模块提出了具体的设计,使框架更适合电力行业的文本挖掘。通过两个与缺陷程度判断和缺陷处理决策相关的案例研究,论证了短文本挖掘框架对实际应用的指导作用。同时,两个案例研究的结果表明,对每个模块的具体设计对提高电力设备运维中短文本挖掘的整体性能是有益的。

在电力设备运维中,短文本挖掘研究的进一步完善主要有两个方面。一是通过句法分析等技术增强短文本挖掘框架的可解释性,使其能够以更接近人类思维的方式理解文本数据。二是构建考虑所有数据形式的通用数据融合模型,进一步提高精度,拓宽应用领域。这两个方面都将是我们未来研究的重要方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/715748.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一个光模块可以带动多少户

随着科技的快速发展,光模块的应用场景逐渐扩大,数据中心、人工智能AI的创新使我们的生活日新月异。今天我们就来看看一个小小的光模块究竟蕴藏着多大的能量! 一、影响光模块带动户数的因素 光模块是一种实现光电转换和电光转换功能的光电子…

android Surface(1, 2)

android Surface(1, 2) android的Surface相关内容从底层依次往上分别是: 1.frameBuffer,简称fb,对于同一个android系统,可以同时存在多个frameBuffer,本机是fb0,依次外接时,fb1, fb2, ……fbn…

LeetCode·每日一题·445. 两数相加 II·模拟

作者:小迅 链接:https://leetcode.cn/problems/add-two-numbers-ii/solutions/2328613/mo-ni-zhu-shi-chao-ji-xiang-xi-by-xun-ge-67qx/ 来源:力扣(LeetCode) 著作权归作者所有。商业转载请联系作者获得授权&#xff…

2023.6.26-7.2 AI行业周刊(第152期):从一个热门视频,得到的人生发展感悟

上周五去上海参加2023年MWC(世界移动通讯大会),在回无锡的路上,无意中刷到一个已关注博主的视频。 这个博主是2021年的时候,刚发第二个视频的时候,就一直在关注的。 从分享他从公务员辞职的经历&#xff…

【Web3】认识Web3

Web3是一种用于描述下一代互联网的概念 它指在构建一个去中心化 用户控制和加密安全的网络环境。 Web3的目标是将权利和数据掌握回归到用户手中 通过采用分布式技术和加密货币的支持 实现更加开放 公开和透明的互联网 Web的主要特点 去中化:Web3的核销理念是去中心…

静态时序分析: update io latency

往期文章链接: 静态时序分析: 虚拟时钟与I/O延迟约束 静态时序分析: 时钟延时(clock latency) 在CTS之前,clock是ideal的,in2reg与reg2out的path由于reg的clock network delay为0,所以时序比较容易收敛,在CTS之后,由于reg的clock network delay有了真实值(propagated…

Spring Boot 中的滚动部署是什么,如何使用

Spring Boot 中的滚动部署是什么,如何使用 简介 在开发和部署应用程序时,我们希望最小化中断,以确保应用程序始终可用。滚动部署是一种部署应用程序的方法,可以逐步将新版本部署到生产环境中,同时保持应用程序的可用…

Linux 6.5增加对高通开源GPU Adreno 690的支持

导读即将推出的Linux 6.5内核将把对高通Adreno 690 GPU的支持添加到开源的MSM内核图形/显示驱动程序中。A690主要用于骁龙8cx第三代(SC8280XP)平台,而联想ThinkPad X13s笔记本电脑和其他硬件也采用了该平台。 新的支持将包含近200行代码&…

基于小程序+云开发制作一个文件传输助手小程序

微信文件传输助手是真人?基于云开发制作一个文件传输助手小程序,你发给ta的小秘密,只有你自己知道。 开发步骤一、创建小程序二、云开发配置环境配置绑定云环境三、页面设计首页详情页底部弹窗四、云数据库概念云函数服务端函数文件上传

Java版事件与委托实现自动创建工厂并热加载

本文已收录于专栏 《Java》 目录 概念说明事件与委托工厂方法热加载 需求介绍代码实现1.整体结构2.工厂方法中已经存在的类工厂接口运算类工厂(其他工厂基本上是一样的):目前没有加法类的工厂我们后面会添加加法类工厂然后热加载运行运算父类运算子类 3.工厂方法之外…

Java 运行jar包变更配置文件与变量

文章目录 前言实现原理不同环境的配置文件变更配置变量 前言 为实现快速搭建和开发,项目以Springboot框架搭建,springboot搭建的项目可以将项目直接打成jar包并运行,无需自己安装配置Tomcat或者其他服务器,是一种方便快捷的部署方…

PDF怎么转换成Excel?两个实用的方法给你!

如何将PDF文件转换成Excel表格的格式呢?在日常办公中,我们经常会遇到需要将PDF文件转换成Excel表格的情况。由于PDF文件具有稳定的格式特征,很多时候我们下载或接收到的文件都是以PDF格式呈现。那么,当我们需要使用Excel表格格式时…

数据结构--字符串的KMP算法

数据结构–字符串的KMP算法 朴素模式匹配算法: 一旦发现当前这个子串中某个字符不匹配,就只能转而匹配下一个子串(从头开始) 但我们可以知道: 不匹配的字符之前,一定是和模式串一致的 \color{red}不匹配的字符之前,一…

C++中内存拷贝函数memcpy函数使用

函数原型&#xff1a;void *memcpy(void *dest, const void *src, size_t n); 头文件&#xff1a;#include<string.h> 功能&#xff1a; 从源 src 所指的内存地址的起始位置开始拷贝 n 个字节到目标 dest 所指的 内存地址的起始位置中&#xff08;将一个 内存块 的内容…

哪种类型耳机不伤耳朵,分享几款佩戴无需入耳的骨传导耳机

骨传导耳机是目前在运动领域最火热的产品&#xff0c;也是最适合运动的耳机&#xff0c;它的原理是通过颅骨将声音转化为神经冲动&#xff0c;通过内耳传至听觉中枢&#xff0c;因此不会对耳朵造成任何损伤&#xff0c;它同时也可以让耳朵更好地听到周围的声音。能够很好的提高…

100天精通Golang(基础入门篇)——第12天:深入解析Go语言中的集合(Map)及常用函数应用

&#x1f337; 博主 libin9iOak带您 Go to Golang Language.✨ &#x1f984; 个人主页——libin9iOak的博客&#x1f390; &#x1f433; 《面试题大全》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &#x1f30a; 《I…

Linux0.11内核源码解析-char_dev.c

目录 概述 串口终端设备 控制台终端 内存 调用接口 概述 char_dev.c文件包括字符设备文件访问函数&#xff0c;主要是有rw_ttyx(),rw_tty(),rw_memory()和rw_char()函数&#xff0c;另外还有一个设备读写函数指针表 串口终端设备 rw_ttyx()是串口终端设备读写函数&#x…

Process Explorer高级使用

工具描述 Process Explorer使用个轻量级的进程管理器&#xff0c;是由Sysinternals出品的免费工具&#xff0c;请猛击这里下载最新版本使用。 以下是官方介绍的翻译&#xff1a; “想知道是那个程序打开了某个文件或者目录么&#xff1f;现在可以找出它了。PorcessExplorer将…

三、pycharm开发PyQt6 开发环境一键生成

一、环境 windows 10Pycharm 社区版 - PyCharm 2022.1.3 二、设置模板 1、打开模板 File -> Settings… (ctrl alt s) -> Editor -> File and Code Templates 2、创建模板 1&#xff09;点击 Files 2&#xff09;点击 3、填写第一个脚本文件 Name : My PyQt…

ReentrantLock源码解析 | 京东云技术团队

并发指同一时间内进行了多个线程。并发问题是多个线程对同一资源进行操作时产生的问题。通过加锁可以解决并发问题&#xff0c;ReentrantLock是锁的一种。 1 ReentrantLock 1.1 定义 ReentrantLock是Lock接口的实现类&#xff0c;可以手动的对某一段进行加锁。ReentrantLock…