论文阅读 关联规则挖掘综述

news2024/11/15 6:50:18

这是一篇关联规则挖掘的综述,也记录下自己的心得笔记

A comprehensive review of visualization methods for association rule mining: Taxonomy, Challenges, Open problems and Future ideas

文章目录

  • 摘要
  • 1、介绍
  • 2、关联规则挖掘是个小东西
    • 2.1、数值关联规则挖掘
    • 2.2、时间序列关联规则挖掘
  • 3、关联规则挖掘的可视化
  • 参考

摘要

关联规则挖掘是为了搜索事物数据库中属性之间的关系。规则发现的整个过程非常复杂,包括预处理技术、规则挖掘步骤和后处理,其中进行了可视化处理。发现的关联规则的可视化是整个关联规则挖掘管道中的一个重要步骤,以加强用户对规则挖掘结果的理解。

在过去的几十年中,已经开发了一些关联规则挖掘和可视化的方法。本文旨在建立一个文献综述,确定发表在同行评议文献中的主要技术,研究每种方法的主要特征,并介绍该领域的主要应用。确定该研究领域的未来步骤是本评论文章的另一个目标。

1、介绍

背景比较悠远,出名的算法有Apriori,这个算法像基石一样。一般是分三步走:预处理、关联规则挖掘、后处理。这篇文章强调了可视化的好处。(ARM 就是关联规则挖掘的意思,Association Rule Mining)
在这里插入图片描述

  • 介绍了ARM可视化方法的演变。
  • 定义了每种方法的特点。
  • 概述了每种方法的优势/劣势。
  • 对所调查的每种方法都提出了一个例子。
  • 总结了使用ARM可视化的解释模型。

2、关联规则挖掘是个小东西

对规则关联挖掘的一些数学公式进行定义,现有有一个事物数据库,纵列是事物的指标,横行是不同的事物累计起来,也就是我们常见的数据库。规则挖掘就是看看事物不同指标之间的关系。

X⇒ Y,这个就是关联规则,指标集合X可以推出指标集合Y,它们之间没有交集,都属于数据库中的指标。

n代表后面的指标出现的次数,N代表一共有多少个事物,也就是数据库有多少行。

公式名字概率解释
s u p p ( X ⇒ Y ) = n ( X ⋂ Y ) N supp(X⇒Y)=\frac{n(X\bigcap Y)}{N} supp(XY)=Nn(XY)支持度这个规则出现的概率
c o n f ( X ⇒ Y ) = n ( X ⋂ Y ) n ( X ) conf(X⇒Y)=\frac{n(X\bigcap Y)}{n(X)} conf(XY)=n(X)n(XY)置信度在规则X出现的情况下,规则集合Y出现概率。也就是条件概率
l i f t ( X ⇒ Y ) = s u p p ( X ⋂ Y ) s u p p ( X ) × s u p p ( Y ) lift(X⇒Y)=\frac{supp(X\bigcap Y)}{supp(X)\times supp(Y)} lift(XY)=supp(X)×supp(Y)supp(XY)提升度规则X出现对规则Y出现概率的提升程度
c o n v ( X ⇒ Y ) = 1 − s u p p ( Y ) 1 − c o n f ( X ⇒ Y ) conv(X⇒Y)=\frac{1-supp(Y)}{1-conf(X⇒Y)} conv(XY)=1conf(XY)1supp(Y)出错度判断这个规则出错的概率,

一般会定义 s u p p ( X ⇒ Y ) ≥ S m i n supp(X ⇒ Y ) ≥ Smin supp(XY)Smin , c o n f ( X ⇒ Y ) ≥ C m i n conf (X ⇒ Y ) ≥ Cmin conf(XY)Cmin .其中 S m i n Smin Smin, C m i n Cmin Cmin是我们人为定下的阈值,超过这个阈值的关联规则才进行下一步考虑。

提升度表示含有X的条件下,同时含有Y的概率,与只看Y发生的概率之比。提升度反映了关联规则中的X与Y的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性,即相互独立 ,一般在数据挖掘中当提升度大于3时,我们才承认挖掘出的关联规则是有价值的。

PS. 在翻了一些别的资料,常用的判断方法还有KULC度量和不平衡比。

KULC就是两个置信度的平均值: 0.5 ∗ ( c o n f ( X ⇒ Y ) + c o n f ( Y ⇒ X ) ) 0.5*(conf(X⇒Y)+conf(Y⇒X)) 0.5(conf(XY)+conf(YX))
IR不平衡比例: I R ( X , Y ) = ∣ s u p p ( X ) − s u p p ( Y ) ∣ s u p p ( X ) + s u p p ( Y ) − s u p p ( X ⇒ Y ) IR(X, Y) =\frac{|supp(X)-supp(Y)|}{supp(X)+supp(Y)-supp(X⇒Y) } IR(X,Y)=supp(X)+supp(Y)supp(XY)supp(X)supp(Y)

KULC度量越大越好,IR不平衡比例越小越好,两者组合使用比单独使用Lift能更好的的发现强关联规则。

2.1、数值关联规则挖掘

通过上面的总结也看出来,这个只能离散化数据,有或者没有。但是现实生活中都是连续数字,一个指标可能从0~100这样。出来一个扩展(NARM,Numerical Association Rule Mining)数值关联规则挖掘。

在NARM中,每个数值属性都由可行值的区间限制,这个区间由属性的上下界确定。当挖掘的关联规则越多时,这个区间就越宽。相反,这个区间越窄,就能够发现属性之间更具体的关系。引入可行值区间有两个主要影响:将现有的离散搜索空间转换为连续空间,并更好地适应感兴趣的问题。挖掘出来的关联规则可以根据几个标准进行评估,如支持度和置信度。然而,对于NARM来说,必须考虑额外的措施,以便正确评估挖掘出来的关联规则集。

2.2、时间序列关联规则挖掘

TS-ARM是一种新的范式,它将交易数据库视为时间序列数据。NARM问题的正式定义需要根据这一点来重新定义。在TS-ARM中,关联规则被定义为一个公式:

X ( ∆ t ) ⇒ Y ( ∆ t ) X(∆t)⇒ Y(∆t) X(t)Y(t)

∆ t = [ t 1 , t 2 ] ∆t=[t_1, t_2] t=[t1,t2],其中 t 1 t_1 t1是开始时间、 t 2 t_2 t2是结束时间,我可以理解成 X ( ∆ t ) , Y ( ∆ t ) X(∆t),Y(∆t) X(t)Y(t)是在时间段内表现的事物序列。

c o n f t ( X ( ∆ t ) ⇒ Y ( ∆ t ) ) = n ( X ( ∆ t ) ∩ Y ( ∆ t ) ) n ( X ( ∆ t ) ) conft(X(∆t) ⇒ Y (∆t)) = \frac{n(X(∆t) ∩ Y (∆t))}{n(X(∆t))} conft(X(t)Y(t))=n(X(t))n(X(t)Y(t)) 置信度

s u p p t ( X ( ∆ t ) ⇒ Y ( ∆ t ) ) = n ( X ( ∆ t ) ∩ Y ( ∆ t ) ) N ( ∆ t ) suppt(X(∆t) ⇒ Y (∆t)) =\frac{ n(X(∆t) ∩ Y (∆t))}{N(∆t)} suppt(X(t)Y(t))=N(t)n(X(t)Y(t)) 支持度

上面两个式子表在在同一段时间内表现得置信度和支持度,就是把里面的数据换了一下。

3、关联规则挖掘的可视化


接下来就是这个文章就是研究针对不同问题哪种可视化最合适,略了
在这里插入图片描述

参考

https://cs.nyu.edu/~jcf/classes/g22.3033-002/slides/session6/MiningFrequentPatternsAssociationAndCorrelations.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/467376.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AGI智能新时代,技术驱动营销数字化重组|数说故事D3峰会盛况

万物向新&#xff0c;数字重组。 3月29日&#xff0c;以「REMIX——重组数字未来&#xff0c;创享无限可能」为主题的数说故事第六届D3智能营销峰会在广州白云国际会议中心圆满举办。本届峰会由数说故事携手GDMS联合主办&#xff0c;数说故事作为专场合作伙伴&#xff0c;与50…

php通过cURL爬取数据的方法(ajax接口、cookie伪造爬取、文件头信息)

php通过curl爬取数据 一、请求流程1.CURL请求步骤2.使用CURL发送GET请求3.使用CURL发送POST请求 二、实战&#xff1a;curl通过ajax接口API爬取数据1.接口分析2.抓取分析3.构建curl4.结果呈现 三、实战&#xff1a;curl添加cookie伪造登陆爬取数据1.注册用户&#xff0c;并记录…

【老王读SpringMVC-4】请求参数是如何绑定到Controller method参数对象上的?

前面我们分析了&#xff0c;如果我们自己要实现 spring mvc 框架的话&#xff0c;大致需要实现如下功能&#xff1a; 0、将 url 与 Controller method 的对应关系进行注册1、通过请求的 url 找到 Controller method (即 url 与 Controller method 的映射)2、将请求参数进行绑定…

FPGA时序约束(四)主时钟和虚拟时钟的约束

系列文章目录 FPGA时序约束&#xff08;一&#xff09;基本概念入门及简单语法 FPGA时序约束&#xff08;二&#xff09;利用Quartus18对Altera进行时序约束 FPGA时序约束&#xff08;三&#xff09;时序约束基本路径的深入分析 文章目录 系列文章目录前言主时钟约束跨时钟域…

计算机网络【2】 子网掩码

学习大佬记下的笔记 https://zhuanlan.zhihu.com/p/163119376 "子网"掩码&#xff0c;顾名思义&#xff0c;它就是拿来划分子网的&#xff0c;更准确的说&#xff0c;划分子网的同时&#xff0c;还能通过它知道主机在子网里面的具体ip的具体地址。 子网掩码只有一个…

聊聊「低代码」的实践之路

区块链、低代码、元宇宙、AI智能&#xff1b; 01 【先来说说背景】 这个概念由来已久&#xff0c;但是在国内兴起&#xff0c;是最近几年&#xff1b; 低代码即「Low-Code」&#xff1b; 指提供可视化开发环境&#xff0c;可以用来创建和管理软件应用&#xff1b; 简单的说…

中英文切换,vue项目国际化使用教程(国际化使用详细,i18n国际化)

简述&#xff1a;在工作中&#xff0c;我们难免会遇到把文字切换成外语的需求&#xff0c;这里来记录下如何在项目中点击切换成英语&#xff0c;这里会用到i18n&#xff0c;它是一个支持国际化功能的插件&#xff0c;这里来分享下它的使用过程。 1、首先&#xff0c;我们需要在…

idea使用 ( 四 ) 插件

5.插件 5.1.idea数据库连接 5.1.1.打开配置界面 5.1.2.选择MySQL 点击 号 > Data Source > MySQL 5.1.3.配置数据库驱动jar 先在左边选择 MySQL 再点击 号 > Custom JARs… 在 弹出的窗口中选择 已经存在的 jar位置 就导入 MySQL 的驱动文件 5.1.4.配置连库…

记录一次在x86 软件中使用dpdk 的历程(Makefile gcc改成g++)

我们一台服务器上原本是用grub下预留内存的方式, 然后把物理地址在板卡上的配置文件中传给L1. 但是在客户的环境上服务器windriver上不是能预留内存的. 所以服务器上需要在testMxx程序中用dpdk的方式分配出内存, 然后, 把物理地址通过sdp虚拟的网口&#xff0c; 用socket 传…

为什么要清除浮动?清除浮动的方式

&#x1f4dd;个人主页&#xff1a;爱吃炫迈 &#x1f48c;系列专栏&#xff1a;HTMLCSS &#x1f9d1;‍&#x1f4bb;座右铭&#xff1a;道阻且长&#xff0c;行则将至&#x1f497; 文章目录 浮动的定义浮动的工作原理浮动的特性为什么要清除浮动清除浮动的方式利用clear样式…

vue3 vite typescript volar element-plus element标签报红问题的解决

故障就这样的&#xff1a; 模块 ""element-plus"" 没有导出的成员 "FormInstance" 至于原因咱也不知道&#xff0c;也没搞明白&#xff0c;一直以为是volar校验的问题&#xff0c;能开发咱就接着干&#xff0c;到了发布的时候傻眼了。所有这种…

API低代码平台介绍1-功能概述

API低代码平台之ADI平台 ADI平台是指Application data integration&#xff0c;即“应用数据集成”&#xff0c;使用springboot开发&#xff0c;并通过springcloud实现微服务&#xff0c;是一个动态定义Http API接口的“零代码”或“低代码”平台&#xff0c;支持GET(查)、POST…

Java 实现 YoloV7 人体姿态识别

1 OpenCV 环境的准备 这个项目中需要用到 opencv 进行图片的读取与处理操作&#xff0c;因此我们需要先配置一下 opencv 在 java 中运行的配置。 首先前往 opencv 官网下载 opencv-4.6 &#xff1a;点此下载&#xff1b;下载好后仅选择路径后即可完成安装。 此时将 opencv\b…

30基于非对称纳什谈判的多微网电能共享运行优化策略MATLAB程序

资源地址&#xff1a; 30基于非对称纳什谈判的多微网电能共享运行优化策略MATLAB程序资源-CSDN文库 参考文献&#xff1a; 《基于非对称纳什谈判的多微网电能共享运行优化策略》——吴锦领 仿真平台&#xff1a;MATLAB CPLEXMOSEK/IPOPT 主要内容&#xff1a; 主要做的是…

优思学院|精益生产为企业带来革命性转变的效益

企业的成长和发展需要不断的变革和创新&#xff0c;而精益生产则成为了这个时代的代名词。精益生产不仅仅是一个生产方式&#xff0c;更是一种革命性的转变&#xff0c;为企业带来了无限的效益。 什么是精益生产&#xff1f; 精益生产是一种基于持续改进的生产方式&#xff0…

基于matlab的混合波束成形仿真

一、前言 本示例介绍了混合波束成形的基本概念&#xff0c;并展示了如何仿真此类系统。 二、介绍 现代无线通信系统使用空间复用来提高散射体丰富的环境中系统内的数据吞吐量。为了通过通道发送多个数据流&#xff0c;从通道矩阵中导出一组预编码和组合权重。然后&#xff0c;可…

lammps教程:聚合物压缩,避免“bond atoms missing”

本文介绍聚合物的压缩方法。 lammps模拟聚合物体系时&#xff0c;最常见的一个错误是“bond atoms missing”,其中一个原因是建模方法不对。 这个原理在之前的专栏文章中已经详细介绍。 如果使用ms建模&#xff0c;聚合物的链会伸出到盒子外面&#xff0c;在导出data文件后&…

MindFusion.Diagramming for WinForms 6.8.6

您现在可以指定在修改项目时要显示的视觉效果。 2023 年 4 月 26 日 - 15:55新版本 特征 您现在可以指定在修改项目时要显示的视觉效果。新的 Opacity 属性允许您创建半透明的 DiagramItem。添加了新的 CopySelection 重载&#xff0c;它允许您复制项目列表而无需选择它们。您现…

OrbStack

OrbStack 是一个可以在 macOS 上快速运行 Docker 容器&#xff0c;和 Linux 虚拟机的工具&#xff0c;资源占用率低&#xff0c;高效&#xff0c;快速。 macOS 上的 Parallels Desktop 和 Docker Desktop 一直是饱受诟病&#xff0c;慢、重、资源消耗巨大。OrbStack 的出现就是…

goroutine和channel

进程与线程 进程就是程序执行在操作系统中的一次在执行过程&#xff0c;是系统进行资源分配的基本单位。 线程就是进程的一个执行实例&#xff0c;是程序的最小执行单元&#xff0c;是比进程更小的独立运行的单位。 一个进程可以创建多个线程&#xff0c;同一一个进程中的多…