大数据关联规则算法

news2024/10/25 2:24:53
  1. 关联性(Association)

    • 定义:指一个变量能够提供有关另一个变量的信息。
    • 特点:关联性是一个广泛的概念,它可以包括直接的、间接的、强的或弱的联系。
  2. 相关性(Correlation)

    • 定义:指两个变量同时上升或下降的趋势
    • 特点:相关性通常用相关系数来量化,如皮尔逊相关系数,它可以测量变量之间的线性关系强度和方向。
    • 误区:相关性意味着关联性,而不是因果关系;
  3. 因果关系(Causality)

    • 定义:指一个变量(原因)直接影响另一个变量(结果)。
    • 特点:因果关系需要通过实验或统计方法来验证,例如随机对照试验(RCT)或使用因果推断模型。
    • 误区:因果关系意味着关联,而不是相关性
      在这里插入图片描述

关联

  • 定义:关联是两个或者多个变量之间存在着的某种规律,这种规律是可被发现的并且是有意义的。

关联规则(Association Rules)挖掘

  • 定义:挖掘负责找出给定数据集中数据项之间隐藏的关联关系,描述数据之间的密切度是关联分析的主要目的。
  • 用途:关联规则用于描述相关联的事物之间同时有规律发生的知识模式。
应用场景
  • 优化货架商品摆放:根据商品之间的关联性,优化超市或商场的商品摆放。
  • 交叉销售或捆绑销售:利用商品之间的关联性,进行捆绑销售或交叉销售。
  • 搜索词推荐:根据用户的搜索习惯,推荐相关搜索词。
  • 识别异常:发现数据中的异常模式,如信用卡欺诈检测。
相关概念
  • 项目(Item):交易数据库中的一个字段,对超市的交易来说一般是指一次交易中的一个物品,如:牛奶
  • 事务(Transaction):某个客户在一次交易中,发生的所有项目的集合:如{牛奶,面包,啤酒}
  • 项集(Item Set):包含若干个项目的集合(一次事务中的),一般会大于0个
  • 支持度(Support):项集{X,Y}在总项集中出现的概率
  • 频繁项集(Frequent Itemset):某个项集的支持度大于设定阈值(人为设定或者根据数据分布和经验来设定),即称这个项集为频繁项集。
  • 置信度(Confidence):在先决条件X发生的条件下,由关联规则{X->Y }推出Y的概率
    (给定X发生的条件下,Y发生的概率。)
  • 提升度(Lift):表示含有X的条件下同时含有Y的概率,与无论含不含X含有Y的概率之比,用于衡量关联规则的强度。

    在这里插入图片描述

Apriori算法

  • 提出者:Rakesh Agrawal 和 Ramakrishnan Srikant。
  • 提出时间:1994年。
  • 基本思想:基于支持度连接剪枝技术,有效控制候选项集的增长。
关联规则挖掘目的
  • 目的:找出数据集中项与项之间的关系,用于市场分析、商品推荐等。
  • 别称:购物篮分析,主要用于零售业中分析顾客的购买模式。
应用案例:啤酒和尿布
  • 故事背景:美国妇女让丈夫下班后购买尿布,丈夫往往会同时购买啤酒。
  • 商业应用:将啤酒和尿布摆放在一起,增加顾客同时购买这两种商品的机会。
  • 结果:提高了啤酒和尿布的销量,成为商家推崇的营销策略。

Apriori 算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。在这个算法中 Agrawal 给出了一个关于频繁模式的著名性质-Apriori 性质。

Apriori性质
  • Apriori性质:频繁项集的所有非空子集也必须是频繁的。
  • 推论1:非频繁项集的超集一定是非频繁项集。
  • 推论2:强关联规则的子规则也是强关联规则。

Apriori算法步骤

  1. 产生频繁项集

    • 第一阶段
      • 所有单独的项作为候选项集 ( C1 )。
      • 剔除支持度小于最小支持度阈值的项,形成频繁1-项集 ( L1 )。
    • 第二阶段
      • ( L1 ) 通过自连接形成候选项集 ( C2 )。
      • 扫描数据库,剔除支持度小于阈值的项,形成频繁2-项集 ( L2 )。
    • 后续阶段
      • 重复自连接和剔除过程,形成更高阶的候选项集 ( C3, C4, \ldots ) 直到无法找到新的频繁项集。
  2. 产生关联规则

    • 利用频繁项集 ( L ) 产生关联规则。
    • 满足可信度大于min_conf 的频繁项集产生强关联规则
    • 由于规则基于频繁项集产生,自动满足最小支持度 ( min_sup )。
      在这里插入图片描述

Apriori算法实例

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

生成频繁项集阶段
  1. 分割与分布数据

    • MapReduce库将数据集D水平划分为n个数据块,然后发送到m个节点。
  2. 格式化数据块

    • 数据块格式化为<Tid, list>对,其中Tid是事务标识符,list是事务中的项目列表。
  3. 执行Map任务

    • Map函数扫描每条记录,生成局部频繁1-项集和局部频繁k-项集。
  4. 运行Combiner函数

    • 可选的Combiner函数在Map任务后执行,合并Map输出,减少网络传输。
  5. 执行Reduce任务

    • Reduce任务接收Map端输出,合并局部频繁项集,生成全局候选频繁项集。
  6. 再次扫描D

    • Map方法读取D中的记录,验证是否存在于全局候选频繁项集中,使用Combiner函数进行局部汇总。
  7. 合并Reduce函数输出

    • 合并Reduce输出,与最小支持度阈值比较,输出满足条件的频繁项集。
  • MapReduce框架:通过分布式计算,优化了频繁项集的生成过程。
  • Map任务:生成局部频繁项集,类似于词频统计。
  • Combiner函数:减少网络传输,提高效率,本地合并Map输出。
  • Reduce任务:合并全局候选频繁项集,生成最终频繁项集。
  • 两次扫描:第一次用于生成候选频繁项集,第二次用于验证和汇总。
    在这里插入图片描述
生成关联规则阶段
  1. 文本文件切分

    • 将文本文件的每一行作为单独的切分处理。
    • 形成键值对<key1, value1>,其中key1 代表该行的偏移量,value1 代表一行文本(频繁项集中的一项)
  2. Map函数处理

    • Map函数扫描每对<key1, value1>
    • 对每个频繁项集调用规则生成函数,产生所有可能的规则。
    • 规则包括支持度和置信度,输出为<key2, value2>,其中key2是频繁项集中的一项,value2是该项对应的所有规则(包括支持度和可信度)。。
  3. Reduce函数规约

    • Reduce函数接收Map函数的所有输出。
    • 对每个频繁项集的规则进行规约,筛选出满足最小置信度阈值的强关联规则。
    • 将最终的关联规则<rule, conf>对存储到HDFS(Hadoop分布式文件系统)。
  • Map任务:处理文本文件,为每个频繁项集生成候选规则。
  • Reduce任务:筛选有效规则,存储最终结果。
  • 规则评估:评估规则的支持度和置信度,确保规则的有意义性和实用性。
  • 存储结果:将生成的关联规则存储在分布式文件系统中,便于后续的访问和分析。
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1842663.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

低版本火狐浏览器报错:class is a reserved identifier

低版本火狐浏览器报错&#xff1a;class is a reserved identifier 原因&#xff1a;react-dnd&#xff0c;dnd-core 等node包的相关依赖有过更新&#xff0c;使得在低版本火狐浏览器中不支持 class 解决方法&#xff1a;在使用webpack打包构建时&#xff0c;编译排除node_modu…

SonarQube集成Jenkins平台搭建

SonarQube平台搭建 一、项目搭建的必要条件 SonarQube 8.9.10 previous LTS 依据公司现有服务目前的Jdk版本1.8&#xff0c;需要选择一个适用的长期支持版本&#xff0c;我在这里选用的是SonarQube 8.9.10 previous LTS。下载地址&#xff1a;Download Previous SonarQube Ver…

2000-2022年全国平均气温数据,多年份,多字段可查询,可预览数据

基本信息. 数据名称: 全国平均气温数据 数据格式: Shp、Excel 数据时间: 2000-2022年 数据几何类型: 面 数据坐标系: WGS84坐标系 数据来源&#xff1a;网络公开数据 数据字段&#xff1a; 序号字段名称字段说明1xzqhdm行政区划代码2xzqhmc行政区划名称3qw2001m01…

E36150系列 自动量程台式电源

E36150系列 自动量程台式电源 <<<KEYSIGHT是德科技>>> “ Keysight E36150 系列自动量程台式直流电源包含两个型号&#xff0c;其单通道输出功率可达 800 W。 E36150 系列可输出高达 60 V 的电压和 80 A 的电流&#xff0c;其可用功率足以满足您的测试需…

MySQL之优化服务器设置(四)

优化服务器设置 InnoDB的IO配置 双写缓冲(Doublewrite Buffer) InnoDB用双写缓冲来避免页没写完整所导致的数据损坏。当一个磁盘写操作不能完整地完成时&#xff0c;不完整的页写入就可能发生&#xff0c;16KB的页可能只有一部分被写到磁盘上。有多种多样的原因(崩溃、Bug&am…

阿里云PAI大模型评测最佳实践

作者&#xff1a;施晨、之用、南茵、求伯、一耘、临在 背景信息 内容简介 在大模型时代&#xff0c;随着模型效果的显著提升&#xff0c;模型评测的重要性日益凸显。科学、高效的模型评测&#xff0c;不仅能帮助开发者有效地衡量和对比不同模型的性能&#xff0c;更能指导他…

OS复习笔记ch11-3

接下来&#xff0c;我们简单地回顾一下I/O缓冲&#xff08;之前在ch5-4-1的时候有提到过&#xff09; I/O缓冲 背景&#xff1a; 假设进程I/O需要在灰色区间读写&#xff0c;而灰色区间由于阻塞而被对换出去了&#xff0c;此时OS找不到对应的内存地址&#xff0c;这样就容易发…

Shell脚本、相关命令;重定向、管道符、变量相关命令讲解

目录 Shell脚本 概念 执行命令流程的交互区别 交互式 非交互式 Shell脚本应用场景 Shell的作用 Shell的作用 —— 命令解释器&#xff0c;“翻译官” 列出系统中全部解释器 实验 脚本的基本书写格式和执行命令 在子bash下执行脚本 指定解释器的方式执行脚本 指定…

nodejs的await和async

例子 const fs require(fs).promises;async function getFileContent(filePath) {const content await fs.readFile(filePath, utf8); console.log(content); // 这行会在文件读取完成后执行 }getFileContent(example.txt); console.log(123); // 这行会立即执行输出结果&…

/usr/bin/ld: 当搜索用于 /lib/i386-linux-gnu/libcuda.so 时跳过不兼容的 -lcuda

/usr/bin/ld: 当搜索用于 /lib/i386-linux-gnu/libcuda.so 时跳过不兼容的 -lcuda ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/023dbdeb215b4b4580f7f54706e32af9.pn当使用unsloth做微调时&#xff0c;发现找不到libcuda&#xff0c;很自然想到需要软链接到最新…

2024最新AI大模型-LLm八股合集(八)-Transformer模型

更多2024最新AI大模型-LLm八股合集可以拉到文末&#xff01;&#xff01;&#xff01; MHA & MQA & MGA &#xff08;1&#xff09;MHA 从多头注意力的结构图中&#xff0c;貌似这个所谓的多个头就是指多组线性变换层&#xff0c;其实并不是&#xff0c;只有使用了一…

PS去除logo背景

一、打开图片 二、点击通道选择色差最明显的通道 三、复制通道 四、点击载入 五、反选ctrlshifti&#xff08;鼠标右键亦可&#xff0c;然后调整下范围&#xff09; 六、点击图层&#xff0c;复制图层&#xff08;ctrlJ&#xff09; &#xff08;先确保图层是解锁的&#xff0…

二叉树-输出二叉树的右视图

目录 一、问题描述 二、解题思路 三、代码实现 四、刷题链接 一、问题描述 二、解题思路 这里右视图类似于立方体的右视图&#xff0c;从右边看每一层第一个看到的结点的集合就是需要返回的结果&#xff0c;注意返回的结点是有相对顺序的&#xff0c;比如上面的1,3,5对应第…

[WTL/Win32]_[中级]_[MVP架构在实际项目中的应用]

场景 在开发Windows和macOS的界面软件时&#xff0c;Windows用的是WTL/Win32技术&#xff0c;而macOS用的是Cocoa技术。而两种技术的本地语言一个主打是C,另一个却是Object-c。界面软件的源码随着项目功能增多而增多&#xff0c;这就会给同步Windows和macOS的功能造成很大负担…

APM Profile 在系统可观测体系中的应用

引言 应用程序性能分析&#xff08;Application Performance Management&#xff0c;APM&#xff09;是一个广泛的概念&#xff0c;涉及应用程序运行时各种性能指标的监测、诊断和优化。在可观测体系建设中&#xff0c;APM 是保障系统业务运行性能的关键技术&#xff0c;确保用…

堆优化版Dijkstra求最短路-java

主要通过堆优化Dijkstra算法解决最短路&#xff0c;可以跟朴素版的Dijkstra算法进行对比。 文章目录 前言 一、Dijkstra求最短路 二、算法思路 1.邻接表存储图 2.用小根堆优化Dijkstra 三、代码如下 1.代码如下&#xff08;示例&#xff09;&#xff1a; 2.读入数据 3.代码运行…

OpenGL绘制Bezier曲面

Bezier的定义 贝塞尔曲面是贝塞尔曲线在二维上的扩展。它由一组控制点定义,通过这些控制点生成光滑的曲面。贝塞尔曲面通常用两个参数 u u u和 v v v来表示,这两个参数的取值范围都在 [0, 1] 之间。 数学表示 P ( u , v ) = ∑ i = 0 n ∑ j = 0 m p i j ⋅ B i , n ( u ) ⋅…

基于ysoserial的深度利用研究(命令回显与内存马)

0x01 前言 很多小伙伴做反序列化漏洞的研究都是以命令执行为目标&#xff0c;本地测试最喜欢的就是弹计算器&#xff0c;但没有对反序列化漏洞进行深入研究&#xff0c;例如如何回显命令执行的结果&#xff0c;如何加载内存马。 遇到了一个实际环境中的反序列化漏洞&#xff…

text2vec 如何选择 chunksize 和 splitter?

0x00 导读 对 text2vec 来说&#xff0c;chunksize 选多大合适&#xff1f; 应该选择哪种 splitter &#xff1f; BCE 还是 BGE &#xff1f; 面对这些 RAG 问题&#xff0c;本文根据 text2vec 模型原理做假设&#xff0c;并用 HuixiangDou 真实数据验证&#xff0c;最终给出…

上海晋名室外危化品暂存柜助力国有控股高科技企业危化品安全储存

近日又有一台SAVEST室外危化品暂存柜项目成功验收交付使用&#xff0c;此次项目主要用于国有控股高科技企业油漆、固化剂及一些危废品的安全储存。 用户单位是一家国有控股、产权多元化的现代高科技企业。用户在日常工作运营中涉及到油漆、固化剂等危化品及一些危废品的室外安…