数据仓库实验二:关联规则挖掘实验

news2024/11/24 11:55:25

目录

    • 一、实验目的
    • 二、实验内容和要求
    • 三、实验步骤
      • 1、创建数据库和表
      • 2、挖掘关联规则
        • (1)新建一个 Analysis Services 项目 Sales
        • (2)建立数据源视图
        • (3)建立挖掘结构 Sales.dmm
        • (4)部署关联规则挖掘项目并浏览结果
    • 四、实验结果分析
    • 五、实验总结体会


一、实验目的

  通过本实验,对利用 Apriori 和 FP-growth 算法发现频繁项集、构建关联规则的方法有准确的理解。并掌握利用 Sql Server 等工具平台进行关联规则挖掘的方法,掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法 ,理解关联规则挖掘常用的参数含义和设置方法。

二、实验内容和要求

  针对实际需求,构建格式规范的数据集,并能够借助于 SQL Server、Weka、SPSS 等工具平台,利用 Apriori/FP-growth 算法,进行关联规则挖掘,正确分析实验结果,发现知识,完成实验报告。

三、实验步骤

以下以 Sql Server 作为工具,完成数据集的构建和关联规则的挖掘。

1、创建数据库和表

在 SSMS 中建立 Sales 数据库 (模拟超市/商场的销售数据),分别设计 Maintable (客户订单表)、Subtable (订单明细表)。表的结构和内容如下所示。

Maintable (客户订单表):

在这里插入图片描述
在这里插入图片描述
Subtable (订单明细表):

在这里插入图片描述
在这里插入图片描述

2、挖掘关联规则

在 Sql Server Data Tools 中采用如下步骤挖掘关联规则。

(1)新建一个 Analysis Services 项目 Sales

定义数据源 Sales.ds,对应的数据库为前面建立的 Sales 数据库。

在这里插入图片描述

(2)建立数据源视图

定义数据源视图 Sales.dsv,它包含 Maintable 和 Subtable 两个表,并建立两个人表之间的关系,如下所示。

定义数据源视图 Sales.dsv:

在这里插入图片描述
建立两个表之间的关系:

在这里插入图片描述
数据源视图如下:

在这里插入图片描述

(3)建立挖掘结构 Sales.dmm

新建挖掘结构,在 “创建数据挖掘结构” 页面的 “您要使用何种数据挖掘技术?” 选项下,选中列表中的 “Microsoft关联规则”。

在这里插入图片描述
为该数据源视图指定 Maintable 和 Subtable 两个表。

在这里插入图片描述
在 “指定表类型” 页面上,在 Maintable 表的对应行中选中 “事例” 复选框,在 Subtable 表的对应行中选中 “嵌套” 复选框。

在这里插入图片描述
在 “指定定型数据” 页面中,选中 MainTable 表订单编号字段所在行的 “键” 复选框。在 Subtable 表的产品名称字段勾选 “键”、“输入” 和 “可预测” 复选框。

在这里插入图片描述
在 “创建测试集” 页面上,“测试数据百分比” 选项的默认值为30%,将该选项更改为0.

在这里插入图片描述
在完成向导页面的 “挖掘结构名称” 和 “挖掘模型名称” 中,都输入 Sales,并且勾选 “允许钻取” 复选框。

在这里插入图片描述
结果如下图:

在这里插入图片描述
在这里插入图片描述
打开数据挖掘设计器的 “挖掘模型” 选项卡,右击 “Sales”,在出现的下拉菜单中选择 “设置算法参数” 命令,设置 “MINIMUM_PROBABLITY” 参数为0.5,设置 MINIMUM_SUPPORT 参数为0.2。

在这里插入图片描述
在这里插入图片描述

(4)部署关联规则挖掘项目并浏览结果

先处理(部署)、再浏览。

在这里插入图片描述
打开数据挖掘设计器的 “挖掘模型查看器” 选项卡,分别选择 “规则”、“项集” 和 “依赖关系网络” 选项并浏览。结果如下图所示。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、实验结果分析

1、选择“规则”选项并分析

在概率为1.0条件下,可以看到 草稿本→圆珠笔,圆珠笔→草稿本,牙膏→牙刷,牙刷→牙膏,平板→耳机,耳机→平板 这6个规则的重要性较高,可见关联性较强;在概率为0.5条件下,规则 台灯→抽纸 的重要性较高,关联性较强。

在这里插入图片描述

2、选择“项集”选项并分析

在这里插入图片描述

由图可知,支持度较高的1-项集有{平板},{圆珠笔},{牙刷},{牙膏},{台灯},{水杯},{耳机},{草稿本},2-项集有{圆珠笔, 草稿本},{牙刷, 牙膏},{平板, 耳机}。

3、选择“依赖关系网络”选项并分析

将左侧的链接拉到最底端,观察最强链接。

在这里插入图片描述

最强链接有如下三个:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

五、实验总结体会

  通过挖掘数据仓库中的关联规则,我们可以发现数据之间的潜在关联性,从而为业务决策提供重要的参考依据。
  在进行实验时,首先需要准备好数据集,确保数据的完整性和准确性。然后,选择合适的挖掘算法和工具进行实验。常用的算法包括Apriori算法和FP-Growth算法,可以使用工具如Weka、RapidMiner或Python中的相应库进行实现。Apriori算法和FP-Growth都是用来发现频繁项集的算法,但Apriori算法在寻找频繁项集时需要不停的扫描数据集,而FP-Growth算法只需要扫描数据集两次,因此FP-Growth算法执行速度更快,频繁项集是进行关联分析的基础,因此能够快速高效的查找频繁项集十分重要。
  在实验过程中,需要注意调整算法的参数,以获得更好的挖掘结果。同时,对挖掘结果进行评估和解释,确保发现的关联规则具有实际意义,并能够为业务决策提供帮助。
  最后,及时总结实验过程中的经验和教训,不断优化挖掘过程,提高挖掘效率和准确性。通过不断地实践和探索,可以更好地理解数据仓库中的数据,挖掘出更多有价值的信息,为企业的发展提供有力支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1632940.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FebHost:什么是挪威.no域名,如何注册?

挪威国家域名介绍 挪威是一个位于北欧的国家,北面和西面是大西洋和北海,东面和南面则与瑞典、芬兰接壤。挪威是一个高度发达的经济体,其政府在经济管理和可持续发展方面也取得了很多成就。挪威的人均GDP在世界范围内排名非常靠前&#xff0c…

C# Web控件与数据感应之 ListControl 类

目录 关于数据感应 ListControl 类类型控件 范例运行环境 数据感应通用方法 设计 实现 调用示例 数据源 调用 小结 关于数据感应 数据感应也即数据捆绑,是一种动态的,Web控件与数据源之间的交互,诸如 System.Web.UI.WebControls 里…

Anddroid系统APK卸载流程源码分析

这一章我们介绍APK的卸载过程,大致了解这里的卸载的过程如下: 1.从PMS的内部结构上删除acitivity、service、provider等信息 2.删除code、library和resource等信息 3.调用installd删除/data/data/packageName以及/data/dalvik-cache下面的文件 4.更新Set…

python学习笔记----函数(五)

一、函数介绍 在 Python 中,函数是一个组织好的、可重用的代码块,用来执行一个单一的、相关的动作。函数提供了代码的模块化和代码复用的能力。它可以接受输入参数,并可以返回一个结果。函数在 Python 编程中是基本的构建块之一。 二、函数…

前端入门:HTML(CSS边距,塌陷)

1.CSS边距 auto:浏览器自动计算的边距 length:以px,pt,cm等为单位指定边距,pt代表的是磅,1磅0.376毫米。 %:以父元素宽度的百分比来指定边距。 其中,length和%都可以取负值,表示减少外边距的空间大小。 …

面向对象练习题【从零开始学Java】

Java零基础系列课程-JavaSE基础篇 Lecture:波哥 Java 是第一大编程语言和开发平台。它有助于企业降低成本、缩短开发周期、推动创新以及改善应用服务。如今全球有数百万开发人员运行着超过 51 亿个 Java 虚拟机,Java 仍是企业和开发人员的首选开发平台。…

Docker有哪些常见命令?什么是Docker数据卷?

喜欢就点击上方关注我们吧! 哈喽,大家好呀!这里是码农后端。上一篇我们介绍了Docker的安装以及腾讯云镜像加速源的配置。本篇将带你学习Docker的常见命令、数据卷及自定义镜像等相关知识。 1、什么是镜像与容器? 利用Docker安装应…

RS0104YQ功能和参数介绍以及规格详情

RS0104YQ功能和参数介绍以及规格详情-公司新闻-配芯易-深圳市亚泰盈科电子有限公司 RS0104YQ 是一款由润石科技(Runic Semiconductor)生产的肖特基整流器。肖特基整流器是一种半导体器件,它利用金属-半导体接触形成的肖特基势垒来实现整流功…

华为校招机试 - 满二叉搜索树查找(20240424)

在线OJ测试 题目详情 - 满二叉搜索树查找 - HydroOJ 题目描述 给定 (2^n) - 1 个不同的整数(1 ≤ n ≤ 10,n 为整数),构建一棵平衡满二叉搜索树。 二叉搜索树定义如下: 节点的左子树只包含小于当前节点的数节点的右子树只包含大于当前节点的数所有左子树和右子树自身必…

手把手教你在本机安装Stable Diffusion秋叶整合包

因为网上讲部署的文章挺多的,所以本来不打算写这个,但是有些网友提出了要求,另外我也准备总结下在AI绘画方面的一些经验,从经验完整性上考虑,还是得有这部分的内容。 整合包对非技术出身的同学比较友好,因为…

Linux学习(一)

笔者给各位读者的建议是每天背 30 个在电脑上看到的不认识的单词 1) 文件系统 提供计算机存储信息的结构,信息存储在文件中,文件主要存储在计算机的内部硬盘里,在目录的分层结构中组织文件。文件系统为操作系统提供了组织管理数据的方式。 …

银河麒麟V10 ARM64 离线安装 新版Docker

查询当前发行版本 nkvers下载最新版本 卸载旧依赖 卸载已经安装的老版本 yum remove docker \containerd.io \docker-runc \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engine \docker-compo…

kubernetes 1.30.0 Containerd 离线搭建

准备 准备两台主机 主机名IPCPU架构mx-text-01192.168.0.222ARM64mx-text-02192.168.0.223ARM64 主机要求: 2Core 2G RAM 配置主机名映射 添加映射 192.168.0.222 mx-test-01 192.168.0.223 mx-test-02cat /etc/hosts关闭SELinux setenforce 0sed -i s/^SELI…

电商独立站||跨境电商独立站网站搭建|功能系统搭建||API接口接入

搭建多语言跨境电商独立站系统 前台主要功能模块 短信接口 第三方登陆 支付方式 会员中心 代购订单列表 - new 会员签到 -1000(1) new 支付密码 ---1000 国内流程 -----5000 new 订单运单多退少补 -1000 未付款运单取消功能 - 修改运单运输方式 -----1000 年费会员 -----3000 …

TimeoutException,带宽影响连接超时

在做压测试过程中发现本机测试正常,线上服务器报错如下: io.lettuce.core.RedisCommandTimeoutException: Command timed out after 15 second(s) 查看公网带流量情况: 服务器带宽 服务器的公网带宽配置为10Mbps,当服务器的出网…

解决Blender导出FBX文件到Unity坐标轴错误的问题

发现Blender的模型导入到Unity里面有问题,简单研究了下发现是坐标系不同,Unity使用的是左手坐标系,Blender使用的是右手坐标系 。 下面直接将如何解决 首先忽略Blender的右手坐标系以及Z轴朝上的事,依照unity坐标系情况修改模型物体的旋转,以Blender猴…

Linux服务器安装Anaconda并运行Python程序

目录 1. Linux服务器安装Anaconda1.1 下载Anaconda安装包1.2 安装Anaconda 2. 添加Conda环境变量3. Conda常用操作3.1 创建虚拟环境3.2 激活环境3.3 删除环境3.4 其他常用命令 4. 安装合适版本的Pytorch5. Linux服务器运行Python程序5.1 前端运行5.2 后台挂载5.3 后台进程 6. 一…

苹果和OpenAI再续前缘,iOS 18会是颠覆级的吗?|TodayAI

据彭博社最新报道,苹果公司已经与人工智能领域的先锋企业OpenAI重启了对话,双方目前正在讨论一项可能的合作,以将OpenAI的生成式人工智能技术整合到苹果即将推出的iOS 18操作系统中。这一举措表明,苹果正加速其在人工智能技术上的…

第G9周:ACGAN理论与实战

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制🚀 文章来源:K同学的学习圈子 上一周已经给出代码,需要可以跳转上一周的任务 第G8周:ACGAN任…

什么是视频号小店?小店怎么做?详细玩法流程来了

大家好,我是电商笨笨熊 视频号小店成了今年电商市场又一热门项目; 作为腾讯推出的电商,不少人曾说过,视频号小店会成为下一个风口; 那么视频号小店到底是什么,值得投入吗,又该怎么做呢&#…