数据仓库实验四:聚类分析实验

news2025/1/17 5:48:32

目录

    • 一、实验目的
    • 二、实验内容和要求
    • 三、实验步骤
      • 1、建立数据表
      • 2、建立数据源视图
      • 3、建立挖掘结构Student.dmm
      • 4、部署项目并浏览结果
      • 5、挖掘模型预测
    • 四、实验结果分析
    • 五、实验总结体会


一、实验目的

  通过本实验,进一步理解基于划分的、基于层次的、基于密度的聚类分析方法以及经典的聚类分析算法,并掌握利用 SQL Server 等工具平台进行聚类分析的方法,掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法 ,理解聚类分析算法常用的参数含义和设置方法。

二、实验内容和要求

  针对实际需求,构建格式规范的数据集,并能够借助于 SQL Server、Weka、SPSS 等工具平台,利用 K-means 等聚类分析算法进行聚类分析,正确分析实验结果,发现知识,完成实验报告。

三、实验步骤

  以下是参照示例:以 SQL Server 作为工具,完成数据集的构建和聚类分析。——以下内容,仅供参考!

1、建立数据表

启动SQL Server,在DM数据库中建立一个Student表,其结构如下,并输入示例数据。

在这里插入图片描述
在这里插入图片描述

2、建立数据源视图

新建一个 Analysis Services 项目 ClusterMining。建立数据源视图,它对应DM数据库中的Student表。

在这里插入图片描述
在这里插入图片描述

3、建立挖掘结构Student.dmm

新建挖掘结构,在“创建数据挖掘结构”页面的“您要使用何种数据挖掘技术?”选项下,选中列表中的“Microsoft聚类分析”。

在这里插入图片描述
选择数据源视图为DM。

在“指定表类型”页面上,在Student表的对应行中选中“事例”复选框,并单击下一步按钮。

在这里插入图片描述
在“指定定型数据”页面中,将“学号”列设为键列,把其它所有列设为输入列。

在这里插入图片描述
在这里插入图片描述
在“创建测试集”页面上,“测试数据百分比”选项的默认值为30%,将该选项更改为0.

在这里插入图片描述
在完成向导页面的“挖掘结构名称”和“挖掘模型名称”中,都输入Student。

在这里插入图片描述
在“挖掘模型”选项卡中设置算法的参数如下图所示。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4、部署项目并浏览结果

先处理(部署)、再浏览。

在这里插入图片描述
在挖掘模型查看器中,浏览聚类分析的结果。

在这里插入图片描述

5、挖掘模型预测

(1)单击“挖掘模型预测”选项卡,再单击“选择输入表”对话框中的“选择事例表”命令,指定DM数据源视图中的Student表。

在这里插入图片描述
(2)保持默认的字段连接关系,将Student表中的各个列拖放到下方的列表中,选中最后一行下面的空白行字段前面的“源”,从下拉列表中选择“预测函数”选项,并设置字段为Cluster。

在这里插入图片描述
(3)在任一空白处右击,并在下拉菜单中选择“结果”,出现如下所示的分类结果。

在这里插入图片描述

四、实验结果分析

1、分类关系图

(1)所有链接

在这里插入图片描述
(2)最强链接

在这里插入图片描述
2、分类剖面图

在这里插入图片描述
3、分类特征

在这里插入图片描述
4、分类对比
(1)“分类1”VS“非分类1”

在这里插入图片描述
(2)“分类1”VS“分类2”

在这里插入图片描述

五、实验总结体会

  通过数据挖掘聚类分析实验,积累了许多宝贵的经验。首先,我认识到对数据进行深入理解是取得成功的关键。在开始实验之前,我仔细分析了数据的结构、特征和可能存在的异常或缺失值等情况。这样的数据理解使我能够更好地选择合适的分析方法,并取得更好的结果。其次,在进行聚类分析之前,特征选择和预处理是不可或缺的步骤。通过特征选择,我能够提高模型的性能并降低计算复杂性。而预处理则可以使数据更加干净、一致,从而减少对聚类结果的影响。
  选择合适的算法是成功实现聚类分析的重要因素。我研究了各种聚类算法,包括K均值、层次聚类和DBSCAN等。每种算法都有其适用的场景和限制,所以我根据实际情况选择了最合适的算法。这样做可以确保我的聚类结果更加准确和可靠。然后,我意识到结果的解释和评估是聚类分析中不可或缺的步骤。聚类分析的结果不仅仅是一组类别标签,更重要的是对这些类别的解释和理解。最后,我意识到持续学习和改进是取得优秀成绩的关键。数据仓库与数据挖掘是一个不断发展和变化的领域,需要不断学习新的方法和算法。通过不断尝试新的技术和流程,我能够不断优化实验流程,并取得更好的结果。
  总的来说,进行数据仓库与数据挖掘的聚类分析实验是一个充满挑战但又充满乐趣的过程。通过深入理解数据、选择合适的算法、进行特征选择和预处理、解释和评估结果,以及持续学习和改进,我相信我能够不断提高我的数据分析技能,并在这个领域取得更出色的成果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1682691.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【STM32项目】基于stm32智能鱼缸控制系统的设计与实现(完整工程资料源码)

实物演示效果 基于stm32智能鱼缸控制系统的设计与实现 目录: 实物演示效果 目录: 一、 绪论 1.1 项目研究目的及意义 1.1.1 选题目的 1.1.2 选题意义 1.2 国内外研究现状 1.2.1 国外发展现状 1.2.2 国内发展现状 1.3 项目研究内容 二、智能鱼缸系统总体设…

森林消防高压灭火泵的功能特点

我国森林面积广阔,自然资源丰富,而森林火灾是常见的自然灾害,具有范围大、损失惨、时间长、火势猛等特点。森林火灾会烧毁成片的森林,伤害林内的动物,而且还降低森林的更新能力,引起土壤的贫瘠和破坏森林涵…

【Qt 学习笔记】Qt常用控件 | 布局管理器 | 网格布局Grid Layout

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt常用控件 | 布局管理器 | 网格布局Grid Layout 文章编号&#xff1a…

iPhone实况照片从Windows资源管理器复制的JPG+MOV无法正常还原到iPhone

背景: 之前使用的iPhone 15 Pro,使用的Windows资源管理器当中复制导出的实况照片,复制出来的格式例如IMG_0001.JPG, IMG_0001.MOV。之后手机就卖掉了。现在使用的iPhone 14 Pro Max,想要导回之前备份的实况照片。尝试使用爱思助手…

92.网络游戏逆向分析与漏洞攻防-游戏技能系统分析-利用哈希表实现快速读取文本内容

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 如果看不懂、不知道现在做的什么,那就跟着做完看效果,代码看不懂是正常的,只要会抄就行,抄着抄着就能懂了 内容…

车间人员作业行为智能检测 AI视觉在生产车间制造中的应用

车间人员作业行为智能检测系统基于神经网络人工智能视觉算法,车间人员作业行为智能检测通过对车间监控摄像头获取的视频图像进行分析和识别,实现了对人员操作行为的智能检测。系统对工人的操作环节进行分解,根据时间、动作标准等方面制定了规…

Django5+React18前后端分离开发实战13 使用React创建前端项目

先将nodejs的版本切换到18: 接着,创建项目: npx create-react-app frontend接着,使用webstorm打开这个刚创建的项目: 添加一个npm run start的配置: 通过start启动服务: 浏览器访问&…

STranslate即开即用、即用即走的翻译(OCR)工具 v1.1.3.514

软件介绍 STranslate 是一款面向 Windows 操作系统用户设计的翻译软件,该软件具备开源性质并且免费。它结合了翻译功能与光学字符识别(OCR)技术,允许用户高效且直接地在屏幕上进行文字的翻译和识别。在开发过程中,STr…

Nginx/阿里云/二级域名的配置和使用

阿里云域名解析配置如下: nginx配置如下: 访问地址: zhadmin.iotzzh.com image.png

二叉搜索数之删除节点

看题目: 给定一个二叉搜索树的根节点 root 和一个值 key,删除二叉搜索树中的 key 对应的节点,并保证二叉搜索树的性质不变。返回二叉搜索树(有可能被更新)的根节点的引用。 一般来说,删除节点可分为两个步…

详解ArcGIS 水文分析模型构建

目录 前言 项目环境、条件 Dem 数据预览 ArcGIS模型构建器 模型搭建 填洼 流向 流量 河流长度 栅格计算器 河流链接 河网分级 栅格河网矢量化 绘制倾泻点 栅格流域提取 集水区 盆域分析 栅格转面 模型应用 导出 py 文件 完善脚本 最终效果 结束语 前言 …

【NumPy】关于numpy.loadtxt()函数,看这一篇文章就够了

🧑 博主简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向…

有没有适合女性做的副业?盘点9个适合女生做的赚钱兼职副业

亲爱的女神们,你们是否也想在忙碌的生活中寻找一些额外的乐趣和收入呢?今天,就为大家揭秘九种特别适合女性的副业,让你在追求美丽的同时,也能轻松赚取零花钱,秒变“小金库”! 一、宅富社任务赚钱…

Default Folder X for Mac v6.0.7激活版:高效、智能的文件管理新选择

在快节奏的工作与生活中,高效管理文件已成为每个Mac用户的迫切需求。Default Folder X for Mac正是为了满足这一需求而生,它以其卓越的性能和丰富的功能,为Mac用户带来了前所未有的文件管理体验。 Default Folder X for Mac拥有直观易用的界面…

攻防世界---web---warmup

1、题目描述 2、查看源码,发现有个source.php 3、访问该文件,得到这一串代码 4、分析代码 5、访问hint.php,提示flag在ffffllllaaaagggg这个文件下 6、构造payload ?filesource.php?/../../../../../../ffffllllaaaagggg

Java基础之进制转换和位运算专题

什么是进制? 是数学中的一个概念,就是数据“逢几进位”。 例如:生活中用的计数方法 ---- 十进制。十进制就是数字逢十就要进一位。 例如:一个星期有7天,就是逢七进一;一个月有30天就是逢30进一;…

多尺度注意力机制突破性成果!低成本、高性能兼备

与传统的注意力机制相比,多尺度注意力机制引入了多个尺度的注意力权重,让模型能够更好地理解和处理复杂数据。 这种机制通过在不同尺度上捕捉输入数据的特征,让模型同时关注局部细节和全局结构,以提高对细节和上下文信息的理解&a…

【openlayers系统学习】3.5colormap详解(颜色映射)

五、colormap详解(颜色映射) ​colormap​ 包是一个很好的实用程序库,用于创建颜色图。该库已作为项目的依赖项添加(1.7美化(设置style))。要导入它,请编辑 main.js​ 以包含以下行…

AWS安全性身份和合规性之Identity and Access Management(IAM)

通过AWS Identity and Access Management(IAM),您可以指定谁或什么能够访问AWS中的服务和资源、集中管理精细权限,并分析访问权限以优化跨AWS的权限。 比如一家软件开发公司需要在AWS上创建多个开发人员账户,并对其进…

使用Python生成一束玫瑰花

520到了,没时间买花?我们来生成一个电子的。 Python不仅是一种强大的编程语言,用于开发应用程序和分析数据,它也可以用来创造美丽的艺术作品。在这篇博客中,我们将探索如何使用Python生成一束玫瑰花的图像。 准备工作…