个人对粗糙集的一些理解和简单举例

news2025/1/10 1:35:31

文章目录

  • 1、 数据价值密度低的解决方案
    • 1.1 粗糙集中对应的概念:属性约简
    • 1.2 属性约简的好处
    • 1.3 粗糙集的应用
  • 2、粗糙集的简介--->原理
    • 2.1 粗糙集的概念
    • 2.2 从例子看粗糙集
    • 2.3 粗糙集模型的分类及其评估标准
  • 3、粗糙集的主要研究方向
    • 3.1 模型创新
    • 3.2 属性约简
    • 3.3 提高计算效率

大数据很重要,但是存在体量大、价值密度低的问题,我们该怎么解决

1、 数据价值密度低的解决方案

​ 在所有这些场景中,我们需要将信息缩减到可管理的大小。特征选择是一个过程,可用于选择一组精简的特征,这些特征仍能提供足够的有用信息。这个过程通常是通过删除冗余和不必要的功能来完成的。如果一个特征提供的信息与同一数据集中另一个特征提供的信息相同,则该特征将是冗余的。如果一个特性不能给所需的信息增加任何价值,那么它就是不必要的。

​ 然后,所选择的特征集可以用于进一步的处理,例如,聚类、分类、规则提取,特征的减少可以显著提高这些处理系统的整体性能,例如,考虑具有一千个特征的分类场景,并将其与只有一百个特征的情况进行比较。显然,在考虑所有其他条件相同的情况下,后一种情况花费的时间要少得多。

1.1 粗糙集中对应的概念:属性约简

​ 由于粗糙集概念有些抽象,我们先来看下粗糙集能够达成什么样的效果,让大家能够直观感受粗糙集。

​ 属性约减又叫降维,指在保留知识分类或决策效果几乎不发生变化的前提下,从中删掉冗余信息,它可以有效删除不必要属性,提高决策效率。

1、线性降维方法:主成分分析(PCA)、独立成分分析(ICA)

​ 和线性判别分析(LDA)

2、非线性降维方法:

​ (1)基于核函数的非线性降维方法:KPCA 、KICA

​ (2)基于特征值的非线性降维方法

在这里插入图片描述
约简前聚类效果和约简后的聚类效果对比,可以检验约简的效果如何。假如约简前是上图,约简后三种形状和颜色的点混合在一起,则说明约简效果很差。

1.2 属性约简的好处

  • 去除冗余特征,减少所需的存储空间
  • 加快计算速度,更少的维数意味着更少的计算,更少的维数可以允许使用不适合大量维数的算法
  • 太多的特征或太复杂的模型可能导致过拟合

1.3 粗糙集的应用

数据预处理阶段:保证后续效率。神经网络训练模型是一个迭代过程,期间会消耗大量的时间。因此,在进入网络前对数据进行约简是非常有意义的,可以大大提升其效率,训练出的模型也会更好。

以阿尔法狗围棋为例对过拟合的再解释:假设AlphaGo和10位选手的10000场下棋结果进行训练,最后得到一个模型。AlphaGo和这10位围棋大师下棋,总能胜利。但是,此时有一位新的围棋高手,AlphaGo没有与之交过手,然后输了。这种情况不是偶然,经常出现,则说明模型过拟合了。真正拟合的模型对新到达的数据依然能够给出正确的决策。

2、粗糙集的简介—>原理

2.1 粗糙集的概念

1982年,波兰数学家Z.Pawlak发表了经典论文Rough Sets, 它是一种刻画不完整性和不确定性的数学工具,能有效地分析不精确,不一致(inconsistent)、不完整(incomplete) 等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。

已被广泛应用于知识发现、机器学习、决策支持、工业控制故障检测、专家系统、推荐系统、图像处理及归纳推理等领域。
在这里插入图片描述

在这里插入图片描述

2.2 从例子看粗糙集

在这里插入图片描述

U = { e 1 , e 2 , e 3 , e 4 , e 5 , e 6 , e 7 } U=\{e_1,e_2,e_3,e_4,e_5,e_6,e_7\} U={e1,e2,e3,e4,e5,e6,e7}

令P={“肌肉疼”,“体温”}

等价类

U / P U/P U/P={ e 1 e_1 e1, e 4 e_4 e4, e 7 e_7 e7}{ e 2 e_2 e2},{ e 3 e_3 e3, e 6 e_6 e6},{ e 5 e_5 e5}

是,正常: X 1 X_1 X1={ e 1 e_1 e1, e 4 e_4 e4, e 7 e_7 e7}

是,高: X 2 X_2 X2={ e 2 e_2 e2}

是,很高: X 3 X_3 X3={ e 3 e_3 e3, e 6 e_6 e6}

否,高: X 4 X_4 X4={ e 5 e_5 e5}

决策

D 1 = { e 1 , e 4 , e 5 } D_1=\{e_1,e_4,e_5\} D1={e1,e4,e5}

D 2 = { e 2 , e 3 , e 6 , e 7 } D_2=\{e_2,e_3,e_6,e_7\} D2={e2,e3,e6,e7}

求各个集合分别与各个决策集合的关系。

X 1 ∩ D 1 ≠ ∅ X_1\cap D_1 \neq \emptyset X1D1=

X 4 ⊆ D 1 X_4\subseteq D_1 X4D1

X 1 ∩ D 2 ≠ ∅ X_1\cap D_2 \neq \emptyset X1D2=

X 2 ⊆ D 2 X_2\subseteq D_2 X2D2

X 3 ⊆ D 2 X_3\subseteq D_2 X3D2

等价类包含于某个决策类-------------->意味着等价类肯定能推出指定决策(确定)。

等价类相交于某几个决策类----------->意味着等价类可能推出指定某几个决策(不确定)。

循环每一种属性组成的可能性,找出最优的属性子集即为属性约简。

最优属性子集:正域尽可能大,属性尽可能少。

2.3 粗糙集模型的分类及其评估标准

依赖度(近似质量)是衡量一个模型优劣的指标。

在这里插入图片描述

​ 在保证近似质量的前提下去缩短时间才是有意义的。

3、粗糙集的主要研究方向

3.1 模型创新

3.2 属性约简

遗传算法、优化算法、并行计算

3.3 提高计算效率

  • 并行计算
  • 增量学习(流计算)
  • GPU加速

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/170473.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浅析正则表达式+范围规则校验表达式+js从字符串中截取数字

平时项目中经常需要用到正则表达式,可惜之前太懒(当然最主要是太菜也不会写)都是直接网上搜。之前用的也简单,无非是校验手机号码格式、校验邮箱格式、偶尔有校验密码这种,网上一搜一大堆,根本不用自己写,结果前段时间…

【ONE·C || 函数与数组】

总言 C语言:函数、数组初步认识。 文章目录总言1、函数1.1、是什么1.1.1、基本介绍1.1.2、库函数使用演示(strcpy、memset)1.1.3、自定义函数使用演示1.2、函数参数、传值调用和传址调用1.3、相关练习1.3.1、写一个函数:可以判断一个数是不是素数1.3.2、…

集成学习-理论概述

1、集成学习概述集成学习(ensemble learning)本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。集成学习的特点:集成方法是一种将几种机器学习技术组合成一个预测模型的元算法,以减小方差(baggin…

python-文件和异常

1. 从文件中读取数据1.1. 读取整个文件在同目录下创建textA文本文件123 456 789a. open函数:要以任何方式去使用文件,都需要先打开文件,它接受一个参数——要打开文件的名称。 open()返回一个表示文件的对象。b. 关键字with在不再需要访问文件…

可以自动生成日报的清单工具

用过了很多todolist工具(Microsoft_ _To D、oodoist、滴答清单、印象笔记、有道笔记、) 最终稳定一直在用的就这一个“闪点清单” 我的核心诉求就两点 1. 可以实时记录任务,并标记是否完成 2. 可以按天、周导出,自动整合成日报…

《计算机构造与解释》读书笔记(4)

文章目录1. 写在最前面2. 并发:时间是一个本质问题2.1 并发系统中时间的性质2.1.1 并发程序的正确行为2.2 控制并发的机制2.2.1 对共享变量的串行访问2.2.2 Schema 里的串行化2.2.3 使用多重共享资源的复杂性2.2.4 串行化实现2.2.5 死锁2.2.6 并发性、时间和通信3. …

Linux学习记录——구 进程概念的基础理解

文章目录一、操作系统概念理解二、进程的基本理解1、什么是进程?2、进程的属性1、指令查看进程2、目录查看进程3、进程与进程之间1、父子进程概念2、创建子进程---fork的基础使用方法3、fork原理的初级理解1、fork的操作2、fork如何看待代码和数据3、fork如何看待两…

【Docker概念和实践 2】虚拟机 ubuntu18上安装docker

一、说明 已经安装了N遍Docker了,逐步成了一套习惯,这里专门记录之;总之,安装前必须回答得问题是:何种操作系统、何种版本、是否虚拟机、云数据源等问题。一个环境如果装得好,就不需要重装,如果…

C语言刷题之摩尔投票法

目录 1.引入 2.摩尔投票算法 3.基本步骤 摩尔投票法分为两个阶段: 1.抵消阶段 2.检验阶段 4.代码实现 5.扩展沿伸 6.总结 1.引入 我们来看一个问题: 假设有一个无序数组长度为n,要求找出其中出现次数超过n/2的数,要求时间复…

vue3-环境搭建(docker版本)

序 大大小小项目经历无数,之前都是写的vue2的项目,因为项目需要,边学边用vue3,也算能转的开,但心里一直想系统的理顺一下vue3。 看了看极客时间,掘金小课,都没有能达到心里预期的“系统学习”…

免费内网穿透软件一步设置实现外网访问

在工作和生活中,有很多类似内网搭建服务器和外网连接内网的需求, 例如在任何地方都能访问自己家里的主机电脑笔记本上的应用,让出差外网和任何地方都能访问到公司内部局域网的服务器……这些需求我们可以统一用一个方案解决,那就是…

网络编程UDP+TCP

日升时奋斗,日落时自省 目录 1、网络编程基本概念 2、UDP数据报套接字编程 2.1、UDP相关API 2.1.1、DatagramSocket API 2.1.2、DatagramPacket API 2.2、UDP版本服务器 2.3、UDP版本客户端 2.4、UDP连接操作 2.5、翻译业务 2.6、总结 3、TCP流套接字编程 …

【项目实战】一文入门项目中Lombok的常用注解

一、Lombok介绍 1.1 Lombok是什么? 一个Java库,用于简化Java代码。 Lombok是一个非常神奇的 java 类库,会利用注解自动生成 java Bean 中烦人的 Getter、Setting,还能自动生成 logger、ToString、HashCode、Builder 等 java特色…

【GD32F427开发板试用】开发一款网络音乐播放器

本篇文章来自极术社区与兆易创新组织的GD32F427开发板评测活动,更多开发板试用活动请关注极术社区网站。作者:守勤 资源介绍 非常荣幸能够参与到这次GD32F427开发板试用的活动中来,开发板的设计非常简洁,板载了一颗GD32F103C8T6和…

Python中的递归及案例演示

目录 一.什么是递归 二.案例 递归找文件 步骤 os模块中的三个方法 演示 最终代码 三.总结 一.什么是递归 递归在编程中是一种非常重要的算法 递归:即方法(函数)自己调用自己的一种特殊编程写法 如: 函数调用自己,即称之为递归调用。 二.案例 递…

C++ 引用! 他是坤坤也是鸡哥

👑专栏内容:C学习笔记⛪个人主页:子夜的星的主页💕座右铭:日拱一卒,功不唐捐 目录一、前言二、引用1、引用的概念2、引用的声明3、引用的特性Ⅰ、 引用在定义时必须初始化Ⅱ、 一个变量可以有多个引用Ⅲ、引…

深度学习PyTorch 之 DNN-多分类

前面讲了深度学习&PyTorch 之 DNN-二分类,本节讲一下DNN多分类相关的内容,这里分三步进行演示 结构化数据 我们还是以iris数据集为例,因为这个与前面的流程完全一样,只有在模型定义时有些区别 损失函数不一样 二分类时用的损…

Pollard Rho算法

生日悖论 假设一年有nnn天,房间中有kkk人,每个人的生日在这nnn天中,服从均匀分布,两个人的生日相互独立 问至少要有多少人,才能使其中两个人生日相同的概率达到ppp 解:考虑k≤nk\le nk≤n 设kkk个人生日互…

Spring框架介绍及使用

文章目录1.概述1.1 Spring是什么1.2 Spring 的优势1.3 spring 的体系结构2. IoC 的概念和作用2.1 什么是程序的耦合2.2 IoC容器3. AOP的概念和作用超链接: Spring重点内容学习资料1.概述 1.1 Spring是什么 Spring 是分层的 Java SE/EE 应用 full-stack 轻量级开源…

使用docker-compose搭建Prometheus+Grafana监控系统

一、角色分配 Prometheus 采集数据Grafana 用于图表展示redis_exporter 用于收集redis的metricsnode-exporter 用于收集操作系统和硬件信息的metricscadvisor 用于收集docker的相关metrics 二、安装Docker 可以参考:https://ximeneschen.blog.csdn.net/article/d…