数据规约策略

news2024/9/24 15:21:53

有很多概念平时一直在说,但是具体的应用场景却一直不明确,这会导致我们在实际应用过程中对应该使用的方法不够明确,在此对常用的几种数据挖掘方法使用场景进行分类和整合。

数据降维

为什么要降维

  1. 数据稀疏,维度高
  2. 高维数据采用基于规则的分类方法
  3. 采用复杂模型,但是训练集数目较少(这一点很实用,对于少量的数据,又想使用相对复杂的需要大量数据集的模型(例如神经网络),首先通过数据降维减少影响的参数可以相同的模型训练成本大幅下降,仅需要少量训练数据集即可)
  4. 需要可视化

典型降维方法

PCA主成分分析法

大白话:将几个存在一定相关性的属性通过线性组合,形成一个组合属性替代原来的多个属性。

降数据

通过抽样(有放回或者无放回),来存储少量的数据。

抽取部分数据点时,也要选择恰当的数量的点,在不破坏原有结构的前提条件下。 

数据压缩

通过降低图像像素中存储点的数量,来降低图像像素质量的同时减少图像的存储开销。

主成分分析用于数据降维

 举个例子,上面的x1y2坐标系中的数据全部向x2y2坐标系进行投影,可以发现相应的贡献度中国x可以提供约为80%的贡献度,则可以使用相应的坐标系(损失20%贡献度可以忽略不计),来代替原有坐标系,用更少的参数代表尽可能高的贡献度

独立性检验:

定性对定量的影响:使用方差分析进行检验

定量对定量的影响:回归分析

有价值的相关系数

针对X、Y属于正态分布的数据:Pearson相关系数:ρxy=cov(X,Y)/二者方差之积。

Pearson相关性分析适用于服从正态分布的两定量变量,若两变量通过绘制散点图后发现存在线性趋势,可以通过计算Pearson相关系数来描述两变量的线性相关性。

输入输出描述

输入:两个或者两个以上的定量变量。

输出:两两变量之间是否呈现显著性相似以及相似的程度

 

针对X、Y属于非正态分布的数据:SPearman相关系数

Spearman相关系数适用于定量变量或定序变量两两之间的相关分析,利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,当我们变量中至少存在一个有序变量时,可使用Spearman系数来描述两变量的相关性。对于均为定量数据亦可计算Spearman相关系数,但统计效能要低一些。

输入:两个或者两个以上的定量变量或有序定类变量(有序定类变量可用数值代替)。

输出:两两变量之间是否呈现显著性相似以及相似的程度。

Pearson相关系数(适用于定量数据,且数据满足正态分布)

Spearman相关系数(数据不满足正态分布时使用)
Kendall's tau-b等级相关系数数据为有序的定类变量

Person相关系数:反映线性相关的强弱,其中当变量为多个时,使用Pearson相关系数矩阵。

几个重要的概念

方差分析:检验试验中有关因素对实验结果的影响的显著性。

试验指标:衡量或考核实验结果的参数

因素:影响试验指标的条件

水平:因素的不同状态或内容。

逐步回归:设计多元回归时,使用该方法可以筛选变量

截距模型:将所有自变量删除后只剩下一个截距系数的模型。例如:y=h,后续可以通过改变后面的自变量,观察其他模型的因变量与截距模型中因变量的差异来判断自变量对因变量的影响强弱。

典型相关分析:检查两组变量之间的相关关系。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/833533.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

资讯|巴西ANATEL扩展智能电视盒认证要求,ANTATEL认证

2023年7月13日,巴西国家电信局(ANATEL)发布了2023年7月5日的第9281号法案,规定了智能电视盒符合性评估的新技术要求。 国家电信局承认有必要扩大对该设备的现有认证要求,包括在合格评定程序中对可能侵犯音像版权的功能进行审查。这一调整是为了应对越来越多地利用电视盒非法获…

51单片机(普中HC6800-EM3 V3.0)实验例程软件分析 实验二 LED闪烁

目录 前言 一、原理图及知识点介绍 二、代码分析 知识点四:delay(u16 i)这个函数为什么i1时,大约延时10us? 前言 已经是第二个实验了,上一个实验是点亮第一个LED灯,这个实验是LED的闪烁。 一、原理图及知识点介绍…

最细致讲解yolov8模型推理完整代码--(前处理,后处理)

研究yolov8时,一直苦寻不到Yolov8完整的模型推理代码演示,大部分人都是基于Yolo已经封装好的函数调用,这个网上教程很多,本文就不赘述这方面的内容了,接下来将细致全面的讲解yolov8模型推理代码,也就是yolo…

【复习29-30天】【我们一起60天准备考研算法面试(大全)-第三十二天 32/60】

专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客,如有问题交流,欢迎评论区留言,一定尽快回复!(大家可以去看我的专栏,是所有文章的目录)   文章字体风格: 红色文字表示&#…

对象拷贝初识mapstruct及与lombok的配置

项目中用到对象拷贝,做一个修改历史记录保存的功能,使用Spring AOP自定义注解实现修改记录的保存,历史记录表和业务表的字段差不多,保存的时候需要用到对象拷贝。下面是一些对象拷贝的工具,前3个都用过,这次…

某银行软件测试笔试题

(时间90分钟,满分100分) 考试要求:计算机相关专业试题 一、填空题(每空1分,共10分) 1. ______验证___是保证软件正确实现特定功能的一系列活动和过程。 2. 按开发阶段分,软件测试可…

HTTPS-RSA握手

RSA握手过程 HTTPS采用了公钥加密和对称加密结合的方式进行数据加密和解密 RSA握手是HTTPS连接建立过程中的一个关键步骤,用于确保通信双方的身份验证和生成对称加密所需的密钥 通过RSA握手过程,客户端和服务器可以协商出一个共享的对称密钥,…

操作系统——什么是操作系统

文章目录 操作系统的概念操作系统的特征并发和并行共享虚拟异步 操作系统的功能管理计算机系统的资源作为用户和计算机硬件之间的接口 操作系统的发展历程操作系统的运行环境CPU运行模式异常和中断系统调用 操作系统结构操作系统的引导虚拟机容器 操作系统的概念 操作系统是指…

安全渗透知识总结二

目录 一、html实体编码 1、Unicode字符编码 2、字符的数字表示 3、常见实体编码 4、url 协议 主机 http状态码 http常用的状态码 端口 常见协议端口 查询参数 锚点 url字符 urlcode字符 绝对url和相对url 二、字符编码 Ascll字符集 html字符集 html的url编码 …

2023年华数杯C题

C 题 母亲身心健康对婴儿成长的影响 母亲是婴儿生命中最重要的人之一,她不仅为婴儿提供营养物质和身体保护, 还为婴儿提供情感支持和安全感。母亲心理健康状态的不良状况,如抑郁、焦虑、 压力等,可能会对婴儿的认知、情感、社会行…

Docker-Compose编排与部署

目录 Docker Compose Compose的优点 编排和部署 Compose原理 Compose应用案例 安装docker-ce 阿里云镜像加速器 安装docker-compose docker-compose用法 Yaml简介 验证LNMP环境 Docker Compose Docker Compose 的前身是 Fig,它是一个定义及运行多个 Dock…

【软考中项】系统集成项目管理工程师2023下半年报名考试攻略

软考中级系统集成项目管理工程师2023下半年考试时间: 2023年下半年软考中级系统集成项目管理工程师的考试时间为11月4日、5日。考试时间在全国各地一致,建议考生提前备考。共分两科,第一科基础知识考试具体时间为9:00到11:30;第二…

《信息系统项目管理师教程(第4版)》软考高级 第六章 项目管理概论知识点、思维导图整理

第六章 项目管理概论 考情分析 Part1 PMBOK的发展(无考点)Part2 项目基本要素 一、项目基础 1、独特的产品、服务或成果2、临时性工作3、项目驱动变更4、项目创造业务价值5、项目启动背景 (与组织的战略目标和项目的业务价值关联&#xff09…

木马病毒怎么回事?带你深度分析了解木马病毒!

一、病毒简介 SHA256:3110f00c1c48bbba24931042657a21c55e9a07d2ef315c2eae0a422234623194 MD5:ae986dd436082fb9a7fec397c8b6e717 SHA1:31a0168eb814b0d0753f88f6a766c04512b6ef03 二、行为分析 老套路,火绒剑监控: 这边可以看见创建了一个exe&#x…

Anaconda安装以及如何创建新环境

一、安装: 官网下载安装包:Anaconda | The World’s Most Popular Data Science Platform ok. 二、创建新的python环境: (这个在学习别人的开源代码时常用,因为自己的环境常常会与别人项目中的环境不兼容&#xff09…

Android Studio 屏幕适配

Android开发屏幕适配流程 首先studio中没有ScreenMatch这个插件的,下去现在这个插件 点击File->settings->Plugins->(搜索ScreenMatch插件),点击下载,应用重启Studio即可,如下图 在values下 创建dimens.xml&#xff0c…

[数据集][目标检测]遛狗不牵绳数据集VOC格式-1980张

数据集格式:Pascal VOC格式(不包含分割路径的txt文件和yolo格式的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):1980 标注数量(xml文件个数):1980 标注类别数:5 标注类别名称:["dog","p…

Cpp9 — map和set

map和set STL分为序列式容器(vector、list、deque)和关联式容器(map、set) 序列式容器:数据与数据之间没有很强的联系。(各个数据之间没什么关联)。底层为线性序列的数据结构,里面…

Go语言入门:从零开始的快速指南

文章目录 引言Go语言的诞生背景Go 语言的特性安装Go语言环境集成开发环境安装第一个Go程序Go 源代码的特征解读 引言 Go语言(也称为Golang)是一种开源的、静态类型的编程语言,由Google开发。它的设计目标是简单、高效、安全、并且易于学习和…

使用docker 搭建nginx + tomcat 集群

创建3个Tomcat容器,端口分别映射到 8080,8081,8082,使用数据卷挂载,分别将宿主机目录下的 /opt/module/docker/tomcat3/ROOT1/,/opt/module/docker/tomcat3/ROOT2/,/opt/module/docker/tomcat3/ROOT2/ 挂载到 容器内部…