数学建模——降维算法

news2024/10/5 14:28:39

降维

降维的意义

  • 降低无效、错误数据对建模的影响,提高建模的准确性
  • 少量切具有代表性的数据将大幅缩减挖掘所需的时间
  • 降低存储数据的成本

需要降维的情况

  • 维度灾难。很难有一个简洁的模型在高维空间中依旧具有鲁棒性,而随着模型复杂度的增加,为保证结果同样的精度和准确性,所需要的数据也需要极大增加,而高维空间的数据本身具备稀疏性,可想而知如果真要这么做,需要的数据是难以估计的。当然并不是所有的高维空间都不好,比如核方法,有些非线性的规律就需要映射到更高维的空间中去才能更好地解决,只不过核方法提供了一种更为简洁的运算。
  • 查询和计算的准确性和效率。准确性的话维度越高相对来说的确精度越低,一是数据度量本身的不准确性增加,而是计算时比如浮点数或者舍入等情况越多的发生,对准确性会有影响。而效率的影响更是显而易见的。
  • 去噪。 降维带来的去噪效果主要来源于两个方面,一是上面所说的计算时准确性同样的原因。二就是我们将维度降下来意味着我们只保留最主要的规律和信息,而那些轻微的细小的相关性一部分而是噪音的影响,另外一些则是我们并不希望关注的数据本身的弱关联性,这一点我们可以从信号处理的领域理解,我们通常认为我们感兴趣的信号具有较大的方差,噪声具有较小的方差,信号与噪声之比称为信噪比,信噪比越大意味着数据质量越好,反之信噪比越小意味着数据质量越差。
  • 数据压缩。 这主要是从存储的角度考虑
  • 可视化。 如果有可视化的需要的话,降低到2D、3D的维度比较适合进行可视化展示

主成分分析(PCA)(线性无监督)

PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系。
在这里插入图片描述
在这里插入图片描述

基于特征值分解协方差矩阵实现PCA算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于SVD分解协方差矩阵实现PCA算法

在这里插入图片描述

SVD奇异值分解

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

特点

  • 主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。
  • 主成分分析的困难之处主要在于要 能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。
  • 主成分分析可用于聚类分析,将自变量进行降维方便画图。
  • 主成分分析也可用于回归分析解决多重共线性的问题。
  • 主成分分析实际上是因子分析的特例,但是由于因子分析便于解释,所以建议大家多用因子分析。

线性判别分析(LDA)(线性有监督)

在这里插入图片描述
在这里插入图片描述

广义瑞利商

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

原理

二类

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

多类

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

步骤

在这里插入图片描述

特点

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

随机分布嵌入框架(RDE)

在处理高维数据时,通常会应用降维技术,但应用时很可能忽略了高维变量之间的相互作用。为了很好地利用交互信息,RDE框架建立了一个由数量众多的低维嵌入组成的分布。虽然每个低维嵌入都保留了整个系统的一部分信息,但这些低维嵌入形成了一个概率分布,可以用来获得最终的一维变量(或值)。
随机分布嵌入(RDE)的无模型框架,以实现基于短期高维数据的准确未来状态预测。具体来说,从高维变量的观测数据中,RDE框架随机生成足够数量的低维“非延迟嵌入”,并将每个嵌入映射到“延迟嵌入”,该嵌入是由要预测的目标变量的数据构建的。这些映射中的任何一个都可以作为未来状态预测的低维弱预测器,并且所有这些映射都会生成预测未来状态的分布。这种分布实际上将来自各种嵌入的所有关联信息无偏或偏地修补到目标变量的整个动态中,在通过适当的估计策略操作后,为以更可靠和稳健的形式实现预测创建了更强的预测因子。通过将RDE框架应用于来自代表性模型和现实世界系统的数据,我们发现高维特征不再是障碍,而是对准确预测短期数据至关重要的信息来源,即使在噪声恶化的情况下也是如此。
综上所述,我们建立了一个框架,可以从短期高维数据中准确做出预测。该RDE框架的新颖性源于充分利用嵌入在大量低维非延迟吸引子中的信息,以及适当使用目标变量的利用分布进行预测。一方面,RDE框架创建一个分布,将来自各种嵌入的所有信息片段修补到预测变量的整个动态中。另一方面,基于分布信息选择合适的估计方案可以显著提高预测的可靠性和鲁棒性,即使对于噪声恶化的短期数据也是如此。经基准模型和真实世界系统生成的数据集验证,该方法对观察到的短期高维时间序列特别有效。这一优点使得RDE框架在从现实世界系统中挖掘大数据集方面可能很有用。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

论文中步骤

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/180055.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LeetCode每日一题:1663. 具有给定数值的最小字符串~~~递归+DFS+贪心】

题目描述 小写字符 的 数值 是它在字母表中的位置(从 1 开始),因此 a 的数值为 1 ,b 的数值为 2 ,c 的数值为 3 ,以此类推。 字符串由若干小写字符组成,字符串的数值 为各字符的数值之和。例如…

你会仲裁吗——劳动仲裁需要准备

目录 劳动仲裁申请书 仲裁思路 ​编辑 一、仲裁前准备 1、自己不认可年终奖 2、自己不认可绩效 二、【仲裁前】协商阶段 1、主张3个月足额年终奖 2、公司协商离职赔偿方案 年终奖仲裁证据 延时加班费 周末加班费 节假日加班费 其他福利-如房补 申请劳动仲裁交通…

uniapp组件传参方式梳理

前言 日常开发中经常会遇到组件之间传递参数问题,整理了几种常见的传参方式,方便日后复习梳理. 常见组件传参的三种方式: 1.父组件向子组件传参 2.子组件向父组件传参 3.子组件向非父组件传参 1.父组件向子组件传参自定义组件: <template><view c…

XPath入门

好久没用XPath了&#xff08;之前没做笔记&#xff09;&#xff0c;最近要用的时候又到处查。。。&#xff08;痛苦.jpg&#xff09;&#xff0c;还是记录下吧&#xff08;π_π&#xff09; XPath&#xff0c;是XML Path Language的缩写&#xff0c; 是一门在 XML 文档中查找…

【Linux】POSIX信号量

目录&#x1f308;前言&#x1f338;1、POSIX信号量&#x1f368;1.1、概念&#x1f367;1.2、PV操作&#x1f33a;2、POSIX信号量相关API&#x1f368;2.1、初始化和销毁信号量&#x1f367;2.2、等待信号量&#xff08;P&#xff09;&#x1f370;2.3、发布信号量&#xff08…

ImmutableList hessian2序列化失败问题分析

问题描述 A服务提供了个RPC接口给B服务使用&#xff0c;入参里有个参数是List类型&#xff0c;B服务在传参时使用Guava里的 ImmutableList&#xff0c;结果发生报错。 其中&#xff0c;B服务即consumer端的异常为&#xff1a;「com.alibaba.dubbo.remoting.RemotingException:…

AD采集之离散化概念(Quantizer模型使用介绍)

模拟量采集的PLC程序和功能块算法,可以参看下面的文章链接: PLC模拟量采集算法数学基础(线性传感器)_RXXW_Dor的博客-CSDN博客_模拟量采集线性校准模拟量采集库如何设计,具体算法代码请参看我的另一篇博文:PLC模拟量输入 模拟量转换FC:S_ITR_RXXW_BOSS的博客-CSDN博客_…

缓存数据库memcached

目录 一.memcached简介 memcached简介 memcached的特点 二.memcached安装 2.1.yum安装 2.2.源码安装 三.memcached命令 3.1.memcached的特征 3.2.memcached的set命令 3.3.memcached的get命令 四.memcached应用实例配置 4.1.图示 4.2.基础配置 4.3.环境规划 4.3.1…

SpringBoot程序的打包和运行

程序打包 SpringBoot程序是基于Maven创建的&#xff0c;在Maven中提供有打包的指令&#xff0c;叫做package。本操作可以在Idea环境下执行。 mvn package​ 打包后会产生一个与工程名类似的jar文件&#xff0c;其名称是由模块名版本号.jar组成的。 程序运行 ​ 程序包打好以…

TeeGrid for .NET 2023

TeeGrid for .NET 2023 TeeGrid for.NET为Visual Studio项目提供了一个非常快速的数据网格。打包功能的.NET数据网格提供了诸如排序、分组或过滤网格数据、可调整列大小、主详细视图、可拖动选择、网格滚动等功能。只需使用几个属性设置即可启用这些内置功能。TeeGrid可以链接到…

【一文看懂 Redis 核心】 基础数据结构 架构设计 存储 集群

基础数据结构 & 架构设计 & 存储 & 集群 redis 简单来说其实就是一个基于内存的 key - value 数据库&#xff0c;它本身结构的前提就是 key - value 类似于 Java 中的 HashMap &#xff0c;所以我们在聊 redis 的时候始终要记得这个前提&#xff0c;同时 redis 在…

【SpringCloud】Feign 和 OpenFeign 两者的异同点

Feign 和 OpenFeign 两者共同点Feign和OpenFeign作用一样&#xff0c;都是进行远程调用的组件。里面都内置了 Ribbon。都是加在消费端的注解&#xff0c;让消费端可以调用其他生产者的服务。Feign 和 OpenFeign 两者区别&#xff08;1&#xff09;依赖不同Feign 的依赖<!-- …

十九、Gtk4-Ui file for menu and action entries

Ui file for menu 你可能认为构建菜单真的很麻烦。是的&#xff0c;程序很复杂&#xff0c;需要很多时间来编码。这种情况类似于构建小构建。当我们构建部件时&#xff0c;使用ui文件是避免这种复杂性的好方法。菜单也是如此。 菜单的ui文件有界面和菜单标签。文件以interfac…

JavaScript 基本认识

JavaScript 简介 JavaScript 是什么&#xff1f; JavaScript 是互联网最流行的脚本语言&#xff0c;这门语言可用于 HTML 和 Web&#xff0c;更可广泛用于服务器、PC、笔记本电脑、平板电脑和智能手机等设备。 JavaScript 是脚本语言&#xff1f; HTML 是超文本标记语言&am…

Groovy实现热部署

Groovy实现热部署一、概述二、准备工作2.1 规则接口IRule三、非Spring环境Groovy文件方式3.1 Groovy文件3.2 读取并生成实例3.3 使用这个实现四、数据库Groovy脚本方式4.1 Groovy脚本4.2 读取并生成实例五、Spring中使用Groovy的方式5.1 Groovy文件5.2 读取并生成实例5.3 使用这…

css sprite雪碧图制作,使用以及相关,图文gif

写在前面&#xff1a; 在网页制作中&#xff0c;雪碧图也是前端攻城狮必须掌握的一项小技能。百度词条对雪碧图的解释是&#xff1a;CSS雪碧 即CSS Sprite&#xff0c;也有人叫它CSS精灵&#xff0c;是一种CSS图像合并技术&#xff0c;该方法是将小图标和背景图像合并到一张图…

计算机组成原理 | 第一章:概论 | 冯诺依曼计算机 | 计算机硬件

文章目录&#x1f4da;冯诺依曼计算机的特点&#x1f4da;计算机硬件组成框图&#x1f4da;计算机硬件的主要技术指标&#x1f407;非时间指标&#x1f407;时间指标&#x1f511;计算技巧归纳&#x1f4da;小结&#x1f511;本章掌握要点&#x1f407;补充思考题&#x1f4da;…

[电商实时数仓] 用户行为数据和业务数据采集以及ODS层

文章目录1.数据仓库环境准备1.1 导入依赖1.2 创建相关包2.数据仓库运行环境2.1 Hbase环境2.2 模拟数据3.数仓开发之ODS层3.1 mysql配置修改3.2 FlinkCDC的程序3.3 结果检测1.数据仓库环境准备 1.1 导入依赖 <properties><java.version>1.8</java.version>&l…

为什么你的Facebook广告策略应该包括SEO

最近在看了很多关于 SEO的文章&#xff0c;今天想跟大家分享一些我个人关于 Facebook广告中的 SEO策略&#xff0c;以及它为什么是必要的。虽然在我看来&#xff0c;所有营销手段都需要结合 SEO才能发挥最大作用&#xff0c;但这并不意味着要完全放弃 SEO。如果你对以下问题感兴…

分享147个ASP源码,总有一款适合您

ASP源码 分享147个ASP源码&#xff0c;总有一款适合您 下面是文件的名字&#xff0c;我放了一些图片&#xff0c;文章里不是所有的图主要是放不下...&#xff0c; 147个ASP源码下载链接&#xff1a;https://pan.baidu.com/s/1us1KTsxeaZlosHsqvrkC5Q?pwd81pl 提取码&#x…