【机器学习第11章——特征选择与稀疏学习】

news2024/9/27 15:33:28

机器学习第11章——特征选择与稀疏学习

  • 11.特征选择与稀疏学习
    • 11.1子集搜索与评价
      • 子集搜索
      • 子集评价
    • 11.2 过滤式选择
    • 11.3 包裹式选择
    • 11.4 嵌入式选择
    • 11.5 稀疏表示与字典学习
        • 稀疏表示
        • 字典学习
    • 11.6 压缩感知

11.特征选择与稀疏学习

11.1子集搜索与评价

  • 特征:描述物体的属性

  • 特征的分类

    • 相关特征:对当前学习任务有用的属性
    • 无关特征:与当前学习任务无关的属性
  • 特征选择

    • 从给定的特征集合中选出任务相关特征子集
    • 必须确保不丢失重要特征
  • 原因

    • 减轻维度灾难:在少量属性上构建模型
    • 降低学习难度:留下关键信息

如果按一般的思想,遍历特征的所有可能子集,会在计算上遭遇组合爆炸,所以可行的方法是子集搜索和子集评价

  1. 产生初始候选子集
  2. 评价候选子集的好坏
  3. 基于评价结果产生下一个候选子集,对其继续进行评价

子集搜索

用贪心策略选择包含重要信息的特征子集

  • 前向搜索:最优子集初始为空集,逐渐增加相关特征

在这里插入图片描述

  • 后向搜索:从完整的特征集合开始,逐渐减少特征
  • 双向搜索:每一轮逐渐增加相关特征,同时减少无关特征

但这样的子集搜索会可能会导致失去全局最优解的问题,这是贪心算法不可避免的

子集评价

  • 特征子集A确定了对数据集D的一个划分(每个划分区域对应着特征子集A的某种取值)
    { D 1 , D 2 , . . . , D V } \{D^1,D^2,...,D^V\} {D1,D2,...,DV}

  • 样本标记Y对应着对数据集的真实划分

  • 通过估算这两个划分的差异,就能对特征子集进行评价;与样本标记对应的划分的差异越小,则说明当前特征子集越好

  • 信息熵是判断这种差异的一种方式(熵越大,说明数据越混乱)
    E n t ( D ) = − ∑ i = 1 ∣ y ∣ p k log ⁡ 2 p k Ent(D)=-\sum_{i=1}^{|y|}p_k\log_2p_k Ent(D)=i=1ypklog2pk

  • 信息增益
    G a i n ( A ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(A)=Ent(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v) Gain(A)=Ent(D)v=1VDDvEnt(Dv)
    信息增益越大,说明这次的划分使数据变得比较规整是有帮助的(具体定义和例子见https://blog.csdn.net/m0_53694086/article/details/140758015)

将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法:过滤式、包裹式、嵌入式

11.2 过滤式选择

先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。先用特征选择过程过滤原始数据,再用过滤后的特征来训练模型。

  • Relief方法

    • 是一种特征权重算法,根据各个特征和类别的相关性赋予特征不同的权重(相关统计量),权重小于某个阈值的特征将被移除。
    • 特征和类别的相关性是基于特征对近距离样本的区分能力。
    • 关键在于确定权重(相关统计量)
  • 算法实现

    • 从训练集D中随机选择一个样本 x i x_i xi,然后

      • 从和 x i x_i xi同类的样本中寻找最近邻样本,称为猜中近邻

      • 从和 x i x_i xi不同类的样本中寻找最近邻样本,称为猜错近邻

    • 然后根据以下规则更新每个特征的权重

      • 如果 x i x_i xi和猜中近邻在某个特征上的距离小于 x i x_i xi和猜错近邻上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;

      • 反之,如果 x i x_i xi和猜中近邻在某个特征的距离大于 x i x_i xi和猜错近邻上的距离,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。

    • 以上过程重复m次,最后得到各特征的平均权重。

    • 特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。

    • Relief方法的时间开销随采样次数以及原始特征数线性增长,运行效率很高。


猜中近邻 : x i , n h , 猜错近邻 : x i , n m 猜中近邻:x_{i,nh},猜错近邻:x_{i,nm} 猜中近邻:xi,nh,猜错近邻:xi,nm
对第j个特征(属性)的相关统计量为
δ j = ∑ i { − d i f f ( x i j , x i , n h j ) 2 + d i f f ( x i j , x i , n m j ) 2 } d i f f ( 表示两点属性值的距离的差异 ) = { 两样本属性值相同记为 0 , 否则记为 1 , 属性值为离散型 两样本属性值间的距离 , 属性值为连续型 \delta^j=\sum_i\{-diff(x^j_i,x_{i,nh}^j)^2+diff(x^j_i,x_{i,nm}^j)^2\}\\ diff(表示两点属性值的距离的差异)= \begin{cases} 两样本属性值相同记为0,否则记为1, & 属性值为离散型 \\ 两样本属性值间的距离, & 属性值为连续型 \\ \end{cases} δj=i{diff(xij,xi,nhj)2+diff(xij,xi,nmj)2}diff(表示两点属性值的距离的差异)={两样本属性值相同记为0,否则记为1,两样本属性值间的距离,属性值为离散型属性值为连续型

δ j > 0 说明第 j 个特征有益,加一定的权重 δ j < 0 说明第 j 个特征无益,减一定的权重 \delta^j>0说明第j个特征有益,加一定的权重\\ \delta^j<0说明第j个特征无益,减一定的权重 δj>0说明第j个特征有益,加一定的权重δj<0说明第j个特征无益,减一定的权重

  • Relief是对二分类问题设计的,所以在后来在多分类问题中进行了调整

    • 每次从训练样本集中随机取出一个样本 x i x_i xi

    • 从和 x i x_i xi同类的样本集中找出 x i x_i xi的1个猜中近邻样本

    • 从每个 x i x_i xi的不同类的样本集中均找出k-1个猜错近邻样本

    • 然后更新每个特征的权重
      δ j = ∑ i − d i f f ( x i j , x i , n h j ) 2 + ∑ l ≠ k ( p l × d i f f ( x i j , x i , n m j ) 2 ) p l 为第 l 类样本在数据集 D 中所占的比例 \delta^j=\sum_i-diff(x^j_i,x_{i,nh}^j)^2+\sum_{l\neq k}\big(p_l\times diff(x^j_i,x_{i,nm}^j)^2\big)\\ p_l为第l类样本在数据集D中所占的比例 δj=idiff(xij,xi,nhj)2+l=k(pl×diff(xij,xi,nmj)2)pl为第l类样本在数据集D中所占的比例

11.3 包裹式选择

直接把最终将要使用的学习器的性能作为特征子集的评价准则

  • 包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集
  • 包裹式选择方法直接针对给定学习器进行优化,因此从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好
  • 包裹式特征选择过程中需多次训练学习器,计算开销通常比过滤式特征选择大得多
  • LVW是一个典型的包裹式特征选择方法,LVW在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差作为特征子集评价准则
  • LVW基本步骤
    • 在循环的每一轮随机产生一个特征子集
    • 在随机产生的特征子集上通过交叉验证推断当前特征子集的误差
    • 进行多次循环,在多个随机产生的特征子集中选择误差最小的特征子集作为最终解
  • 采用随机策略搜索特征子集,而每次特征子集的评价都需要训练学习器,开销很大。

11.4 嵌入式选择

过滤式和包裹式的特征选择过程与学习器训练过程有明显的分别,而嵌入式将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,在学习器训练过程中自动地进行特征选择

  • 算法实现

    • 考虑最简单的线性回归模型,以平方误差为损失函数,并引入
      L 2 范数正则化项 L_2范数正则化项 L2范数正则化项
      防止过拟合,则有
      min ⁡ w ∑ i = 1 m ( y i − w T x i ) 2 + λ ∣ ∣ w ∣ ∣ 2 2 \min_w\sum_{i=1}^m(y_i-w^Tx_i)^2+\lambda||w||^2_2 wmini=1m(yiwTxi)2+λ∣∣w22


    • L 2 范数替换为 L 1 范数 L_2范数替换为L_1范数 L2范数替换为L1范数
      则有
      min ⁡ w ∑ i = 1 m ( y i − w T x i ) 2 + λ ∣ ∣ w ∣ ∣ 1 \min_w\sum_{i=1}^m(y_i-w^Tx_i)^2+\lambda||w||_1 wmini=1m(yiwTxi)2+λ∣∣w1

    • L 2 L_2 L2范数和 L 1 L_1 L1范数均有助于降低过拟合风险,但是 L 1 L_1 L1范数易获得稀疏解,即w会有更少的非零分量,是一种嵌入式特征选择方法

    • L 1 L_1 L1正则化问题的求解可使用近端梯度下降算法

11.5 稀疏表示与字典学习

稀疏表示
  • 稀疏表示
    • 将数据集D考虑成一个矩阵,每行对应一个样本,每列对应一个特征。特征选择所考虑的问题是特征具有稀疏性,即矩阵中的许多列与当前学习任务无关,通过特征选择去除这些列,则学习器训练过程仅需在较小的矩阵上进行,学习任务的难度可能有所降低,设计的计算和存储开销会减少,学得模型的可解释性也会提高。
    • 矩阵中有很多零元素,且非整行整列出现。
  • 稀疏表达的优势:
    • 数据具有稀疏性,使得大多数问题变得线性可分
    • 稀疏矩阵已有很多高效的存储方法
字典学习
  • 为普通稠密表达的样本找到合适的字典,将样本转化为稀疏表示,这—过程称为字典学习

  • 采用变量交替优化策略求解
    字典 D 和稀疏向量 α i 字典D和稀疏向量\alpha_i 字典D和稀疏向量αi

    • 固定字典D,为每个样本 x i x_i xi找到对应的 α i \alpha_i αi
      a r g min ⁡ α ∣ ∣ x − D α ∣ ∣ 2 2 + λ ∣ ∣ α ∣ ∣ 1 arg \min_{\alpha}||x-D\alpha||^2_2+\lambda||\alpha||_1 argαmin∣∣xDα22+λ∣∣α1

    • α i \alpha_i αi为初值,更新字典D
      min ⁡ D ∣ ∣ x − D α ∣ ∣ F 2 \min_{D}||x-D\alpha||^2_F Dmin∣∣xDαF2

  • 常用的求解方法有K-SVD

    • 核心思想:K-SVD最大的不同在字典更新这一步,K-SVD对误差矩阵 E i E_i Ei进行奇异值分解,取得最大奇异值对应的正交向量更新字典中的一个原子,同时并更新其对应的稀疏系数,直到所有的原子更新完毕,重复迭代几次即可得到优化的字典和稀疏系数。

∣ ∣ Y − D X ∣ ∣ F 2 = ∣ ∣ Y − ∑ j = 1 K d j X F j ∣ ∣ F 2 = ∣ ∣ ( Y − ∑ j ≠ k d j X T j ) − f k X T k ∣ ∣ F 2 = ∣ ∣ E k − d k X T k ∣ ∣ F 2 ||Y-DX||^2_F=\bigg|\bigg|Y-\sum_{j=1}^Kd_jX_F^j\bigg|\bigg|^2_F\\ =\bigg|\bigg|\bigg(Y-\sum_{j\neq k}d_jX_T^j\bigg)-f_kX^k_T\bigg|\bigg|^2_F\\ =||E_k-d_kX_T^k||^2_F ∣∣YDXF2= Yj=1KdjXFj F2= (Yj=kdjXTj)fkXTk F2=∣∣EkdkXTkF2

11.6 压缩感知

“压缩感知”是直接感知压缩后的信息,其目的是从尽量少的数据中提取尽量多的信息。压缩理论证明了如果信号在正交空间具有稀疏性(即可压缩性),就能以远低于奈奎斯特采样频率的速率采样该信号,最后通过优化算法高概率重建出原信号。其基本思想是一种基于稀疏表示的信号压缩和重构技术,也可以称为压缩采样或稀疏采样。

压缩感知引起了信号采样及相应重构方式的本质性变化,即:数据的采样和压缩是以低速率同步进行的,这对于降低信息的采样成本和资源都具有重要意又。

由于压缩感知技术突破了传统香农采样定理的限制,其理论研究已经成为应用数学、数字信号处理、数字图像处理等领域的最热门的方向之一,同时其应用领域涉及到图像压缩、医学图像处理、生物信息处理、高光谱影像、地球物理数据分析、压缩雷达、遥感和计算机图像处理等诸多方面。

  • 长度为M的离散信号x,用远小于奈奎斯特采样定理的要求的采样率采样得到长度为N的采样后信号y。一般情况下,N<<M,不能利用y还原x,但是

    • 若存在某个线性变换Ψ,使得x = Ψα,即可以近乎完美地恢复x
    • 压缩感知关注的问题是如何利用信号本身具有的稀疏性,从部分观测样本y中恢复原始信号x。
    • 压缩感知需要解决的三个问题:感知测量(信号的稀疏表示),设计观测矩阵ϕ,信号重构技术。
  • 核心问题

    • 感知测量

      • 信号的最佳稀疏域表示是压缩感知理论应用的基础和前提,只有选择合适的基Ψ表示信号才能保证信号的稀疏度,从而保证信号的恢复精度。
      • 涉及到前面介绍的稀疏编码和字典学习。
    • 设计观测矩阵ϕ

      • 观测矩阵ϕ是压缩感知理论采样的实现部分。通过观测矩阵控制的采样使得目标信号x在采样过程中被压缩,同时保证目标信号所含有效信息不丢失,能够由压缩采样值还原出目标信号。
      • 如何设计一个平稳的、与变换基不相关、满足有限等距(RIP,即从观测矩阵中抽取的每M个列向量构成的矩阵是非奇异的)性质的观测矩阵ϕ,同时保证稀疏向量从N维降维到M维时重要信息不遭破坏(即信号低速采样问题),是压缩感知的另一个重要研究丙容。
      • 目前常用的测量矩阵主要有:高斯随机矩阵、伯努利随机矩阵(二值随机矩阵)、局部哈达玛矩阵、局部傅里叶矩阵、Chirp序列、Altop序列、托普利兹矩阵等。
    • 信号重构技术

      • 重构算法是从采样值求解最优化问题寻找到目标信号最优解。

      • 在压缩感知理论中,由于观测值M远小于信号x的长度N,因此信号重构的核心在于如何求解欠定方程组
        y = Φ Ψ x y=\Phi\Psi x y=ΦΨx
        如果信号是稀疏或可压缩的,且观测矩阵ϕ具有有限等距RIP性质,那么从M个观测值中精确恢复信号x是可能的。

      • 信号重构的常用方法:

        • l 0 l_0 l0 范数非凸优化问题:贪婪算法,如匹配追踪、正交匹配追踪算法等

        • l 1 l_1 l1范数凸优化问题:线性规划方法进行求解,如基追踪、梯度投影稀疏重构算法

        • l p l_p lp范数非凸优化问题:通过p范数优化问题求解来找到信号的“最优”逼近

        • Bayesian方法:基思想是首先合理假设未知的信号系数具有某种稀疏性的先验概率分布,然后根据压缩观测信号对未知系数的后验概率分布进行推理。该类方法还能够估计出重构问题的解的误差范围,这一优点是传统优化方法所不具备的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2052812.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

全国计算机二级Python学习笔记

格式化操作符辅助指令: 格式化输出16进制&#xff0c;十进制&#xff0c;八进制整数 %x — hex 十六进制 %d — dec 十进制 %o — oct 八进制 turtle.setup()函数用于启动一个图形窗口&#xff0c;它有四个参数 turtle.setup(width, height, startx, starty) 分别是&…

kali实用工具之ettercap

ettercap最初是交换局域网的嗅探器&#xff0c;但在开发的过程中&#xff0c;它获得了越来越多的功能&#xff0c;从而使其转变为强大而灵活的中间人攻击工具。它支持许多协议&#xff08;甚至是加密协议&#xff09;的主动和被动解剖&#xff0c;并包括许多用于网络和主机分析…

Unity音频管理器插件AudioToolKit

Unity音频管理器插件AudioToolKit 介绍AudioToolKit介绍具体用法总结 介绍 最近在自己写音频管理器的时候在网上发现了一款比较好用并且功能很全的一个音频管理插件&#xff0c;叫做AudioToolKit的插件。 如果需要的可以直接从我资源中找AudioToolKit。 AudioToolKit介绍 A…

助农扶贫小程序的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;用户管理&#xff0c;商品信息管理&#xff0c;订单信息管理&#xff0c;订单配送管理&#xff0c;商品评价管理&#xff0c;商品退货管理&#xff0c;管理员管理 微信端账号功能包括&#xff1a;系统…

Flink消费Kafka数据积压排查解决

0、背景 有个Flink任务每天不定时会出现数据积压&#xff0c;无论是白天还是数据量很少的夜里&#xff0c;且积压的数据量会越来越多&#xff0c;得不到缓解&#xff0c;只能每日在积压告警后重启&#xff0c;重启之后消费能力一点毛病没有&#xff0c;积压迅速缓解&#xff0…

性能测试常见面试问题汇总

性能测试是什么&#xff1f; 答&#xff1a;性能测试是评估系统或应用程序在不同负载条件下的表现的过程。它可以帮助我们确定系统在正常使用期间所需的资源&#xff0c;并找出系统在何时无法满足用户需求的瓶颈。 性能测试包括哪些方面&#xff1f; 答&#xff1a;性能测试包括…

计算中间件平台之Linkis

Linkis 是由WeBank自主研发的一款面向大数据和AI的计算中间件平台。它的设计初衷是为了简化和统一各种计算引擎的调用和管理&#xff0c;降低使用大数据和AI技术的门槛。Linkis可以帮助用户在一个平台上方便地调用各种数据处理引擎&#xff0c;如Hadoop、Spark、Hive、Flink等&…

bridge资产导入blender错误 显示bidge Could not send data over port 28888

bridge资产导入blender错误 显示bidge Could not send data over port 28888 解决办法 1.在Quixel bridge里点击Edit找到Manage Plugins下载blender插件 我的显示已经下载好了 2.在Quixel bridge里点击Edit找到Settings找到插件保存路径 3.在路径里找到E:\Documents\Mega…

HTML5服装电商网上商城模板源码

文章目录 1.设计来源1.1 主界面1.2 购物车界面1.3 电子产品界面1.4 商品详情界面1.5 联系我们界面1.6 各种标签演示界面 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板&#xff0c;程序开发&#xff0c;在线开发&#xff0c;在线沟通 【博主推荐】&#xff1a;前些天发…

STM32——I2C协议以及软件读写

I2C协议中SCL用于同布&#xff0c;当某一方发送/接收数据时&#xff0c;另一方将会发应答表示数据已收到。 一主多从&#xff1a;类似于老师是主在讲课&#xff0c;学生是从机&#xff0c;只有老师点名学生才能应答&#xff0c;否则不能自己应答。 之后是硬件电路的设置 对于…

【ACL2024】面向Stable Station的交互式多轮Prompt生成模型DiffChat

近日&#xff0c;阿里云人工智能平台PAI与华南理工大学金连文教授团队合作&#xff0c;在自然语言处理顶级会议 ACL 2024 上发表论文《DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation. ACL 2024》。DiffChat算法是一个文到文…

【活动议题介绍】2024-08-25 | PowerData 数字经济·杭州开源行

【活动议题介绍】2024-08-25 | PowerData 数字经济杭州开源行 活动介绍议题介绍活动信息扫码报名往期开源行回顾 活动介绍 “总把西湖比西子&#xff0c;浓妆淡抹总相宜”&#xff0c;杭州&#xff0c;这座温婉如画的江南水乡&#xff0c;自古便以其独有的风姿吸引着无数文人墨…

【C++报错已解决】`RuntimeError: CUDA error: invalid device ordinal`

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引言 你是否在运行CUDA程序时遇到了RuntimeError: CUDA error: invalid device ordinal这样的错误&#xff1f;这通常是由于设…

STM32标准库学习笔记-9.DMA 直接存储器存取

参考教程&#xff1a;【STM32入门教程-2023版 细致讲解 中文字幕】 DMA&#xff08;Direct Memory Access&#xff09; DMA&#xff08;Direct Memory Access&#xff09;直接存储器存取DMA可以提供外设和存储器或者存储器和存储器之间的高速数据传输&#xff0c;无须CPU干预…

OpenCV图像滤波(20)模糊处理函数stackBlur()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 stackBlur() 函数用于对图像进行模糊处理。该函数对图像应用了 stackBlur 技术。stackBlur 可以生成与高斯模糊相似的结果&#xff0c;而且随着模…

ICMAN水位接近式检测方案(非接触式)

ICMAN水位液位接近式检测方案&#xff08;非接触式&#xff09; 我们的很多家用电器都会需要&#xff1a;液位检测 缺水&溢水提醒保护、高低液位提醒 液位传感器 像健康家电——烧水煮茶熬养生汤的烧水壶、豆浆机、养生壶等需要缺水保护和防溢液提醒&#xff1b; 像清洁…

ArcGis在线地图插件Maponline(好用版)

ArcGis加载插件&#xff0c;可在线浏览谷歌地图、天地图、高德地图、必应地图等多种&#xff0c;包含街道、影像、标注地图等信息&#xff08;谷歌地图需自备上网手段&#xff09;&#xff0c;免费注册账号即可使用&#xff0c;可加载无水印底图。 与大地2000坐标无需配准直接使…

【吊打面试官系列-Memcached面试题】说说memcached 和 MySQL 的 query cache 相比,有什么优缺点?

大家好&#xff0c;我是锋哥。今天分享关于 【说说memcached 和 MySQL 的 query cache 相比&#xff0c;有什么优缺点&#xff1f; 】面试题&#xff0c;希望对大家有帮助&#xff1b; 说说memcached 和 MySQL 的 query cache 相比&#xff0c;有什么优缺点&#xff1f; 把 mem…

C语言典型例题45

《C程序设计教程&#xff08;第四版&#xff09;——谭浩强》 习题3.5 给一个不多于5位的正整数&#xff0c;要求&#xff1a; 1.求出它是几位数&#xff1b; 2.分别输出每一位数字&#xff1b; 3.按逆序输出各位数字&#xff0c;例如&#xff1…

修改了原神4.8版本升级数据表

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>原神4.8版本升级数据表</title> </head&…