【机器学习西瓜书学习笔记——特征选择与稀疏学习】

news2025/1/12 6:19:45

机器学习西瓜书学习笔记【第十一章】

  • 第十一章 特征选择与稀疏学习
    • 11.1子集搜索与评价
      • 特征
      • 特征选择
      • 为什么要特征选择
      • 如何进行特征选择
        • 子集搜索
        • 子集评价
    • 11.2过滤式选择
      • Relief
        • 适用场景
        • 如何确定相关统计量
    • 11.3包裹式选择
      • 优缺点
    • 11.4嵌入式选择与L1正则化
        • L1/L2正则化
        • L1正则化问题的求解——近端梯度下降
    • 11.5稀疏表示与字典学习
      • 稀疏性
      • 字典学习
    • 11.6压缩感知
      • 采样定理
      • 关注点

第十一章 特征选择与稀疏学习

11.1子集搜索与评价

特征

将样本属性称为“特征”。

  • 相关特征:对当前学习任务有关的属性
  • 无关特征:对当前学习任务无关的属性
  • 冗余特征:所包含的信息能从其他特征中推演出来。

特征选择

从给定的特征集合中选择出相关特征子集,是一种数据预处理

为什么要特征选择

  • 减轻维数灾难问题(与降维的原因相同)。
  • 去除不相关特征往往会降低学习任务的难度。

如何进行特征选择

我们不能直接用排列组合进行遍历所有可能子集,这样会遭遇组合爆炸。所以我们选择产生一个“候选特征子集”,评价它的好坏,然后根据评价结果产生下一个候选特征子集,再进行评价,持续进行直到无法找到一个更好的子集为止。

怎么进行特征选择就转成了以下问题:如何根据评价结果生成下一个候选特征子集?

子集搜索
  • 前向搜索:初始将每个特征当做一个候选特征子集,然后从当前所有的候选子集中选择出最佳的特征子集;接着在上一轮选出的特征子集中添加一个新的特征,同样地选出最佳特征子集;最后直至选不出比上一轮更好的特征子集。
  • 后向搜索:从完整的特征集合开始,每次尝试去掉一个无关特征。
  • 双向搜索:前向后向结合,每一轮逐渐增加选定相关特征,同时减少无关特征(前面增加的特征不会被去除)。
    • 优点:思路简单,速度快,不用全部情况都遍历一遍。
    • 缺点:使用贪心算法,不从总体上考虑其它可能情况,每次选取局部最优解,不再进行回溯处理,结果不一定是最好的。
子集评价
  • 信息增益Gain(A)越大,特征子集A包含的有助于分类的信息越多。对每个候选特征子集,可基于训练数据集D来计算其信息增益,以此作为评价准则。信息熵也是同理,只要能判断两个划分差异的机制都能用于特征子集评价。

将特征子集搜索机制和子集评价机制相结合,即可得到特征选择方法。常见的特征选择方法大致可分为三类:过滤式、包裹式和嵌入式。

11.2过滤式选择

先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。特征选择在这里的作用相当于过滤

Relief

①相关统计量——>度量特征的重要性。

②该统计量是一个向量,其每个分量分别对应一个初始特征(分量值越大,对应属性的分类能力越强)。

③特征子集的重要性则是由子集每个特征所对应的相关统计量分量之和决定的。

  • 最终可以通过指定一个阈值t,然后选择比t大的相关统计量分量对应的特征即可

  • 也可以指定选取特征的个数k,然后选择相关统计量分量最大的k个特征。

适用场景

适用于二分类问题

如何确定相关统计量
  • 对于猜中近邻,两者 j j j属性的距离越小越好,对于猜错近邻, j j j属性距离越大越好。分别计算每个分量,最终取平均便得到了整个相关统计量,分量值越大,对于属性的分类能力越强(越是相关特征)。

  • Relief只需在数据集的采样上而不必在整个数据集上估计相关统计量,Relief的时间开销随采样次数及原始特征数线性增长,因此是一个运行效率很高的过滤式特征选择法.

11.3包裹式选择

包裹式从初始特征集合中不断的选择特征子集,训练学习器,根据学习器的性能来对子集进行评价,直到选择出最佳的子集。

典型的包裹式特征选择方法—— L V W LVW LVW

优缺点

  • 优点:从最终学习器的性能来看,包裹式比过滤式更好;

  • 缺点:由于特征选择过程中需要多次训练学习器,因此包裹式特征选择的计算开销通常比过滤式特征选择要大得多。

11.4嵌入式选择与L1正则化

将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动进行了特征选择。

L1/L2正则化

L 1 L1 L1 L 2 L2 L2正则化都有助于降低过拟合风险,但 L 1 L1 L1还会带来一个额外的好处:它比 L 2 L2 L2更易于获得 “稀疏”解,即求得的 w w w会有更少的非零分量(即抹除了更多的特征属性)。

img

初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,于是求解L1范数正则化的结果是得到了仅采用一部分初始特征的模型,即基于L1正则化的学习方法就是一种嵌入式特征选择方法。

总的来说:

  • L1范数会趋向产生少量的特征,其他特征的权值都是0;
  • L2会选择更多的特征,这些特征的权值都会接近于0。
L1正则化问题的求解——近端梯度下降

其核心思想是:利用泰勒展开将目标函数的求解问题,变为一个二次函数的求解问题

11.5稀疏表示与字典学习

稀疏性

  • 特征选择所考虑的问题是特征具有“稀疏性”。

  • 样本稀疏表达。

字典学习

目的:为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式(稀疏编码),从而简化学习任务,降低模型复杂度。

11.6压缩感知

采样定理

要从抽样信号中无失真地恢复原信号,抽样频率应大于2倍信号最高频率,即 f s > 2 ∗ f N f_s>2*f_N fs>2fN

  • 抽样频率小于2倍频谱最高频率时,信号的频谱有混叠。

  • 抽样频率大于2倍频谱最高频率时,信号的频谱无混叠。

关注点

如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号,通常压缩感知分为:

  • 感知测量(关注如何对原始信号进行处理以获得稀疏样本表示)
  • 重构恢复(关注的是如何基于稀疏性从少量观测中恢复原信号,通常压缩感知指的是这部分)两个阶段。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1994351.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【微信小程序开发】——奶茶点餐小程序的制作(一)

👨‍💻个人主页:开发者-曼亿点 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 曼亿点 原创 👨‍💻 收录于专栏&#xff1a…

Nginx+Tomcat负载均衡、动静分离群集(群集)

实验主机:101 102 103 101:nginx 102:tomcat1 103:tomcat2 先配置两个tomcat服务器 拉进去所需的安装包; 同步会话开始搭建; 安装编译环境; 解压并移动到方便管理的地方; 然后在root的家目录下创建一个目录及测试…

Google安装JSON-handle扩展

JSON-hande下载地址: JSON-Handle 官网 - 打开json格式文件的浏览编辑器 1. 重命名扩展文件(crx)后缀 为 zip。 2. 解压zip成文件夹,保存到指定目录。 3. Google浏览器地址栏输入 “chrome://extensions/”回车。然后开启 开发者模式。 4. 点击“加载…

疯狂Java讲义_08_泛型

文章目录 泛型的传参若函数里的参数使用基类接受所有的派生类,怎么做? 类型通配符的上限类型通配符的下限 泛型的传参 注意 若类 Base 是类 Derived 的基类(父类),那么数组类型 Base[] 是 Derived[] 的基类&#xff0…

【编码解码神器】CyberChef v10.18.9

# 简介 CyberChef 是一个在线编码解码工具,包含了四百多种在线编解码工具,它提供了一种简单易用的方式来对数据进行各种加密、解密、编码和解码操作。你可以把它想象成一个多功能的”数字厨房”,在这里,你可以用各种”烹饪”方法…

无人机与自主系统

无人机(Unmanned Aerial Vehicle, UAV)和自主系统正在迅速改变许多行业,从农业到物流,再到军事领域。无人机作为一种能够自主或半自主飞行的飞行器,结合自主系统的技术,具备了更高的灵活性和执行复杂任务的…

牛羊肉巨头的数字化战略:凯宇星辉如何领先市场

凯宇星辉的创业成长史,给出了中国牛羊肉企业如何从散户走向集团化经营的路线图。 总部位于大连的凯宇星辉,在牛羊肉进口贸易领域白手起家,十余年时间,已形成以澳新、南美、北美等全球三大牛羊肉主产区为主渠道的全球直采网络布局…

【linux|001】Unix和Linux的关系 及 它们的发展历史

🍁博主简介: 🏅云计算领域优质创作者 🏅2022年CSDN新星计划python赛道第一名 🏅2022年CSDN原力计划优质作者 ​ 🏅阿里云ACE认证高级工程师 ​ 🏅阿里云开发者社区专家博主 💊交流社…

巴黎奥运会上,墨水屏标签能怎么玩?

截至8月7日,中国代表团在2024巴黎奥运会上已经斩获了22金21银16铜,合计59枚奖牌,位居奖牌第二。在为奥运健儿欢呼喝彩的同时,我们也注意到巴黎奥运会在环保方面的创新,并探讨如何应用墨水屏标签这一智慧显示技术&#…

[转]通俗易懂的LLM(上篇)

前言 2022年年底OpenAI发布ChatGPT,将LLM(Large Language Model)带向了一个新的高度,而2023年OpenAI继续放出大招:更强大的GPT-4问世,瞬间引爆了整个互联网圈。在这个大模型时代,作为一名NLPer&…

什么是oled?

LED 是有机发光二极管(Organic Light-Emitting Diode)的缩写,是一种先进的显示技术。与传统的液晶显示技术(LCD)不同,OLED 显示器不需要背光模块,因为每个像素本身可以发光。 OLED 的基本原理和…

文档控件DevExpress Office File API v24.1 - 支持基于Unix系统的打印

DevExpress Office File API是一个专为C#, VB.NET 和 ASP.NET等开发人员提供的非可视化.NET库。有了这个库,不用安装Microsoft Office,就可以完全自动处理Excel、Word等文档。开发人员使用一个非常易于操作的API就可以生成XLS, XLSx, DOC, DOCx, RTF, CS…

Java实战二 添加lombok使用@Data,编写第一个接口-用户注册并使用postman测试

添加lombok依赖 使用Data注解,省略写getter和setter 创建返回结果Result类 创建三层结构UserController类UserService接口UserServiceImpl实现类UserMapper接口 UserController编写注册接口register UserService定义方法 UserServiceImpl实现方法 UserMapper中编写s…

一款免费、简单、快速的JS打印插件,web 打印组件,基于JavaScript开发,支持数据分组,快速分页批量预览,打印,转pdf,移动端,PC端

前言 在数字化办公时代,打印需求呈现多样化和复杂化的趋势。现有的打印软件往往存在cao作繁琐、兼容性差、功能单一等问题,难以满足现代企业高效、灵活的打印需求。 为了解决这些痛点,一款简单、高效、多功能的打印插件成为了迫切需求。 介…

《MySQL数据库》数据导入、导出、表处理—/—<4>

一、插入数据 1、可使用外部工具navicat导入数据的情况下 因为部分公司不允许使用外部工具去导入数据 对于大批量数据,除了上节课中使用导入向导插入数据,也可在vscode中打开csv文件,然后选中光标,长按shiftctrl,拖动…

基于springboot的小微企业融资征信平台系统的设计与实现-计算机毕业设计源码99083

摘 要 本文详细阐述了一个基于Spring Boot框架的小微企业融资征信平台系统的设计与实现过程。该系统旨在为小微企业、金融机构以及征信机构提供一个高效、安全的融资征信交流平台。系统支持企业用户的登录注册、首页浏览、交流论坛参与、通知公告查看、新闻资讯阅读以及个人账户…

点亮童梦思考之光,神秘伙伴震撼登场!

本文由 ChatMoney团队出品 介绍说明 咱们来聊聊“十万个为什么”机器人,这对小朋友来说,好处可多了去啦! 小朋友们天生好奇,满脑子都是问号。 这个机器人就像个啥都懂的知识达人,不管他们问啥,都能给出答…

数据加密-AES数据加密WPF程序

AES&#xff08;Advanced Encryption Standard&#xff09;是一种广泛使用的对称密钥加密算法&#xff0c;由美国国家标准与技术研究院&#xff08;NIST&#xff09;于2001年发布。AES以其高效、安全的特点&#xff0c;在数据加密领域占据了重要地位。 <Grid><Grid.Ro…

定期检查m000是否消耗pga

偶然发现一个库的m000占用pga较高&#xff0c;导致ora-4036问题 sho parameter ga 看看当前参数 好像是bug 需要定期检查 select to_char(sysdate,yyyy-mm-dd hh24:mi:ss)riqi from dual;select round(sum(PGA_ALLOC_MEM)/1024/1024,2) "Total PGA Allocated (Mb)&q…

数据可视化(医疗数据)

目 录 第1章 绪 论 1 1.1 课题背景及研究目的 1.2 课题研究内容 第2章 课题概要及关键技术 2.1 课题概要 2.2 数据说明 2.3 关键技术 第3章 数据分析 3.1 数据统计分析 3.2 可视化分析 第4章 数据建模 4.1 数据预处理 4.2 模型构建 第5章 模型评估与应用 5.1 模型…