【Python机器学习】自动化特征选择—

【Python机器学习】自动化特征选择——基于模型的特征选择

news2026/2/13 16:22:16

基于模型的特征选择使用一个监督机器学习模型来判断每个特征的重要性，并且仅保留最重要的特征。用于特征学习的监督模型不需要与用于最终建模的模型相同。特征选择模型需要为每个特征提供某种重要性度量，以便用这个度量对特征进行排序。决策树和基于决策树的模型提供了feature_importances_属性，可以直接编码每个特征的重要性。线性模型系数的绝对值也可以用于表示特征的重要性。之前学到过，L1惩罚的线性模型学到的是稀疏系数，它只用到了特征的一个很小的子集。这可以被视为模型本身的一种特征选择形式，但也可以用作另一个模型选择特征的预处理步骤。

与单变量选择不同，基于模型的选择同时考虑所有特征，因此可以获取交互项（如果模型能获取他们的话），想要使用基于模型的特征选择，需要使用SelectFromModel变换器：

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

select=SelectFromModel(
    RandomForestClassifier(n_estimators=100,random_state=42),threshold='median'
)

SelectFromModel类选出重要性度量（由监督模型提供）大于给定阈值的所有特征。为了得到可以与单变量特征选择进行对比的结果，我们使用中位数作为阈值，这样就可以选择一半特征。我们用包含100颗树的随机森林分类器来计算特征重要性。这是一个相当复杂的模型，也比单变量测试要强大得多。下面，实际拟合模型：


select.fit(X_train,y_train)
X_train_l1=select.transform(X_train)
print('训练集shape：{}'.format(X_train.shape))
print('训练集l1_shape：{}'.format(X_train_l1.shape))

可视化展示：

mask=select.get_support()
plt.matshow(mask.reshape(1,-1),cmap='gray_r')
plt.xlabel('Sample index')
plt.show()

这次，除了两个原始特征，其他原始特征都被选中。由于我们指定了40个特征，所以也选择了一些噪声特征。

来看一下性能：

从结果上看，利用更好的特征选择，性能也得到了提高。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1869102.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【Python机器学习】自动化特征选择——基于模型的特征选择

相关文章

Potato（土豆）一款轻量级的开源文本标注工具

互联网寒冬VS基建饱和：计算机专业会重蹈土木工程的覆辙吗？

LAMP架构的源码编译环境下部署Discuz论坛

AMEYA360代理：村田电子使用小型振动传感器件，实现设备状态预知检测

ABAP编程中的参数传递：使用EXPORT/IMPORT与SPA/GPA参数

重生之我要学后端0--HTTP协议和RESTful APIs

Jmeter,badboy学习

500多个专业怎么选择，高考填报志愿为什么难？

GPT-5对普通人有何影响

全局mixins

9 个让 Python 性能更高的小技巧，你掌握了吗？

【日常记录】【JS】SSE 流式传输 ChatGPT 的网络传输模式

家用洗地机十大品牌什么牌子好用？2024十大爆款洗地机分享

头歌——机器学习——决策树案例

T80005编码器操作说明书：高清HDMI,高清SDI编码器

Grafana+Prometheus构建强大的监控系统-保姆级教程[监控linux、oracle]

240627_昇思学习打卡-Day9-ResNet50图像分类

什么是div移动指令？如何用vue自定义指令实现？

swiper轮播 loop:true失效解决

1982Springboot宠物美容院管理系统idea开发mysql数据库web结构java编程计算机网页源码maven项目