推荐这款机器学习的特征筛选神器!

news2025/1/15 23:33:06

大家好,特征选择是机器学习建模流程中最重要的步骤之一,特征选择的好坏直接决定着模型效果的上限,好的特征组合甚至比模型算法更重要。除了模型效果外,特征选择还有以下几点好处:

  • 提高模型性能并降低复杂性(维数爆炸)

  • 减少训练时间

  • 由于无信息和冗余特征而降低了过度拟合的风险

  • 简化的部署流程和实时数据管道,这是一个经常被低估的优势

本次给大家介绍一个小众的、可完全自动化的特征选择工具:AutoFeatSelect,使用它可以让繁琐的筛选过程变得非常轻松。

技术交流

技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

本文由粉丝群小伙伴总结与分享,如果你也想学习交流,资料获取,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、添加微信号:dkl88194,备注:来自CSDN + 加群
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

AutoFeatSelect介绍

AutoFeatSelect可以自动执行各种特征筛选步骤,比如计算相关性、消除高度相关的特征以及应用多种特征选择方法,并生成对应的筛选结果。该库自动化并简化了以下特征选择方法的实现:

  • 数值型特征、分类型特征的相关性分析

  • 使用 LightGBM、XGBoost、随机森林进行特征重要性分析

  • LassoCV 系数分析

  • permutation排列重要性

  • 通过交叉验证进行递归特征消除

  • Boruta

GitHub连接:https://github.com/dorukcanga/AutoFeatSelect

实战案例

下面我们直接通过一个实战案例来说明如何使用autofeatselect

首先pip安装包,然后导入。

pip install autofeatselect
import pandas as pd
import numpy as np

from autofeatselect import CorrelationCalculator, FeatureSelector, AutoFeatureSelect

01 数据准备

数据:https://www.kaggle.com/competitions/porto-seguro-safe-driver-prediction/data

# 准备数据
df = pd.read_csv("train.csv")
df.drop('id', axis=1, inplace=True)

# 设置数字和分类特征以进行进一步分析
response = 'target'
cat_feats = [c for c in df.columns if '_cat' in c]
bin_feats = [c for c in df.columns if '_bin' in c]
cat_feats = cat_feats + bin_feats
num_feats = [c for c in df.columns if c not in cat_feats+[response]]

df[num_feats] = df[num_feats].astype('float')
df[cat_feats] = df[cat_feats].astype('object')

df.replace(-1, np.nan, inplace=True)

# 切分训练和测试集
X_train, X_test, y_train, y_test = train_test_split(df[num_feats+cat_feats],
                                                    df[response],
                                                    test_size=0.2,
                                                    random_state=42)

autofeatselect有两种使用方法。

第一种是属于半自动的特征筛选,分步式地控制筛选方法和顺序。第二种是全自动化特征筛选,直接通过一个api函数配置参数即可完成整个筛选过程。

02 方法一:半自动方法

考虑到相关特征会对特征重要性和选择结果产生负面影响,因此必须首先删除高度相关的特征。可以使用CorrelationCalculator类的numeric_correlationscategorical_correlations方法检测。

# 静态特征即使与其他特征相关也不会被删除
static_features = ['ps_ind_01', 'ps_ind_03','ps_ind_14']

# 检测相关特征
corr_df_num, num_remove_list = CorrelationCalculator.numeric_correlations(X_train,
                                                                          features=num_feats,
                                                                          static_features=static_features,
                                                                          threshold=0.9)

corr_df_cat, cat_remove_list = CorrelationCalculator.categorical_correlations(X_train,
                                                                              features=cat_feats,
                                                                              static_features=None,
                                                                              threshold=0.9)

#Remove correlated features
num_feats = [c for c in num_feats if c not in num_remove_list]
cat_feats = [c for c in cat_feats if c not in cat_remove_list]

从初始特征集中删除相关特征后,然后再使用FeatureSelector类计算 LightGBM 特征重要性分数:

# 创建特征选择器对象
feat_selector = FeatureSelector(modeling_type='classification',
                                X_train=X_train, y_train=y_train,
                                X_test=X_test, y_test=y_test,
                                numeric_columns=num_feats,
                                categorical_columns=cat_feats,
                                seed=24)

# 超参数和目标函数LightGBM 的值是可以改变的
lgbm_importance_df = feat_selector.lgbm_importance(hyperparam_dict=None,
                                                   objective=None,
                                                   return_plot=True)

生成的特征重要性图:

图片

当然,这里方法不唯一,也可以通过feat_selector来使用更多的选择方法。特征重要性筛选后再来应用递归特征消除

# 用LightGBM作为估计器的RFECV特征排名
# LightGBM 和 RFECV 的 yper 参数都可以更改
rfecv_importance_df = feat_selector.rfecv_importance(lgbm_hyperparams=None,
                                                     rfecv_hyperparams=None,
                                                     return_plot=False)

方法 2:全自动方法

全自动方法的整个过程可以使用AutoFeatureSelect,它实现了一键自动筛选的效果,只需配置参数即可,而不像半自动需要逐一删除相关特征再应用特征选择方法等分步操作,全自动提供了更高效、更全面的方法来处理特征选择。

# 创建AutoFeatureSelect类
feat_selector = AutoFeatureSelect(modeling_type='classification',
                                  X_train=X_train,
                                  y_train=y_train,
                                  X_test=X_test,
                                  y_test=y_test,
                                  numeric_columns=num_feats,
                                  categorical_columns=cat_feats,
                                  seed=24)

# 检测相关特征
corr_features = feat_selector.calculate_correlated_features(static_features=None,
                                                            num_threshold=0.9,
                                                            cat_threshold=0.9)
# 删除相关特征
feat_selector.drop_correlated_features()

# 确定要应用的选择方法
# 所有方法的超参数都可以更改
selection_methods = ['lgbm', 'xgb', 'rf','perimp', 'rfecv', 'boruta']
final_importance_df = feat_selector.apply_feature_selection(selection_methods=selection_methods,
                                                            lgbm_hyperparams=None,
                                                            xgb_hyperparams=None,
                                                            rf_hyperparams=None,
                                                            lassocv_hyperparams=None,
                                                            perimp_hyperparams=None,
                                                            rfecv_hyperparams=None,
                                                            boruta_hyperparams=None)

# 打印结果
final_importance_df.head()

可以看到,只需几行代码就可以应用多种特征选择方法。然后会得到所有特征选择方法对所有特征的计算结果。

图片

基于这个结果,我们就可以通过自己的阈值标准对特征进行子集的组合条件筛选,得到最终的筛选特征了。

结论

autofeatselect如名字一样,初衷就是为了简化并高效完成特征选择的过程,它提供了半自动和全自动两种方法,可以根据自己的习惯和需求进行灵活使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1197741.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring Cloud学习(六)【统一网关 Gateway】

文章目录 网关的功能搭建网关服务路由断言工厂Route Predicate Factory路由过滤器 GatewayFilter过滤器执行顺序跨域问题处理 网关的功能 网关功能: 身份认证和权限校验服务路由、负载均衡请求限流 在SpringCloud中网关的实现包括两种: gatewayzuul …

到底是什么是Python?语言的核心是什么?

文章目录 前言一、为什么提出python编程的核心是什么?二、Python需要REPL?三、Python的哪些部分需要被视为“Python”?四、需要多少兼容性才能有用?Python技术资源分享1、Python所有方向的学习路线2、学习软件3、精品书籍4、入门学…

计算机网络技术

深入浅出计算机网络 微课视频_哔哩哔哩_bilibili 第一章概述 1.1 信息时代的计算机网络 1. 计算机网络各类应用 2. 计算机网络带来的负面问题 3. 我国互联网发展情况 1.2 因特网概述 1. 网络、互连网(互联网)与因特网的区别与关系 如图所示&#xff0…

Windows11跳过联网激活 跳过登陆操作

1 背景 笔者使用VirtualBox时安装Win11,初始化的配置提示需要注册账户才能进行下一步操作,于是去查了一下发现有办法绕过,方法就是断网oobe\ByPassNRO.cmd,试了一下发现可以,便有了这篇文章。 2 流程 开机之前&…

【星海随笔】SDN neutron (二) Neutron-plugin(ML2)

Neutron架构之Neutron-plugin Core-plugin(ML2)篇 Neutron-server接收两种请求: REST API请求:接收REST API请求,并将REST API分发到对应的Plugin(L3RouterPlugin)。 RPC请求:接收Plugin agent请求&#…

QT 布局管理综合实例

通过一个实例基本布局管理,演示QHBoxLayout类、QVBoxLayout类及QGridLayout类效果 本实例共用到四个布局管理器,分别是 LeftLayout、RightLayout、BottomLayout和MainLayout。 在源文件“dialog.cpp”具体代码如下: 运行效果: Se…

【Spring】SpringBoot日志

SpringBoot日志 日志概述日志使用打印日志获取日志对象使用日志对象打印日志日志框架介绍门面模式SLF4J框架介绍(simple logging facade for java) 日志格式说明日志级别日志级别的分类日志级别的使用 日志配置配置日志级别日志持久化配置日志文件的路径和文件名配置日志文件的…

centos7安装linux版本的mysql

1.下载linux版本的mysql 进入mysql官网,点击社区版本下载: https://dev.mysql.com/downloads/mysql/ 选择版本,可以跟着我下面这个图进行选择,选择红帽版本的既可,都是linux版本的。 2.上传解压linux版本的mysql安装包…

C++初阶--类与对象(3)(图解)

文章目录 再谈构造函数初始化列表隐式类型转换explicit关键字 static成员友元类内部类匿名对象拷贝函数时的一些优化 再谈构造函数 在我们之前的构造函数中,编译器会通过构造函数,对对象中各个成员给出一个适合的初始值,但这并不能称之为初始…

思维模型 超限效应

本系列文章 主要是 分享 思维模型,涉及各个领域,重在提升认知。物极必反。 1 超限效应的应用 1.1 教育中的超限效应 一位老师在课堂上批评了一位学生,这位学生可能会因为老师的批评而感到沮丧和失落。如果老师在接下来的课程中继续批评这位…

数据结构与算法—搞懂队列

csdn专栏:数据结构与算法 前言 栈和队列是一对紧密相关的数据结构。之前已经介绍过栈(它遵循后进先出的原则),栈的机制相对简单,就像你进入一个狭窄的山洞,山洞只有一个出入口,因此你只能按照后…

【原创分享】Mentor PADS将PCB封装直接添加到PCB的教程

一般,批量添加封装到PCB板上有以下方法: 第一步:点击菜单栏“ECO模式--添加元器件”如图,点击以后弹出如图界面。 1)元件类型 PCB封装必须得添加完元件类型,才能通过ECO模式添加到PCB界面里面&#xff0c…

[Linux打怪升级之路]-信号的保存和递达

前言 作者:小蜗牛向前冲 名言:我可以接受失败,但我不能接受放弃 如果觉的博主的文章还不错的话,还请点赞,收藏,关注👀支持博主。如果发现有问题的地方欢迎❀大家在评论区指正 目录 一、信号的保…

红黑树-RBTree

目录 1. 红黑树的概念2. 红黑树的性质3. 结点的定义4. 结点的插入5. 整体代码 1. 红黑树的概念 红黑树,是一种二叉搜索树,但在每个结点上增加一个存储位表示结点的颜色,可以是Red或Black。 通过对任何一条从根到叶子的路径上各个结点着色方式…

基于51单片机RFID射频门禁刷卡系统设计

**单片机设计介绍, 基于51单片机RFID射频门禁刷卡系统设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序程序 六、 文章目录 一 概要 基于51单片机RFID射频门禁刷卡系统,是一种将单片机技术和射频标识技术应用于门禁控制系统的…

34 Feign最佳实践

2.4.2.抽取方式 将Feign的Client抽取为独立模块,并且把接口有关的POJO、默认的Feign配置都放到这个模块中,提供给所有消费者使用。 例如,将UserClient、User、Feign的默认配置都抽取到一个feign-api包中,所有微服务引用该依赖包…

一篇文章真正讲懂模型评估指标(准确率,召回率,精确率,roc曲线,AUC值)

背景: 最近在做一些数据分析的比赛的时候遇到了一些头疼的问题,就是我们如何评估一个模型的好坏呢? 准确率,召回率,精确率,roc曲线,roc值等等,但是模型评估的时候用哪个指标呢&…

[工业自动化-12]:西门子S7-15xxx编程 - PLC从站 - ET200 SP系列详解

目录 一、概述 1.1 概述 二、系统组成 2.1 概述 2.2 与主站的通信接口模块 2.3 总线适配器 2.4 基座单元 2.5 电子模块 2.6 服务器模块 一、概述 1.1 概述 PLC ET200 SP 是西门子(Siemens)公司生产的一款模块化可编程逻辑控制器(PL…

初探SVG

SVG,可缩放矢量图形(Scalable Vector Graphics)。使用XML格式定义图像。SVG有以下优点:1)可被非常多的工具读取和修改;2)比JPEG和GIF尺寸更小,可压缩性更强;3&#xff09…

科力雷达Lidar使用指南

科力2D Lidar使用指南 作者: Herman Ye Galbot Auromix 版本: V1.0 测试环境: Ubuntu20.04(x86) PC 以及 Ubuntu20.04(Arm) Nvidia Orin 更新日期: 2023/11/11 注1: 本文内容中的硬件由 Galbot 提供支持。 注2&#x…