一文讲透Python机器学习特征选择之互信息法

news2026/2/14 14:01:40

1.互信息法的基本思想

互信息（Mutual Information，MI）的基本思想是计算每个特征变量与目标变量之间的互信息统计量，互信息统计量衡量变量之间的依赖关系。两个随机变量之间的互信息统计量肯定是非负值，当且仅当两个随机变量相互独立时，互信息统计量等于零。互信息统计量值越大意味着相关性越强。

具体来说，互信息量度的是特征变量X和响应变量y共享的信息，或者说知道这两个变量其中的一个，对另一个不确定度减少的程度。因此，如果特征变量X和响应变量y相互独立，则知道特征变量X将不对响应变量y提供任何信息，反之亦然，此时特征变量X和响应变量y的互信息为零。而如果特征变量X是响应变量y的确定性函数，响应变量y也是特征变量X的确定性函数，比如y=aX+B，那么此时传递的所有信息都被特征变量X和响应变量y共享，或者说知道特征变量X将可以完全预测响应变量y，则此时特征变量X和响应变量y的互信息为最大。

2.互信息法的Python代码

在Python实现方面，当响应变量为离散型变量时，为分类问题，应使用feature_selection.mutual_info_classif（互信息分类）；当响应变量为连续型变量时，为回归问题，应使用feature_selection.mutual_info_regression（互信息回归）。

在使用feature_selection.mutual_info_classif或feature_selection.mutual_info_regression时，会返回互信息统计量值；其中特征变量的互信息统计量值越大，就越倾向于选择该特征变量。

3.互信息法的Python示例

互信息法的Python示例如下：

运行结果为：array([0.022, 0. , 0.205, 0.027, 0.034, 0.146, 0.076, 0.008])。其中array数组为各个特征变量的互信息统计量值，可以发现第3个、第6个、第7个特征变量的互信息统计量值是最大的。

我们可以用SelectKBest()挑选互信息统计量值最大的前N个变量：

运行结果为：Index(['age', 'education', 'workyears', 'resideyears', 'income', 'debtratio', 'creditdebt', 'otherdebt'],dtype='object')。可以发现第3个、第6个、第7个特征变量分别为workyears、debtratio、creditdebt。

运行结果如图所示。

上述内容节选自《Python数据科学应用从入门到精通》（张甜杨维忠著 2023年11月新书清华大学出版社）

4.机器学习入门书目推荐

针对数据分析或机器学习推荐两本入门级的图书：《Python机器学习原理与算法实现》（杨维忠 张甜著 2023年2月新书清华大学出版社）《Python数据科学应用从入门到精通》（张甜杨维忠著 2023年11月新书清华大学出版社）。这两本书的特色是在数据分析、机器学习各种算法的介绍方面通俗易懂，较少涉及数学推导，对数学基础要求相对不高，在python代码方面讲的很细致，看了以后根据自身需要选取算法、优化代码、科学调参。都有配套免费提供的源代码、数据文件和视频讲解，也有PPT、思维导图、习题等。

（1）《Python机器学习原理与算法实现》（杨维忠张甜著 2023年2月新书清华大学出版社）

为什么说这两本书值得？首先说《Python机器学习原理与算法实现》（杨维忠张甜著 2023年2月新书清华大学出版社），内容非常详实，包含了Python和机器学习，相当于一次获得了两本书。在讲解各类机器学习算法时，逐一详解用到的各种Python代码，针对每行代码均有恰当注释（这一点基本上是大多数书目做不到的）。恒丰银行总行副行长郑现中，山东大学经济学院教学实验中心主任副教授韩振，德勤华永会计师事务所华文伟合伙人，首创证券深圳分公司机构业务部樊磊总经理中国准精算师，山东省农村信用社联合社数据管理项目组郝路安总监等一众大牛联袂推荐。这本书在出版之前曾开发成9次系列课程，在恒丰银行全行范围类开展培训，490人跟随杨维忠老师上课学习（课程限报490人），培训完成后课程在知鸟平台上回放超过3万人次。很多银行员工通过这些学习一下子就学会了Python，并且用于工作中开展数据分析、机器学习、数据可视化等，这本书也被多家商业银行选做数字化人才培训教材，成为银行员工的一本网红书。

（2）《Python数据科学应用从入门到精通》（张甜杨维忠著 2023年11月新书清华大学出版社）

《Python数据科学应用从入门到精通》一书，旨在教会读者实现全流程的数据分析，并且相对《Python机器学习原理与算法实现》一书增加了很多概念性、科普性的内容，进一步降低了学习难度。国务院发展研究中心创新发展研究部第二研究室主任杨超，山东大学经济学院金融系党支部书记、副主任、副教授、硕士生导师张博，山东管理学院信息工程学院院长袁锋教授、硕士生导师，山东大学经济学院刘一鸣副研究员、硕士生导师，得厚投资合伙人张伟民等一众大牛联袂推荐。书中全是干活，买这一本书相当于一下子得到了5本书（Python基础、数据清洗、特征工程、数据可视化、数据挖掘与建模），而且入门超级简单，不需要编程基础，也不需要过多数学推导，非常适用于零基础学生。全书内容共分13章。其中第1章为数据科学应用概述，第2章讲解Python的入门基础知识，第3章讲解数据清洗。第4~6章介绍特征工程，包括特征选择、特征处理、特征提取。第7章介绍数据可视化。第8~13章介绍6种数据挖掘与建模方法，分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。从数据科学应用和Python的入门，再到数据清洗与特征工程，最终完成数据挖掘与建模或数据可视化，从而可以为读者提供“从拿到数据开始，一直到构建形成最终模型或可视化报告成果”的一站式、全流程指导。

两本书随书赠送的学习资料也很多，包括全部的源代码、PPT、思维导图，还有10小时以上的讲解视频，每一章后面还有练习题及参考答案，还有学习群，相对于只看网络上的视频，一方面更加系统、高效，另一方面照着书一步步操作学起来也事半功倍。全网热销中，当当、京东等平台搜索“Python机器学习杨维忠”“Python数据科学杨维忠”即可。

《Python机器学习原理与算法实现》（杨维忠、张甜著，2023年2月，清华大学出版社），适用于学习Python/机器学习