机器学习 | 特征选择如何减少过拟合？

news2026/2/12 23:25:27

在快速发展的机器学习领域，精确模型的开发对于预测性能至关重要。过度拟合的可能性，即模型除了数据中的潜在模式外，还拾取训练集特有的噪声和振荡，这是一个固有的问题。特征选择作为一种有效的抗过拟合武器，为提高模型的效率和通用性提供了一种途径。

过拟合是如何发生的？

过拟合（Overfitting）是机器学习中的一个重要概念，它通常发生在模型训练的过程中。过拟合描述的是模型在训练数据上表现过于优秀，以至于对训练数据中的噪声或异常值也进行了学习，导致模型在未知数据或测试数据上的泛化能力较差。此外，如果模型与训练集中的观测数量相比具有太多的参数，则模型可能能够记住训练数据，而不是理解底层模式。

什么是特征选择？

特征选择（Feature Selection）是一种数据预处理技术，旨在从原始的特征集中选择出最有效、最具代表性的特征子集，以便提高学习算法的性能和降低计算开销。特征选择的过程主要包括产生特征子集、评价特征子集、确定停止准则以及验证所选特征子集的有效性。

特征选择如何减少过拟合？

特征选择可以通过简化模型和关注最相关的特征来减少过拟合。

具体来说，特征选择减少过拟合的方式主要有以下几点：

减少噪声和冗余特征：通过特征选择，我们可以去除那些与目标变量不相关或者相关性很弱的特征，这些特征往往包含噪声或冗余信息，如果将其纳入模型，可能会导致模型过于复杂，增加过拟合的风险。
降低模型复杂度：减少特征数量实际上也相当于降低了模型的复杂度。在模型复杂度过高时，模型可能过于关注训练数据中的细节和噪声，导致过拟合。通过特征选择，我们可以使模型更加简洁，减少其拟合噪声的能力，从而降低过拟合的可能性。
提高模型的可解释性：通过特征选择，我们可以保留那些对预测结果有重要影响的特征，使得模型更加易于理解和解释。这不仅有助于我们更好地理解数据的内在规律，也有助于我们发现和纠正可能导致过拟合的问题。
加速模型训练：减少特征数量还可以加速模型的训练过程。在特征数量较多时，模型的训练时间可能会很长，而且容易陷入局部最优解。通过特征选择，我们可以缩短训练时间，同时提高模型的稳定性和泛化能力。

需要注意的是，虽然特征选择可以降低过拟合的风险，但也不能过度简化模型。如果去除的特征过多，可能会导致模型欠拟合，即模型无法充分学习数据的内在规律，从而在测试数据上的性能较差。因此，在进行特征选择时，需要根据具体问题和数据集的特点进行权衡和选择。

具体实践案例

导入相关库

import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, SelectPercentile, RFE, SelectFromModel
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

加载数据集

# Load the iris dataset
iris = load_iris()
X, y = iris.data, iris.target
 
# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

1. 特征选择的相关性

使用相关性是识别数据集中特征之间关系的常用技术。它有助于理解哪些功能是密切相关的，并且可能是冗余的。以下是如何使用相关性：

计算相关矩阵：计算数据集的相关矩阵。该矩阵显示了每对特征之间的相关系数。
可视化相关矩阵：创建相关矩阵的热图，以可视化特征之间的关系。较高的相关系数（接近1或-1）表示关系较强。
确定重要特征：寻找与目标变量（如果是监督学习问题）或其他特征高度相关的特征。与目标高度相关的特征通常是良好的预测器，而与其他特征高度相关的特征可能是冗余的。
选择特征：根据相关性矩阵，您可以决定保留、删除或进一步调查某些特征。特征之间的高相关性可能表明多重共线性，这可能会对某些模型（如线性回归）产生不利影响。

# Calculate the correlation matrix
iris_corr_matrix = iris_df.corr()

# Create a heatmap of the correlation matrix
plt.figure(figsize=(8, 6))
sns.heatmap(iris_corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Correlation Matrix for Iris Dataset')
plt.show()

在这里插入图片描述
在这里，我们看到目标主要与花瓣长度和花瓣宽度相关，因此如果我们想获得最重要的特征，我们也可以选择这些特征。

如果您要在此数据集上执行特征选择或特征重要性分析，选择花瓣长度和花瓣宽度作为最重要的特征可能是一种合理的方法，因为它们与目标变量具有高度相关性。这些特征为区分不同种类的鸢尾提供了有价值的信息。

2. 筛选方法

A. SelectKBest

SelectKBest基于评分函数对前k个特征进行评分。在这种情况下，k=2用于选择前2个特征。

# SelectKBest
selector_kbest = SelectKBest(k=2) # Select top 2 features
X_train_kbest = selector_kbest.fit_transform(X_train, y_train)

B. SelectPercentile

根据最高分数的百分位数对最高特征进行排序。这里，百分位数=50用于选择前50%的特征。

# SelectPercentile
selector_percentile = SelectPercentile(percentile=50) # Select top 50% features
X_train_percentile = selector_percentile.fit_transform(X_train, y_train)

C. RFE (Recursive Feature Elimination)

递归删除最不重要的特征，直到达到所需的特征数量。n_features_to_select=2用于选择前2个特征。

# RFE (Recursive Feature Elimination)
estimator = LogisticRegression(max_iter=1000) # Base estimator
selector_rfe = RFE(estimator=estimator, n_features_to_select=2) # Select top 2 features
X_train_rfe = selector_rfe.fit_transform(X_train, y_train)

D. 从估计器模型选择

基于由估计器计算的重要性权重的阈值来识别特征。threshold ='mean’用于选择重要性大于平均重要性的特征。

# RFE (Recursive Feature Elimination)
estimator = LogisticRegression(max_iter=1000) # Base estimator
selector_rfe = RFE(estimator=estimator, n_features_to_select=2) # Select top 2 features
X_train_rfe = selector_rfe.fit_transform(X_train, y_train)

E.随机森林相关性

使用随机森林模型中的特征重要性作为筛选方法。选择重要性大于阈值=0.1的特征。

# SelectFromModel
estimator = RandomForestClassifier() # Base estimator
selector_model = SelectFromModel(estimator=estimator, threshold='mean') # Select features with importance greater than mean
X_train_model = selector_model.fit_transform(X_train, y_train)

# Random Forest correlations
model = RandomForestClassifier()
model.fit(X_train, y_train)
importances = model.feature_importances_
threshold = 0.1
X_train_rf_corr = X_train[:, importances > threshold]

比较通过不同方法所选的特征

# Display selected features for each method
print("Selected features using SelectKBest:")
print(selector_kbest.get_support(indices=True))
print("\nSelected features using SelectPercentile:")
print(selector_percentile.get_support(indices=True))
print("\nSelected features using RFE:")
print(selector_rfe.get_support(indices=True))
print("\nSelected features using SelectFromModel:")
print(selector_model.get_support(indices=True))
print("\nSelected features using Random Forest correlations:")
print([i for i in range(len(importances)) if importances[i] > threshold])

输出

Selected features using SelectKBest:
[2 3]

Selected features using SelectPercentile:
[2 3]

Selected features using RFE:
[2 3]

Selected features using SelectFromModel:
[2 3]

Selected features using Random Forest correlations:
[2, 3]