随机森林算法实现分类

news2026/2/15 9:20:08

随机森林算法实现对编码后二进制数据的识别

1.直接先上代码！

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
from joblib import dump, load
# 读取数据
data = pd.read_excel('/root/分类数据集.xlsx', sheet_name=0)

# 提取特征和标签
binary_strings = data["编码后数据"].values
y = data["类型"]

max_length = max(len(s) for s in binary_strings)
X = np.array([list(map(int, s.zfill(max_length))) for s in binary_strings])

# 样本标签数值化处理
target_map = {"ldpc": 0, "han": 1, "conv": 2}
target = y.map(target_map)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, target, test_size=0.2, random_state=42)

# 特征缩放
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 创建随机森林分类器实例
rf = RandomForestClassifier(random_state=42)

# 定义超参数搜索空间
param_grid = {
    'n_estimators': [100, 200],  # 决策树的数量
    'max_depth': [None, 10, 20],  # 树的最大深度
    'min_samples_split': [2, 5],  # 分裂内部节点所需的最小样本数
    'min_samples_leaf': [1, 2],   # 叶节点所需的最小样本数
    'bootstrap': [True, False]    # 是否使用bootstrap样本
}

# 创建GridSearchCV实例
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# # 用GridSearchCV在给定的超参数网格上进行搜索
grid_search.fit(X_train_scaled, y_train)
# 使用找到的最佳参数的模型进行预测
best_rf = grid_search.best_estimator_
# 保存模型到文件
model_filename = 'best_random_forest64.joblib'
dump(best_rf, model_filename)
# 保存 StandardScaler
scaler_filename = 'scaler64.joblib'
dump(scaler, scaler_filename)
# 假设 max_length 已经在您的代码中计算出来了
max_length_filename = 'max_length64.joblib'
dump(max_length, max_length_filename)
y_pred = best_rf.predict(X_test_scaled)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy on test set with best parameters: {accuracy:.2f}")

2.代码解读

这是一个典型的机器学习流程，用于构建和评估一个随机森林分类器。

导入必要的库：
- numpy 和 pandas 用于数据处理。
- train_test_split 和 GridSearchCV 来自 sklearn.model_selection，用于划分数据集和超参数优化。
- RandomForestClassifier 来自 sklearn.ensemble，是用于分类的随机森林模型。
- accuracy_score 来自 sklearn.metrics，用于计算模型准确度。
- StandardScaler 来自 sklearn.preprocessing，用于特征缩放。
- dump 和 load 来自 joblib，用于模型和数据的保存和加载。
数据加载：
- 使用 pandas 的 read_excel 函数从 Excel 文件中加载数据。
特征和标签提取：
- 将数据集中的“编码后数据”列转换为数值列表，并将“类型”列作为标签。
数据预处理：
- 确定最大长度以保证所有样本长度一致。
- 使用 map 方法将标签转换为数值。
数据划分：
- 使用 train_test_split 将数据集划分为训练集和测试集。
特征缩放：
- 使用 StandardScaler 对训练集和测试集进行特征缩放。
模型初始化：
- 创建 RandomForestClassifier 实例。
超参数搜索：
- 定义一个超参数网格，包括决策树数量、树的最大深度等。
- 使用 GridSearchCV 进行交叉验证和超参数搜索。
模型训练：
- 使用训练集数据训练模型，并找到最佳参数。
模型保存：
- 将最佳模型、标量器和最大长度保存到文件中。
模型评估：
- 使用测试集评估模型的准确度，并打印结果