【机器学习】分类算法 - 模型选择与调优GridSearchCV（网格搜索）

news2026/2/16 8:09:46

「作者主页」：士别三日wyx
「作者简介」：CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者
「推荐专栏」：零基础快速入门人工智能《机器学习入门到精通》

模型选择与调优

1、交叉验证
2、网格搜索
3、模型选择与调优API
4、案例演示
- 4.1、特征集获取划分
- 4.2、特征标准化
- 4.3、KNN算法处理
- 4.4、参数调优

K-近邻算法的K是指邻居的个数，「K值」不同，算法的「准确率」也不同，我们需要不断调整K值，以提高算法的准确率。在「调整」过程中，我们需要用到「交叉验证」。

1、交叉验证

交叉验证（Cross-Validation）是在机器学习建立模型和验证模型「参数」时常用的方法，用于「评估」机器模型的性能指标，从而进行「模型选择」。

交叉验证的「基本思想」是，把原始数据分组，一部分当做训练集，另一部分作为验证集，先用训练集对算法模型进行训练，再用验证集测试训练得到的算法模型。

比如，把数据分成四份，先用第一份数据当验证集，把后面三份的训练结果与第一份做验证；再用第二份数据当验证集，把其他三份数据的训练结果和第二份做验证；以此类推。。。

在这里插入图片描述

交叉验证常配合网格搜索一同使用。

2、网格搜索

网格搜索也叫超「参数搜索」，比如K-近邻算法的K值需要手动指定参数，这种参数就叫超参数。网格搜索通过预设几组超参数组合，每组超参数都用交叉验证进行评估，从而选出「最优」的参数组合来建立模型。

sklearn 模块 GridSearchCV 很好的实现了网格搜索，它可以自动调参，只要把参数输进去，就能给出最优的结果和参数。

3、模型选择与调优API

sklearn.model_selection.GridSearchCV( estimator，param_grid，cv)

estimator：需要使用的分类器
param_grid：需要优化的参数，字典或列表格式{ "n_neighbors": [1, 3, 5] , }
cv：交叉验证次数

返回值属性

best_params_：（dict）最佳参数
best_score_ ：（float）最佳结果
best_estimator_：（estimator）最佳分类器
cv_results_：（dict）交叉验证结果
best_index_：（int）最佳参数的索引
n_splits_：（int）交叉验证的次数

4、案例演示

接下来，我们使用 GridSearchCV 来选择 K-近邻算法的「最佳K值」

4.1、特征集获取划分

使用 sklearn 自带的的鸢尾花「数据集」，数据集划分为60%训练，40%测试。

from sklearn import datasets
from sklearn import model_selection

# 1、获取数据集
iris = datasets.load_iris()
# 2、划分数据集
# x_train：训练集特征，x_test：测试集特征，y_train：训练集目标，y_test：测试集目标
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, random_state=6)
print('训练集特征：', len(x_train))
print('测试集特征：', len(x_test))
print('训练集目标：', len(y_train))
print('测试集特征：', len(y_test))

输出：

训练集特征： 112
测试集特征： 38
训练集目标： 112
测试集特征： 38

从输出结果可以看到，训练集和测试集的比例符合预期

4.2、特征标准化

接下来，对训练集特征和测试集特征进行「标准化」处理

from sklearn import datasets
from sklearn import model_selection
from sklearn import preprocessing

# 1、获取数据集
iris = datasets.load_iris()
# 2、划分数据集
# x_train：训练集特征，x_test：测试集特征，y_train：训练集目标，y_test：测试集目标
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, random_state=6)
# 3、特征标准化
ss = preprocessing.StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.fit_transform(x_test)
print(x_train)

输出：

[[-0.18295405 -0.192639    0.25280554 -0.00578113]
 [-1.02176094  0.51091214 -1.32647368 -1.30075363]
 [-0.90193138  0.97994624 -1.32647368 -1.17125638]

从输出结果可以看到，特征已经标准化。

4.3、KNN算法处理

将训练特征集和测试特征集传给KNN，并查看「准确率」。

from sklearn import datasets
from sklearn import model_selection
from sklearn import preprocessing
from sklearn import neighbors

# 1、获取数据集
iris = datasets.load_iris()
# 2、划分数据集
# x_train：训练集特征，x_test：测试集特征，y_train：训练集目标，y_test：测试集目标
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, random_state=6)
# 3、特征标准化
ss = preprocessing.StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.fit_transform(x_test)
# 4、KNN算法处理
knn = neighbors.KNeighborsClassifier(n_neighbors=2)
knn.fit(x_train, y_train)
print(knn.score(x_test, y_test))

输出：

0.8947368421052632

从输出结果可以看到，准确率是89%，一般般。

4.4、参数调优

将不同的K值封装成字典，传给 GridSearchCV，计算「最优」的参数。

from sklearn import datasets
from sklearn import model_selection
from sklearn import preprocessing
from sklearn import neighbors

# 1、获取数据集
iris = datasets.load_iris()
# 2、划分数据集
# x_train：训练集特征，x_test：测试集特征，y_train：训练集目标，y_test：测试集目标
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, random_state=6)
# 3、特征标准化
ss = preprocessing.StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.fit_transform(x_test)
# 4、KNN算法处理
knn = neighbors.KNeighborsClassifier(n_neighbors=2)
# 5、参数调优
params = {"n_neighbors": [1, 3, 5, 7]}
knn = model_selection.GridSearchCV(knn, param_grid=params, cv=10)
knn.fit(x_train, y_train)
print('最优参数：', knn.best_params_)
print('最优准确率：', knn.best_score_)
print('最优分类器：', knn.best_estimator_)

输出：

最优参数： {'n_neighbors': 5}
最优准确率： 0.9727272727272729
最优分类器： KNeighborsClassifier()

从输出结果可以看到，最优的K值参数是5，准确率达到了97%

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/801226.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【机器学习】分类算法 - 模型选择与调优GridSearchCV（网格搜索）

模型选择与调优

1、交叉验证

2、网格搜索

3、模型选择与调优API

4、案例演示

4.1、特征集获取划分

4.2、特征标准化

4.3、KNN算法处理

4.4、参数调优

相关文章

IntelliJ IDEA 2023.2 最新变化

在win10上安装spinal hdl完全教程(一篇文章就够了)

Android安卓实战项目（4）---提供给阿尔兹海默症患者的APP（源码在文末）

运维：Windows11操作系统安装VMware16.1.1图文教程（附下载）

JUC高并发编程（二）——Synchronized关键字

Python爬虫时遇到SSL证书验证错误解决办法汇总

提高业务效率：利用手机号在网状态 API 进行智能筛选

https和http有什么区别

Linux常用命令——dpkg-statoverride命令

深度：解密数据库的诗与远方！

【动态规划part09】| 198.打家劫舍、213.打家劫舍II、337.打家劫舍III

【数据结构】实验三：链表

基于ssm+mysql+jsp高校疫情防控出入信息管理系统

Java 8 Stream流：代码简洁之道

mysql（二）索引-基础知识

记录--虚拟 DOM 和实际 DOM 有何不同？

第四章 HL7 架构和可用工具 - 查看数据结构

影视行业案例 | 燕千云助力大地影院集团搭建智能一体化IT服务管理平台

第八章：将自下而上、自上而下和平滑性线索结合起来进行弱监督图像分割

PSP - MMseqs2 编译最新版本源码 (14-7e284) 支持 MPI 功能 MSA 快速搜索