机器学习笔记:scikit-learn pipeline使用示例

news2025/1/12 13:37:07

0. 前言

        在机器学习中,管道机制是指将一系列处理步骤串连起来自动地一个接一个地运行的机制。Scikit-Learn提供了pipeline类用于实现机器学习管道,使用起来十分方便。

        既然要将不同处理步骤串联起来,首先必须确保每个步骤的输出与下一个步骤的输入的数据是匹配的。所以,管道中的每个步骤都包含两个方法,fit()用于拟合(或者说训练),transform()用于数据转换(将数据转换为下一个步骤所需要的输入数据格式)。

        管道的最后一个步骤应该是一个估计器,估计器不再需要数据转换,因此估计器只需要实现fit()方法。

        管道的最有用的目的是串联几个可以一起交叉验证的steps,同时设置不同的参数,使得交叉验证可以以非常高效的方式进行。熟练地使用管道可以大大提高机器学习建模和优化的过程。管道的示意图如下所示:

        以下结合示例来介绍scikit-learn的管道使用方法。

1. 示例1:SVC分类器

from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
X, y = make_classification(random_state=1)
x_train, x_test, y_train, y_test = train_test_split(X, y, random_state=1)

# non-pipeline modelling
scaler = StandardScaler()
scaler.fit(x_train)
x_train_scaled = scaler.transform(x_train)
x_test_scaled  = scaler.transform(x_test)

svc = SVC()
svc.fit(x_train_scaled,y_train)
print(svc.score(x_test_scaled, y_test))


# pipeline modelling
pipe= Pipeline([('scaler', StandardScaler()), ('svc', SVC())])
print(pipe.fit(x_train, y_train))
print(pipe.score(x_test, y_test))

        以上代码中包含两种建模方式,一种是不使用pipeline,一种是使用pipeline。

        非pipeline方式中,缩放处理和训练处理是分开来进行的。缩放处理采用的是StandardScaler,它先基于训练集进行训练,然后基于相同的训练模型对训练集和测试集实施相同的缩放处理。这一点非常重要,如果没有对训练集和测试集执行想用的缩放处理会导致模型训练失效。

        在利用Pipeline的实现中,缩放处理和训练处理由Pipeline()串联起来,代码量只有前一种方法的一半都不到。而且没有显式地出现x_train_scaled和x_test_scaled。

        当然,这本来就是一个非常简单的例子,所以利用管道建模训练所带的好处可能并不是那么显著。 

        运行以上结果会得到如下结果,可见两种方式的结果完全相同:

0.92
Pipeline(steps=[('scaler', StandardScaler()), ('svc', SVC())])
0.92

2. 示例2:基于PCA和决策树进行iris分类

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.tree import DecisionTreeClassifier

iris = datasets.load_iris()
x = iris.data
y = iris.target
 
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.25)
 
from sklearn.pipeline import Pipeline
pipeline = Pipeline([('pca', PCA(n_components = 4)), ('std', StandardScaler()), ('Decision_tree', DecisionTreeClassifier())], verbose = True)
 
pipeline.fit(x_train, y_train)
 
# to see all the hyper parameters
pipeline.get_params()

        在这个示例中,用先用PCA对数据进行降维处理,然后进行数据缩放处理,最后再利用决策树进行分类。运行结果如下。注意,在调用Pipeline时将verbose参数设置为True,这样会将训练过程中的一些细节信息打印出来。

[Pipeline] ............... (step 1 of 3) Processing pca, total=   0.0s
[Pipeline] ............... (step 2 of 3) Processing std, total=   0.0s
[Pipeline] ..... (step 3 of 3) Processing Decision_tree, total=   0.0s
0.8947368421052632

        然后可以用get_params()方法显示训练所得的各步骤的参数。

 

3. 示例3:用朴素贝叶斯方法进行iris分类,以及make_pipeline()

        scikit-learn还提供一个快捷的构建管道的函数make_pipeline()。

        以下利用make_pipeline()构建一个基于朴素贝叶斯算法的iris分类模型,如下所示:

from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
pipe = make_pipeline(StandardScaler(), GaussianNB(priors=None), verbose=True)
iris = datasets.load_iris()
x = iris.data
y = iris.target
 
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.25)
pipe.fit(x_train, y_train)
print(pipeline.score(x_test, y_test))  
# to see all the hyper parameters
pipe.get_params()
[Pipeline] .... (step 1 of 2) Processing standardscaler, total=   0.0s
[Pipeline] ........ (step 2 of 2) Processing gaussiannb, total=   0.0s
0.9736842105263158

Out[18]:

{'memory': None,
 'steps': [('standardscaler', StandardScaler()), ('gaussiannb', GaussianNB())],
 'verbose': True,
 'standardscaler': StandardScaler(),
 'gaussiannb': GaussianNB(),
 'standardscaler__copy': True,
 'standardscaler__with_mean': True,
 'standardscaler__with_std': True,
 'gaussiannb__priors': None,
 'gaussiannb__var_smoothing': 1e-09}

        这种模型的测试机分类准确度达到97%,远远好于上面基于PCA加决策树算法的89%。 

4. 示例4:基于Pipeline进行模型选择

        模型选择 Pipeline 还可以用于模型选择。下面的示例中我们就尝试了许多 scikit-learn 分类器进行模型选择。

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, log_loss
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC, LinearSVC, NuSVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline

iris = datasets.load_iris()
X = iris.data
y = iris.target
 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25)

classifiers = [
    KNeighborsClassifier(3),
    SVC(kernel="rbf", C=0.025, probability=True),
    NuSVC(probability=True),
    DecisionTreeClassifier(),
    RandomForestClassifier(),
    AdaBoostClassifier(),
    GradientBoostingClassifier()
    ]
for classifier in classifiers:
    pipe = Pipeline(steps=[('scaler', StandardScaler()),
                      ('classifier', classifier)])
    pipe.fit(X_train, y_train)   
    print(classifier)
    print("model score: %.3f" % pipe.score(X_test, y_test))

        运行结果如下:

KNeighborsClassifier(n_neighbors=3)
model score: 0.895
SVC(C=0.025, probability=True)
model score: 0.579
NuSVC(probability=True)
model score: 0.868
DecisionTreeClassifier()
model score: 0.868
RandomForestClassifier()
model score: 0.895
AdaBoostClassifier()
model score: 0.947
GradientBoostingClassifier()
model score: 0.868

        有趣的是,其中居然有三种算法得到的了完全相同的结果86.8%。

 5. 示例5:利用管道结合网格搜索进行模型参数最优搜索

        Pipeline 可结合网格搜索以找到性能最佳的模型参数。

        第一步是为所选模型创建参数网格。需要注意的是,这里需要把分类器的名称附加到每个参数名称中,比如如下的随机森林建模代码中,将分类器的名称定义为 classifier,所以这里就需要在每个参数前添加 classifier__ 的前缀。接下来,创建一个包含原始 pipeline 的网格搜索对象。这样当进行网格搜索时,都会包含数据预处理以及用相应参数创建模型的步骤。

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

iris = datasets.load_iris()
X = iris.data
y = iris.target
 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25)

rf = Pipeline(steps=[('scaler', StandardScaler()),
                      ('classifier', RandomForestClassifier())])

param_grid = { 
    'classifier__n_estimators': [200, 500],
    'classifier__max_features': ['auto', 'sqrt', 'log2'],
    'classifier__max_depth' : [4,5,6,7,8],
    'classifier__criterion' :['gini', 'entropy']}
from sklearn.model_selection import GridSearchCV
CV = GridSearchCV(rf, param_grid, n_jobs= 1)

CV.fit(X_train, y_train)
print(CV.best_params_)
print(CV.best_score_)

         运行结果(注意,由于以上是进行网格搜索,所以运行需要花一些时间)如下:

{'classifier__criterion': 'gini', 'classifier__max_depth': 4, 'classifier__max_features': 'auto', 'classifier__n_estimators': 200}
0.9731225296442687

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/94491.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java计算机毕业设计基于安卓Android的数字猎头招聘管理APP

项目介绍 网络的广泛应用给生活带来了十分的便利。所以把数字猎头招聘管理与现在网络相结合,利用java技术建设数字猎头招聘管理APP,实现数字猎头招聘管理的信息化。则对于进一步提高数字猎头招聘管理发展,丰富数字猎头招聘管理经验能起到不少的促进作用。 数字猎头招聘管理APP能…

kafka概念及部署

文章目录一.kafka1.kafka的概念2.Kafka的特性3.工作原理4.文件存储5.消息模式5.1点到点5.2订阅模式6.基础架构一.kafka 1.kafka的概念 Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica&a…

第八章会话控制

文章目录为什么需要会话控制带来的问题如何解决无状态的问题——Cookie如果只靠单纯的Cookie存在的问题单纯Cookie导致问题的解决方法——SessionSessionsession的结构一些关于Session的APISession的保存作用域Cookie时效性会话和持久化Cookie对比Cookie的domain和path为什么需…

后端开发框架的具体内容是什么?

在数据化管理越来越规范的今天,低代码开发平台也迎来了重要的发展期。前后端分离已经成为发展趋势,有不少客户朋友想要咨询后端开发框架的定义和内容,为了帮助大家答疑解惑,小编经过整理,组织出了一篇关于该内容的文章…

centos7 安装部署sonarqube 8.9.1(postqresql数据库版)

公司产品sonarqube以最大限度地提高质量并管理软件产品组合中的风险。为开发者软件开发人员最终负责代码质量。 代码质量是所谓的非功能性需求的一部分,因此是开发人员的直接责任。为有追求的程序员写出地道代码提供方向。 一、环境要求 1、centos7 x64 2、jdk11 3…

KT6368A蓝牙芯片用户PC升级_搭配下载器_使用说明

目录 一、下载原理简介 KT6368A双模蓝牙芯片是flash版本,支持重复烧录程序,但是烧录程序必须使用专用的下载工具 这个工具需要由我们来提供。 下载的总体思路是,把芯片和PC电脑相连接,通过USB。然后PC端有上位机工具&#xff0…

Zabbix

一、什么是Zabbix zabbix 是一个基于 Web 界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix 能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。 zabbix 由 2 部…

Spring Boot 整合 RabbitMQ

一、工程简介 1、生产者&#xff08;test-11-rabbitmq-producer&#xff0c;spring boot 版本 2.4.1&#xff09; 1&#xff09;pom依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-amqp</artifact…

外汇天眼:分分飞艇──谎称33倍高收益,入金投资获利要不回

在这个万物皆涨、薪水不涨的年代&#xff0c;大多数人都知道投资的重要性&#xff0c;但因为受限于本身的知识与技巧不足&#xff0c;经常看错市场方向或选错标的而亏损&#xff0c;并因此感到苦恼不已。此时若看到人宣称有无风险高获利的赚钱管道&#xff0c;不免会跃跃欲试。…

SM59 事物码里的错误消息 SECSTORE035

系统无法访问全局键值&#xff0c;其存储位置 在配置文件参数 rsec/securestorage/keyfile 中指定。 使用事物码 RZ11&#xff0c;输入 rsec/securestorage/keyfile&#xff0c;点击 Display&#xff1a; 当这个参数路径指向的 .pse 文件包含非法字符或者文件内容小于 48 个字…

Matlab实现|多元宇宙算法求解电力系统多目标优化问题(期刊论文复现)

结果和这几种算法进行比较&#xff1a; 目录 1 概述 2 Matlab完整代码实现 3 结果 1 概述 提出了一种求解电力系统环境经济调度的新方法,该方法利用宇宙空间在随机创建过程中高膨胀率的物体随虫洞在空间移动物体的规律,通过对白洞和黑洞间随机传送物体来实现最优搜索. 算法…

5.1 自然语言处理综述

文章目录致命密码&#xff1a;一场关于语言的较量一、自然语言处理的发展历程1.1 兴起时期1.2 符号主义时期1.3 连接主义时期1.4 深度学习时期二、自然语言处理技术面临的挑战2.1 语言学角度2.1.1 同义词问题2.1.2 情感倾向问题2.1.3 歧义性问题2.1.4 对话/篇章等长文本处理问题…

猿如意中【ndm】助你轻松管理你的 NPM包

目录 一、ndm 简介 1.1、下载 ndm-1.exe 版本&#xff08;v1.2.0&#xff09; 1.2、安装 1.3、版本迭代更新记录 1.3.1、ndm v0.1.4 已发布https://github.com/720kb/ndm/releases/tag/v0.1.4 1.3.2、ndm v1.0.0 发布&#xff0c;现已完全跨平台Windows、Mac、Linux 1.3.3、…

cad 怎么取消绘图界限?cad怎么调整图形界限

1、在CAD中&#xff0c;如何设置图形界限&#xff1f; 1、电脑打开CAD&#xff0c;输入limits命令&#xff0c;空格键确定。 2、确定命令后&#xff0c;选择格式中的图形界限。 3、点击图形界限后&#xff0c;会出现重新设置模型空间界限&#xff0c;接着再点击键盘上的回车键…

gcexcel:GrapeCity Documents for Excel v6/NET/Crack

高速 .NET 6 Excel 电子表格 API 库 使用此快速电子表格 API&#xff0c;以编程方式在 .Net 6、.Net 5、.NET Core、.NET Framework 和 Xamarin 跨平台应用程序中创建、编辑、导入和导出 Excel 电子表格。 创建、加载、编辑和保存 Excel .xlsx 电子表格 保存为 .XLSX、PDF、HTM…

C#基于ASP.NET的人事薪资管理系统

ASP.NET20003人事薪资管理系统,SQL数据库&#xff1a;VS2010开发环境,包含员工管理,部门管理,工资管理,绩效管理等功能,并且包含五险一金的计算 3.3 功能需求 3.3.1 员工部分 1&#xff1a;查看工资&#xff1a;以列表的形式查看系统现存的员工工资信息。 2&#xff1a;查看个…

SpringBoot自定义banner—卡塔尔世界杯吉祥物

自定义banner文件 SpringBoot项目在启动的时候&#xff0c;会有一个大大的Spring首先展示出来 . ____ _ __ _ _/\\ / ____ __ _ _(_)_ __ __ _ \ \ \ \ ( ( )\___ | _ | _| | _ \/ _ | \ \ \ \\\/ ___)| |_)| | | | | || (_| | ) ) ) ) |____| .__|…

好书推荐:《Python编程:从入门到实践(第2版)》——写给Python入门者的最好教程

缘起 这段时间把图灵社区的《Python编程&#xff1a;从入门到实践&#xff08;第2版&#xff09;》看完了&#xff0c;在此做一个记录&#xff0c;先谈一下自己最直观的感受&#xff0c;这本书的定位是入门&#xff0c;在我看来&#xff0c;这个目的确实是达到了的&#xff0c…

98.(leaflet之家)leaflet态势标绘-分队战斗行动采集

听老人家说:多看美女会长寿 地图之家总目录(订阅之前建议先查看该博客) 文章末尾处提供保证可运行完整代码包,运行如有问题,可“私信”博主。 效果如下所示: 下面献上完整代码,代码重要位置会做相应解释 <!DOCTYPE html> <html>

Cantor表——洛谷(Java)

题目描述 现代数学的著名证明之一是 Georg Cantor 证明了有理数是可枚举的。他是用下面这一张表来证明这一命题的&#xff1a; 1/11/1 , 1/21/2 , 1/31/3 , 1/41/4, 1/51/5, … 2/12/1, 2/22/2 , 2/32/3, 2/42/4, … 3/13/1 , 3/23/2, 3/33/3, … 4/14/1, 4/24/2, … 5/1…