使用scikit-learn和pandas学习线性回归

news2025/1/12 1:50:40

        对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了。

1. 获取数据,定义问题

  没有数据,当然没法研究机器学习啦。这里我们用UCI大学公开的机器学习数据来跑线性回归。  

数据的介绍在这: http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant

数据的下载地址在这: http://archive.ics.uci.edu/ml/machine-learning-databases/00294/

        里面是一个循环发电场的数据,共有9568个样本数据,每个数据有5列,分别是:AT(温度), V(压力), AP(湿度), RH(压强), PE(输出电力)。我们不用纠结于每项具体的意思。

  我们的问题是得到一个线性的关系,对应PE是样本输出,而AT/V/AP/RH这4个是样本特征, 机器学习的目的就是得到一个线性回归模型,即:

  PE= \theta _0+\theta _1\times AT+\theta _2 \times V+\theta _3 \times AP+\theta _4 \times RH

  而需要学习的,就是\theta_0,\theta_1,\theta_2,\theta3,\theta_4这5个参数。

2. 整理数据

  下载后的数据可以发现是一个压缩文件,解压后可以看到里面有一个xlsx文件,我们先用excel把它打开,接着“另存为“”csv格式,保存下来,后面我们就用这个csv来运行线性回归。

  打开这个csv可以发现数据已经整理好,没有非法数据,因此不需要做预处理。但是这些数据并没有归一化,也就是转化为均值0,方差1的格式。也不用我们搞,后面scikit-learn在线性回归时会先帮我们把归一化搞定。

  好了,有了这个csv格式的数据,我们就可以大干一场了。

3. 用pandas来读取数据

  我们先打开ipython notebook,新建一个notebook。当然也可以直接在python的交互式命令行里面输入,不过还是推荐用notebook。下面的例子和输出我都是在notebook里面跑的。

  先把要导入的库声明了:

import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import pandas as pd
from sklearn import datasets, linear_model

        接着我们就可以用pandas读取数据了:

# read_csv里面的参数是csv在你电脑上的路径,此处csv文件放在notebook运行目录下面的CCPP目录里
data = pd.read_csv('.\CCPP\ccpp.csv')

        测试下读取数据是否成功:

#读取前五行数据,如果是最后五行,用data.tail()
data.head()

        运行结果应该如下,看到下面的数据,说明pandas读取数据成功:

#读取前五行数据,如果是最后五行,用data.tail()
data.head()
ATVAPRHPE
08.3440.771010.8490.01480.48
123.6458.491011.4074.20445.75
229.7456.901007.1541.91438.76
319.0749.691007.2276.79453.09
411.8040.661017.1397.20464.43

4. 准备运行算法的数据

  我们看看数据的维度:

data.shape

  结果是(9568, 5)。说明我们有9568个样本,每个样本有5列。

  现在我们开始准备样本特征X,我们用AT, V,AP和RH这4个列作为样本特征。

X = data[['AT', 'V', 'AP', 'RH']]
X.head()

  可以看到X的前五条输出如下:

ATVAPRH
08.3440.771010.8490.01
123.6458.491011.4074.20
229.7456.901007.1541.91
319.0749.691007.2276.79
411.8040.661017.1397.20

  接着我们准备样本输出y, 我们用PE作为样本输出。

y = data[['PE']]
y.head()

  可以看到y的前五条输出如下:

PE
0480.48
1445.75
2438.76
3453.09
4464.43

5. 划分训练集和测试集

  我们把X和y的样本组合划分成两部分,一部分是训练集,一部分是测试集,代码如下:

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

  查看下训练集和测试集的维度:

print X_train.shape
print y_train.shape
print X_test.shape
print y_test.shape

  结果如下:

(7176, 4)
(7176, 1)
(2392, 4)
(2392, 1) 
  可以看到75%的样本数据被作为训练集,25%的样本被作为测试集。
  

6. 运行scikit-learn的线性模型

  终于到了临门一脚了,我们可以用scikit-learn的线性模型来拟合我们的问题了。scikit-learn的线性回归算法使用的是最小二乘法来实现的。代码如下:
from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(X_train, y_train)

  拟合完毕后,我们看看我们的需要的模型系数结果:

print linreg.intercept_
print linreg.coef_

  输出如下:

[ 447.06297099]
[[-1.97376045 -0.23229086  0.0693515  -0.15806957]]

  这样我们就得到了在步骤1里面需要求得的5个值。也就是说PE和其他4个变量的关系如下:

        PE=447.06297099 - 1.97376045 \times AT - 0.23229086 \times V + 0.0693515 \times AP - 0.15806957 \times RH

    

7. 模型评价

  我们需要评估我们的模型的好坏程度,对于线性回归来说,我们一般用均方差(Mean Squared Error, MSE)或者均方根差(Root Mean Squared Error, RMSE)在测试集上的表现来评价模型的好坏。

  我们看看我们的模型的MSE和RMSE,代码如下:

#模型拟合测试集
y_pred = linreg.predict(X_test)
from sklearn import metrics
# 用scikit-learn计算MSE
print "MSE:",metrics.mean_squared_error(y_test, y_pred)
# 用scikit-learn计算RMSE
print "RMSE:",np.sqrt(metrics.mean_squared_error(y_test, y_pred))

    输出如下:

MSE: 20.0804012021
RMSE: 4.48111606657

        得到了MSE或者RMSE,如果我们用其他方法得到了不同的系数,需要选择模型时,就用MSE小的时候对应的参数。

  比如这次我们用AT, V,AP这3个列作为样本特征。不要RH, 输出仍然是PE。代码如下:

X = data[['AT', 'V', 'AP']]
y = data[['PE']]
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(X_train, y_train)
#模型拟合测试集
y_pred = linreg.predict(X_test)
from sklearn import metrics
# 用scikit-learn计算MSE
print "MSE:",metrics.mean_squared_error(y_test, y_pred)
# 用scikit-learn计算RMSE
print "RMSE:",np.sqrt(metrics.mean_squared_error(y_test, y_pred))

        输出如下:

MSE: 23.2089074701
RMSE: 4.81756239919
   可以看出,去掉RH后,模型拟合的没有加上RH的好,MSE变大了。

8. 交叉验证

  我们可以通过交叉验证来持续优化模型,代码如下,我们采用10折交叉验证,即cross_val_predict中的cv参数为10:
X = data[['AT', 'V', 'AP', 'RH']]
y = data[['PE']]
from sklearn.model_selection import cross_val_predict
predicted = cross_val_predict(linreg, X, y, cv=10)
# 用scikit-learn计算MSE
print "MSE:",metrics.mean_squared_error(y, predicted)
# 用scikit-learn计算RMSE
print "RMSE:",np.sqrt(metrics.mean_squared_error(y, predicted))

9. 画图观察结果

  这里画图真实值和预测值的变化关系,离中间的直线y=x直接越近的点代表预测损失越低。代码如下:

fig, ax = plt.subplots()
ax.scatter(y, predicted)
ax.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4)
ax.set_xlabel('Measured')
ax.set_ylabel('Predicted')
plt.show()

        输出的图像如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/598735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

buuctf re入门题目解析

目录 1.easyre 2.reverse1 3.reverse2 4.内涵的软件 1.easyre 将exe文件放入ida,在主函数main中找到flag,此题结束 2.reverse1 打开主函数main,发现有一个跳转函数,双击打开 这句命令是将str1和str2的内容比较,当…

「C/C++」C/C++空指针void*

✨博客主页:何曾参静谧的博客 📌文章专栏:「C/C」C/C程序设计 相关术语 void指针:是一种通用指针类型,可以指向任何类型的数据或对象。它不关心指向的数据或对象的类型,只关心指针本身的地址。因此&#xf…

性能测试—— 基础概念

目录 一、性能测试和功能测试的区别 二、性能测试衡量指标以及名称解释 1、并发用户数、系统用户数、在线用户数 2、响应时间、平均响应时间、请求响应时间 3、事务 4、点击率 5、吞吐量 6、思考时间 7、资源利用率 三、性能测试分类 1、一般性能测试 2、负载测试 …

【Python】函数 ③ ( 函数返回值定义语法 | 函数返回多个返回值 | 代码示例 )

文章目录 一、函数返回值定义语法二、函数返回多个返回值三、函数返回值代码示例 一、函数返回值定义语法 在 Python 函数中 , 通过 return 关键字 , 可以返回一个结果给调用者 , 这个返回结果就是 函数返回值 ; def 函数名(函数参数):"""函数文档字符串&#…

【C++】---模板初阶(超详练气篇)

个人主页:平行线也会相交💪 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 平行线也会相交 原创 收录于专栏【C之路】💌 本专栏旨在记录C的学习路线,望对大家有所帮助🙇‍ 希望我们一起努力、成长&…

几种神经网络整定PID参数原理剖析及simulink案例仿真

目录 前言 1 基于单神经元自适应PID Simulink仿真分析 1.1 原理简介 1.1.1 无监督的Hebb学习 ​1.1.2 有监督的Delta学习 1.1.3 有监督的Hebb学习 1.1.4 改进的有监督Hebb学习 1.1.5 总结 1.2 simulink仿真分析 1.2.1 将权值作为状态变量仿真分析 1.2.2 利用局部变量…

Day6 不要二、把字符串转换成整数

✨个人主页: 北 海 🎉所属专栏: C/C相关题解 🎃操作环境: Visual Studio 2019 版本 16.11.17 文章目录 选择题1. 计算机组成原理 编程题1. 不要二2. 把字符串转换成为整数 选择题 1. 计算机组成原理 题目&#xff1a…

Atcoder beginner contest 303

A - Similar String AC代码&#xff1a; #include<iostream> #include<algorithm> #include<cstring> using namespace std; int main() {int n;cin >> n;string s, t;cin >> s >> t;bool flag true;for (int i 0; i < n; i) {if …

Nginx-Host绕过复现

目录 环境搭建&#xff1a; 第一种处理方式 第二种处理方式 第三种处理方式 原理依据&#xff1a;Nginx与PHP对Host处理方式不同 环境搭建&#xff1a; 1、提前安装完成nginxphpmysql&#xff0c;然后上传文件pwnhub到nginx/html下 2、修改nginx.conf配置文件&#xff1…

集权攻击系列:如何利用PAC新特性对抗黄金票据?

黄金票据简介 黄金票据是一种常见的域内权限维持手段&#xff0c;这种攻击主要是利用了Kerberos认证过程中TGT票据由KRBTGT用户的hash加密的特性&#xff0c;在掌握KRBTGT用户密码之后可以通过签发一张高权限用户的TGT票据&#xff0c;再利用这个TGT向KDC获取域内服务的ST来实…

ChatGPT 使用 拓展资料:2023年6月 吴恩达大咖Deeplearning.ai最新课程

ChatGPT 使用 拓展资料:2023年6月 吴恩达大咖Deeplearning.ai最新课程 Deeplearning.ai刚刚发布几个新的课程https://www.deeplearning.ai/short-courses/?utm_campaign=May%20Short%20Course%20Launch&utm_content=250952287&utm_medium=social&utm_source=link…

2023上半年软件设计师-试题详解与分析

目录 前言 上午题 计算机组成原理 信息安全 计算机相关法律 软件设计 语言处理 操作系统 软件工程 软件测试 面向对象编程 程序设计语言 数据库 数据结构与算法 计算机网络 计算机专业英语 下午题 数据流图 数据库 UML 算法与C语言 面向对象程序设计 前…

4 款原型设计软件助你成为优秀的产品经理

原型设计是产品经理必备的技能。对于产品经理来说&#xff0c;在原型设计的过程中&#xff0c;必然会使用各种原型设计软件。为了保证后续工作的稳定进行&#xff0c;必须满足初始原型设计图纸&#xff0c;而绘制原型设计图纸常用的原型设计软件很多&#xff0c;很多人不知道如…

文心一言 vs GPT4

本周真是科技爱好者的狂欢节。GPT4和文心一言接连发布&#xff0c;AI工具已经开始走进千家万户。 拿文心一言发布会上的几个问题调戏了 GPT4 一下&#xff0c;看看表现如何。 第一个为文心的回答&#xff0c;第二个为GPT4 的回答。 1. 可以总结一下三体的核心内容吗&#xf…

活动预告 | 2023 Meet TVM · 北京站定档,5 场 Talk 你最期待哪一场?

内容一览&#xff1a;2023 Meet TVM 线下聚会第二站定档 6 月 17 日&#xff01;这次我们设定了 5 个 Talk&#xff0c;期待和大家在北京中关村相聚&#xff01; 关键词&#xff1a;编译器 线下活动 2023MeetTVM 3 月 4 日&#xff0c; 2023 Meet TVM 首场线下活动在上海成功举…

awk实战案例

插入新字段 例&#xff1a;在“a b c d”中b的后面插入“e f g” echo "a b c d" | awk {$2$2" e f g";print} 格式化空白 移除每行的前缀、后缀空白&#xff0c;并将各部分左对齐 [rootlocalhost ~]# cat 1.txt aaaa bbb ccccc bbbb …

opencv笔记:高斯滤波和中值滤波对椒盐噪声的处理

目录 1. 椒盐噪声简介 2. 高斯滤波的原理和实现 2.1. 高斯滤波的原理 2.2. 高斯滤波的API 3. 中值滤波的原理和实现 3.1. 中值滤波的原理 3.2. 中值滤波的API 4. 高斯滤波和中值滤波对椒盐噪声的处理结果 数字图像处理中&#xff0c;噪声会导致图像质量下降和信息的丢失&a…

SpringMVC第九阶段:Restful风格实现的CRUD

Restful风格实现的CRUD图书 把前面的传统请求方式的图书的CRUD换成刚刚讲的Restful风格的图书模块的CRUD。只需要修改页面端的请求方式和地址&#xff0c;以及服务器端Controller的接收。 1、列表功能实现 Controller中的修改: RequestMapping(value "/book",me…

C++ 后台开发面试时一般考察什么?

总体来说&#xff0c;C面试中&#xff0c;对这门语言本身内容的考察并不多&#xff0c;更多考察的是 C 背后的技术栈&#xff0c;更多倾向考察一些原理性和基础性的问题&#xff0c;高级岗位会考察一些工作经历和经验。 总结起来一句话&#xff1a;初级看基础&#xff0c;高级…

hashlib和hmac模块

目录 ❤ hashlib模块 hash是什么? 撞库破解hash算法加密 python从小白到总裁完整教程目录:https://blog.csdn.net/weixin_67859959/article/details/129328397?spm1001.2014.3001.5502 ❤ hashlib模块 hash是什么? hash是一种算法&#xff08;Python3.版本里使用has…