机器学习实践

news2025/1/11 8:09:29

1.波士顿房价预测

        波士顿房屋的数据于1978年开始统计,共506个数据点,涵盖了波士顿不同郊区房屋的14种特征信息。

        在这里,选取房屋价格(MEDV)、每个房屋的房间数量(RM)两个变量进行回归,其中房屋价格为目标变量,每个房屋的房间数量为特征变量。将数据导入进来,并进行初步分析。

1.1 数据集解析

数据集共506行,每行14列

前13列用来描述房屋的各种信息 ,最后一列为该类房屋价格中位数

1.2 流程

准备数据→配置网络→训练网络→模型评估→模型预测 

训练网络:

1.  网络正向传播计算网络输出和损失函数。

2.  根据损失函数进行反向误差传播,将网络误差从输出层依次向前传递, 并更新网络中的参数。

3.  重复1~2步骤,直至网络训练误差达到规定的程度或训练轮次达到设定值。

1.3 代码

🍄准备数据集

🍥导入数据并查看

# 导入数据并做相关转换
import matplotlib.pyplot as plt  #导入matplotlib库
import numpy as np      #导入numpy库
import pandas as pd     #导入pandas库
from sklearn.datasets import load_boston  #从sklearn数据集库导入boston数据

boston=load_boston()    #将读取的房价数据存储在boston变量中
print(boston.keys())    #打印boston包含元素
print(boston.feature_names)   #打印boston变量名

在波士顿房屋价格数据集中,data即为特征变量,target为目标变量,选取data中的RM、target中的MEDV变量进行单变量线性回归。

【其中房屋价格为目标变量,每个房屋的房间数量为特征变量。】

🍥简单查看一下数据

# data特征变量的前五行数据
bos = pd.DataFrame(boston.data)    #将data转换为DataFrame格式以方便展示
print(bos.head())   #一共五行数据,该代码是输出每行数据
print(bos)   #输出全部数据,共有505行每一行有13列
print (bos[5].head())   #data的第6列数据为RM 这个代码是输出每一行的下标为5的数据

# 把target打印出来
bos_target = pd.DataFrame(boston.target)    #将target转换为DataFrame格式以方便展示  前5组的target
print(bos_target)
print(bos_target.head())  #head函数是取前5个

🍥绘制房屋价格(MEDV)、每个房屋的房间数量(RM)的散点图。

# 绘制房屋价格(MEDV)、每个房屋的房间数量(RM)的散点图
X = bos.iloc[:,5:6]  #选取data中的RM变量
print(X.head())  #每一组数据的第6列数据,也就是每组数据的RM值
y = bos_target       #设定target为y
print(y.head())  #每一组数据的target值

plt.scatter(X, y)    #绘制散点图
plt.xlabel(u'RM')    #x轴标签
plt.ylabel(u'MEDV')  #y轴标签
plt.title(u'The relation of RM and PRICE') #标题
plt.show()

通过散点图可以看出,房屋价格(MEDV)、每个房屋的房间数量(RM)存在着一定的线性变化趋势,即每个房屋的房间数量越多,房屋价格越高。

下面就可以用单变量线性回归算法进一步进行拟合与预测。

🍄数据集划分

数据集的划分可以采用Scikit-learn库中的model-selection程序包来实现。

# 数据集划分
from sklearn.model_selection import train_test_split  #导入数据划分包 
# 把X、y转化为数组形式,以便于计算
X = np.array(X)
y = np.array(y) 
# 以25%的数据构建测试样本,剩余作为训练样本
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25)
X_train.shape,X_test.shape,y_train.shape,y_test.shape

🍄模型训练

from sklearn.linear_model import LinearRegression  #使用LinearRegression库
lr=LinearRegression()   #设定回归算法
lr.fit(X_train,y_train) #使用训练数据进行参数求解
print ('求解截距项为:',lr.intercept_)  #打印截距的值
print ('求解系数为:',lr.coef_)         #打印权重向量的值

输出的是LinearRegreesion()中的相关参数的设置。

fit_intercept:表示是否对训练数据进行中心化,若为false,则表示输入的数据已经进行了中心化处理,下面的过程里将不需要在进行中心化处理。

normalize:默认为False,表示是否对数据进行标准化处理。

copy_X:默认为True,表示是否对X复制。如果选择False,则直接对原数据进行覆盖,即经过中心化、标准化后,是否把新数据覆盖到原数据上。

n_jobs:默认为1,表示计算时设置的任务个数。如果选择-1,则代表使用所有的CPU。

🍄模型预测 

基于对参数的求解结果,对测试集进行预测。

🍄模型评估 

对拟合与预测结果进行效果评价,以判断求解结果是否良好。

#y_test与y_hat的可视化
plt.figure(figsize=(5,4))  #设置图片尺寸
t = np.arange(len(X_test))  #创建t变量
plt.plot(t, y_test, 'r', linewidth=2, label='y_test') #绘制y_test曲线
plt.plot(t, y_hat, 'g', linewidth=2, label='y_hat')   #绘制y_hat曲线
plt.legend() #设置图例
plt.xlabel('test data')
plt.ylabel('price')
plt.show()
plt.plot(t, y_test, 'r', linewidth=2, label='y_test') #绘制y_test曲线
解析参数:
x轴的值、y轴的值、折线宽度、线的名称

 

🍥散点图 

plt.figure(figsize=(10,6))   #绘制图片尺寸
plt.plot(y_test,y_hat,'o')   #绘制散点
plt.plot([-10,60],[-10,60], color="red", linestyle="--", linewidth=1.5) 
#这条线为什么是[-10,60],[-10,60],衡量的是预测值和真实值,我们期望它是1:1的
plt.axis([-10,60,-20,70])
plt.xlabel('ground truth')   #设置X轴坐标轴标签
plt.ylabel('predicted')      #设置y轴坐标轴标签
plt.grid()  #绘制网格线

 这段代码的解释如下

🍥损失函数 

from sklearn import metrics
from sklearn.metrics import r2_score
# 拟合优度R2的输出方法一
print ("r2:",lr.score(X_test, y_test))  #基于Linear-Regression()的回归算法得分函数,来对预测集的拟合优度进行评价
# 拟合优度R2的输出方法二
print ("r2_score:",r2_score(y_test, y_hat)) #使用metrics的r2_score来对预测集的拟合优度进行评价
# 用scikit-learn计算MAE
print ("MAE:", metrics.mean_absolute_error(y_test, y_hat)) #计算平均绝对误差
# 用scikit-learn计算MSE
print ("MSE:", metrics.mean_squared_error(y_test, y_hat))  #计算均方误差
# # 用scikit-learn计算RMSE
print ("RMSE:", np.sqrt(metrics.mean_squared_error(y_test, y_hat))) #计算均方根误差

 


补充知识点:

列表切片 左闭右开,详细可参考 python-list、tuple_python list tuple-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1361980.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024--Django平台开发-基础信息(一)

一、前置知识点 - Python环境搭建 (Python解释器、Pycharm、环境变量等) - 基础语法(条件、循环、输入输出、编码等) - 数据类型(整型、布尔型、字符串、列表、字典、元组、集合等) - 函数(文件操作、返回值、参数、作用域等) - 面向对象 (类、对象、封装、继承、多态等)包和模…

用友GRP-U8 ufgovbank.class XXE漏洞复现

0x01 产品简介 用友GRP-U8R10行政事业财务管理软件是用友公司专注于国家电子政务事业,基于云计算技术所推出的新一代产品,是我国行政事业财务领域最专业的政府财务管理软件。 0x02 漏洞概述 用友GRP-U8R10 ufgovbank.class 存在XML实体注入漏洞,攻击者可利用xxe漏洞获取服…

交换机04_远程连接

通过远程管理方式连接交换机 1、telnet简介 telnet 是应用层协议 基于传输层TCP协议的,默认端口:23 采用的是明文密码方式 不是很安全,一般用于内网管理。 2、ssh协议简介 ssh 是应用层的协议,基于传输层的TCP协议&#x…

OpenSource - File Preview 文件预览组件

文章目录 file-preview-spring-boot-starterkkFileView file-preview-spring-boot-starter https://github.com/wb04307201/file-preview-spring-boot-starter https://gitee.com/wb04307201/file-preview-spring-boot-starter 一个文档在线预览的中间件,可通过简…

计算机毕业设计 基于javaweb的宠物认养系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

scanf函数和printf函数

1.scanf函数 int scanf ( const char * format, ... );函数功能: 从键盘读取数据如果读取成功,返回读取到的数据个数如果读取失败,返回EOF 不常见的读取格式: %md -->读取m个宽度的数据 int main() {int n 0;scanf("%4d&…

小家电type-c接口PD诱骗

小家电Type-C接口PD诱骗:未来充电的便捷与安全 随着科技的不断发展,Type-C接口已经成为了许多小家电产品的标配。而PD(Power Delivery)诱骗技术,作为一种新兴的充电技术,更是为小家电产品的充电带来了前所…

C++ 虚函数virtual的引入和应用

来回顾一下使用引用或指针调用方法的过程。请看下面的代码: BrassPlus ophelia; // 子类对象 Brass * bp; // 基类指针 bp &ophelia; // 让基类指针指向子类对象 bp->ViewAcct(); // ViewAcct() 如果基类和子类都有这个函…

基于冒泡排序思想的qsort函数的模拟实现

𝙉𝙞𝙘𝙚!!👏🏻‧✧̣̥̇‧✦👏🏻‧✧̣̥̇‧✦ 👏🏻‧✧̣̥̇:Solitary-walk ⸝⋆ ━━━┓ - 个性标签 - :来于“云”的“羽球人”。…

一文读懂傅里叶变换处理图像的原理 !!

傅里叶变换处理图像 文章目录 前言 快速傅里叶变换 第一步:计算二维快速傅里叶变换 第二步:将零频域部分移到频谱中心 编码 低通滤波器 高通滤波器 理想的滤波器 巴特沃思(Btterworth)滤波器 高斯(Gaussian&#xff09…

jenkins安装报错:No such plugin: cloudbees-folder

jenkins安装报错:No such plugin: cloudbees-folder 原因是缺少cloudbees-folder.hpi插件 解决: 一,重新启动 http://xxx:8800/restart 二,跳到重启界面时,点击系统设置 三,找到安装插件,然…

CSS 实现两个圆圈重叠部分颜色不同

这是期望实现的效果,由图可知,圆圈底图透明度是0.4,左侧要求重叠部分透明度是0.7,所以不能通过简单的透明度叠加来实现最右侧的效果。 这就需要另外新建一个图层来叠加在两个圆圈重叠上方。 直接看代码 .circle_hight {width: 1…

【软考】项目活动图

目录 一、例题11.1 题目1.2 分析各个节点的最早开始时间1.3 最早开始时间分析思路1.4 项目完成最少时间1.5 关键路径1.6 松弛时间 一、例题1 1.1 题目 1.某软件项目的活动图如下图所示,其中顶点表示项目里程碑,连接顶点的边表示包含的活动,边…

KVM虚拟化技术

在当今的云计算时代,虚拟化技术已经成为了企业和个人用户的首选。而在众多虚拟化技术中,KVM(Kernel-based Virtual Machine)虚拟化技术因其高性能、低成本和灵活性而备受青睐。本文将介绍KVM虚拟化技术的原理、特点以及应用场景。…

服务器GPU温度过高挂掉排查记录

服务器GPU挂掉 跑深度学习的代码的时候发现中断了。通过命令查看: nvidia-smi显示 Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error。感觉很莫名其妙。通过重启大法之后,又能用一段时间。 shutdown -r now但是过了一个小…

【软件测试】学习笔记-测试覆盖率

测试覆盖率通常被用来衡量测试的充分性和完整性,从广义的角度来讲,测试覆盖率主要分为两大类,一类是面向项目的需求覆盖率,另一类是更偏向技术的代码覆盖率。 需求覆盖率 需求覆盖率是指测试对需求的覆盖程度,通常的做…

即时设计:设计流程图,让您的设计稿更具条理和逻辑

流程图小助手 在设计工作中,流程图是一种重要的工具,它可以帮助设计师清晰地展示设计思路和流程,提升设计的条理性和逻辑性。今天,我们要向您推荐一款强大的设计工具,它可以帮助您轻松为设计稿设计流程图,让…

关于CNN卷积神经网络与Conv2D标准卷积的重要概念

温故而知新,可以为师矣! 一、参考资料 深入解读卷积网络的工作原理(附实现代码) 深入解读反卷积网络(附实现代码) Wavelet U-net进行微光图像处理 卷积知识点 CNN网络的设计论:NAS vs Handcra…

基于web3+solidity的众筹项目

基本配置:node、npm、yarn,安装ganache,chrome,chrome安装插件MetaMask, 主要功能:目的是实现一个简单的众筹平台,允许用户发起筹款项目、捐款、提出使用资金请求以及证明人证明。 部分合约&…

mysql之视图执行计划

一.视图 1.1视图简介 1.2 创建视图 1.3视图的修改 1.4视图的删除 1.5查看视图 二.连接查询案例 三.思维导图 一.视图 1.1视图简介 虚拟表,和普通表一样使用 MySQL中的视图(View)是一个虚拟表,其内容由查询定义。与实际表不…