机器学习实战(3):线性回归——预测连续变量

news2025/2/19 16:45:23

第3集:线性回归——预测连续变量

在机器学习的世界中,线性回归是最基础、最直观的算法之一。它用于解决回归问题,即预测连续变量(如房价、销售额等)。尽管简单,但线性回归却是许多复杂模型的基石。今天我们将深入探讨线性回归的基本原理,并通过实践部分使用 Boston 房价数据集 构建一个线性回归模型。


在这里插入图片描述

线性回归的基本原理

什么是线性回归?

线性回归是一种监督学习算法,其目标是找到一条直线(或超平面),使得这条直线能够最好地拟合数据点。对于单变量线性回归,公式如下:
y = w 0 + w 1 x y = w_0 + w_1x y=w0+w1x
其中:
y y y 是目标变量(预测值)。
x x x 是输入特征。
w 0 w_0 w0 是截距(偏置项)。
w 1 w_1 w1 是权重(斜率)。

图1:线性回归示意图
(图片描述:波士顿房价预测)
在这里插入图片描述

在线性回归中,我们的任务是找到最佳的 w 0 w_0 w0 w 1 w_1 w1,使得预测值与真实值之间的误差最小化。


损失函数与梯度下降法

损失函数

为了衡量模型的好坏,我们定义了一个损失函数(Loss Function)。最常用的损失函数是 均方误差(Mean Squared Error, MSE)
M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 MSE=n1i=1n(yiy^i)2
其中:
n n n 是样本数量。
y i y_i yi 是第 i 个样本的真实值。
y ^ i \hat{y}_i y^i 是第 i 个样本的预测值。

MSE 的目标是让所有样本的预测误差平方和最小。

梯度下降法

梯度下降是一种优化算法,用于最小化损失函数。其核心思想是沿着损失函数的负梯度方向更新参数 w w w,直到达到最优解。更新公式为:
w : = w − α ⋅ ∂ J ( w ) ∂ w w := w - \alpha \cdot \frac{\partial J(w)}{\partial w} w:=wαwJ(w)
其中:
α \alpha α 是学习率(控制步长)。
J ( w ) J(w) J(w) 是损失函数。

图2:梯度下降过程
(图片描述:三维曲面表示损失函数,小球从高处滚向最低点,代表参数逐步优化的过程。)
在这里插入图片描述


多元线性回归模型

当输入特征不止一个时,我们使用 多元线性回归。公式扩展为:
y = w 0 + w 1 x 1 + w 2 x 2 + . . . + w p x p y = w_0 + w_1x_1 + w_2x_2 + ... + w_px_p y=w0+w1x1+w2x2+...+wpxp
这可以写成矩阵形式:
y = X ⋅ w \mathbf{y} = \mathbf{X} \cdot \mathbf{w} y=Xw
其中:
y \mathbf{y} y 是目标变量向量。
X \mathbf{X} X 是特征矩阵。
w \mathbf{w} w 是权重向量。


如何评估回归模型性能

评估回归模型的性能通常使用以下指标:

1. 均方误差(MSE)

MSE 衡量预测值与真实值之间的平均误差平方。越小越好。

2. 决定系数(R²)

R² 表示模型对数据变异性的解释能力,取值范围为 [0, 1]。越接近 1,说明模型拟合效果越好。

示例代码(Python实现):
from sklearn.metrics import mean_squared_error, r2_score

# 计算 MSE 和 R²
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MSE: {mse:.2f}, R²: {r2:.2f}")

实践部分:使用 Boston 房价数据集构建线性回归模型

数据集简介

Boston 房价数据集包含波士顿地区房屋价格及其相关特征,共有 506 条记录和 13 个特征。目标是预测房屋的中位数价格(单位:千美元)。

完整代码

import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 加载数据
boston = load_boston()
data = pd.DataFrame(boston.data, columns=boston.feature_names)
data['PRICE'] = boston.target

# 分割数据集
X = data.drop('PRICE', axis=1)
y = data['PRICE']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型性能
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"模型评估结果:")
print(f"MSE: {mse:.2f}, R²: {r2:.2f}")

运行结果:

模型评估结果:
MSE: 24.29, R²: 0.67

可视化展示

在波士顿房价预测任务中,通过可视化展示线性回归的预测直线和散点图可以帮助我们直观地理解模型的拟合效果。以下增加可视化模块的完整实现。


完整代码(包含可视化模块)

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 加载数据
boston = load_boston()
data = pd.DataFrame(boston.data, columns=boston.feature_names)
data['PRICE'] = boston.target

# 分割数据集
X = data[['RM']]  # 使用房间数(RM)作为单一特征进行可视化
y = data['PRICE']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型性能
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"模型评估结果:")
print(f"MSE: {mse:.2f}, R²: {r2:.2f}")

# 可视化模块:绘制预测直线与散点图
plt.figure(figsize=(10, 6))

# 将 X_test 和 y_pred 转换为 NumPy 数组,并确保是一维的
X_test_array = X_test.values.flatten()  # 转换为一维数组
y_pred_array = y_pred.flatten()         # 转换为一维数组

# 绘制真实值的散点图
plt.scatter(X_test_array, y_test, color='blue', label='True Values', alpha=0.6)

# 绘制预测直线
plt.plot(X_test_array, y_pred_array, color='red', linewidth=2, label='Predicted Line')

# 添加标题和标签
plt.title('Linear Regression: Predicted vs True Values', fontsize=16)
plt.xlabel('Average Number of Rooms (RM)', fontsize=12)
plt.ylabel('House Price (in $1000s)', fontsize=12)
plt.legend()

# 显示图表
plt.show()

代码解析
1. 选择单一特征进行可视化

为了简化可视化过程,我们选择了 RM(每栋住宅的平均房间数)作为唯一特征。这样可以将问题从多元线性回归降维到一元线性回归,便于绘制二维散点图和预测直线。

2. 绘制散点图
  • 使用 plt.scatter 绘制测试集中真实房价与房间数的关系。
  • 设置颜色为蓝色,透明度为 0.6,以便更好地观察数据分布。
3. 绘制预测直线
  • 使用 plt.plot 绘制线性回归模型的预测直线。
  • 预测值由 model.predict(X_test) 计算得出。
  • 设置颜色为红色,线宽为 2,突出显示预测直线。
4. 添加标题、标签和图例
  • 图表标题说明了可视化内容。
  • 添加 x 轴和 y 轴标签,分别表示房间数和房价。
  • 使用 plt.legend() 添加图例,区分真实值和预测值。

可视化结果

图1:线性回归预测直线与散点图
(图片描述:二维平面上展示了测试集的真实房价(蓝色散点)和线性回归模型的预测直线(红色)。大部分散点分布在直线附近,表明模型具有一定的拟合能力。)
在这里插入图片描述


通过增加可视化模块,我们可以直观地看到线性回归模型如何拟合数据。这种可视化方法不仅有助于理解模型的表现,还能帮助发现潜在的问题(如欠拟合或过拟合)。


总结

本文介绍了线性回归的核心概念,包括基本原理、损失函数、梯度下降法以及模型评估方法。通过实践部分,我们成功使用 Boston 房价数据集构建了一个线性回归模型,并对其性能通过数据分析和可视化进行了评估。是一篇非常具有实战价值的文章。

尽管线性回归简单易懂,但它仍然是许多实际问题的首选工具。希望这篇文章能帮助你更好地理解这一经典算法!


下集预告:第4集:逻辑回归——分类问题的基础

参考资料

  • Scikit-learn 文档: https://scikit-learn.org/stable/documentation.html
  • Boston 房价数据集: https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2299091.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【漫话机器学习系列】093.代价函数和损失函数(Cost and Loss Functions)

代价函数和损失函数(Cost and Loss Functions)详解 1. 引言 在机器学习和深度学习领域,代价函数(Cost Function)和损失函数(Loss Function)是核心概念,它们决定了模型的优化方向。…

LabVIEW 天然气水合物电声联合探测

天然气水合物被认为是潜在的清洁能源,其储量丰富,预计将在未来能源格局中扮演重要角色。由于其独特的物理化学特性,天然气水合物的探测面临诸多挑战,涉及温度、压力、电学信号、声学信号等多个参数。传统的人工操作方式不仅效率低…

【记忆化搜索】最长递增子序列

文章目录 300. 最长递增子序列解题思路:递归 -> 记忆化搜索 300. 最长递增子序列 300. 最长递增子序列 ​ 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 ​ 子序列 是由数组派生而来的序列,删除(或不删除&am…

Tomcat的升级

一、为什么Tomcat需要升级 在生产环境中,我们都会指定对应的Tomcat版本进行安排配置,但是由于Tomcat厂商对于小版本的更新迭代会将一些Bug修复,这个时候在生产中出现问题/预防出现问题,可以通过小版本的升级解决前提:…

4-制作UI

创建模块文件夹 Unity编辑器->Tools->YIUI自动化工具,在新增模块名称那里输入模块名字并点击创建。便可看到在GameRes/YIUI文件夹下有新建的文件夹与内容了。里面包含图集、预制体、Sprites。如果进行预制体的修改,则需要双击进入再修改&#xff0…

vue3+element-plus中的el-table表头和el-table-column内容全部一行显示完整(hook函数)

hook函数封装 export const useTableColumnWidth _this > {const { refTable } _thisconst columnWidthObj ref()const getTableColumnWidth cb > {nextTick(() > {columnWidthObj.value {}// 获取行rowsconst tableEle refTable?.refBaseTable?.$elif (!tab…

DeepSeek 助力 Vue 开发:打造丝滑的开关切换(Switch)

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…

使用Python爬虫实时监控行业新闻案例

目录 背景环境准备请求网页数据解析网页数据定时任务综合代码使用代理IP提升稳定性运行截图与完整代码总结 在互联网时代,新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时…

语言大模型基础概念 一(先了解听说过的名词都是什么)

SFT(监督微调)和RLHF(基于人类反馈的强化学习)的区别 STF(Supervised Fine-Tuning)和RLHF(Reinforcement Learning from Human Feedback)是两种不同的模型训练方法,分别…

DeepSeek v3 技术报告阅读笔记

注 本文参考 DeepSeek-v3 / v2 / v1 Technical Report 及相关参考模型论文本文不包括基础的知识点讲解,为笔记/大纲性质而非教程,建议阅读技术报告原文交流可发送至邮箱 henryhua0721foxmail.com 架构核心 核心: MLA 高效推理DeepSeekMOE 更…

GESP2024年9月认证C++七级( 第三部分编程题(1)小杨寻宝)

参考程序&#xff1a; #include <bits/stdc.h> using namespace std; const int N 1e510; vector<int> g[N]; // 图的邻接表 int col[N], dep[N], has[N];// 深度优先遍历&#xff0c;计算每个节点的深度 void dfs(int x, int fa) {dep[x] dep[fa] 1; // 计算…

解锁电商数据宝藏:淘宝商品详情API实战指南

在电商蓬勃发展的今天&#xff0c;数据已成为驱动业务增长的核心引擎。对于商家、开发者以及数据分析师而言&#xff0c;获取精准、实时的商品数据至关重要。而淘宝&#xff0c;作为国内最大的电商平台&#xff0c;其海量商品数据更是蕴含着巨大的价值。 本文将带你深入探索淘…

webshell通信流量分析

环境安装 Apatche2 php sudo apt install apache2 -y sudo apt install php libapache2-mod-php php-mysql -y echo "<?php phpinfo(); ?>" | sudo tee /var/www/html/info.php sudo ufw allow Apache Full 如果成功访问info.php&#xff0c;则环境安…

在 rtthread中,rt_list_entry (rt_container_of) 已知结构体成员的地址,反推出结构体的首地址

rt_list_entry (rt_container_of)宏定义&#xff1a; /*** rt_container_of - return the start address of struct type, while ptr is the* member of struct type.*/ #define rt_container_of(ptr, type, member) \((type *)((char *)(ptr) - (unsigned long)(&((type *…

趣味魔法项目 LinuxPDF —— 在 PDF 中启动一个 Linux 操作系统

最近&#xff0c;一位开源爱好者开发了一个LinuxPDF 项目&#xff08;ading2210/linuxpdf: Linux running inside a PDF file via a RISC-V emulator&#xff09;&#xff0c;它的核心功能是在一个 PDF 文件中启动并运行 Linux 操作系统。它通过巧妙地使用 PDF 文件格式中的 Ja…

【Linux】Socket编程—TCP

&#x1f525; 个人主页&#xff1a;大耳朵土土垚 &#x1f525; 所属专栏&#xff1a;Linux系统编程 这里将会不定期更新有关Linux的内容&#xff0c;欢迎大家点赞&#xff0c;收藏&#xff0c;评论&#x1f973;&#x1f973;&#x1f389;&#x1f389;&#x1f389; 文章目…

新数据结构(9)——Java异常体系

异常的种类 程序本身通常无法主动捕获并处理错误&#xff08;Error&#xff09;&#xff0c;因为这些错误通常表示系统级的严重问题&#xff0c;但程序可以捕获并处理异常&#xff08;Excrption&#xff09;&#xff0c;而Error则被视为一种程序无法或不应尝试恢复的异常类型。…

NixHomepage - 简单的个人网站

&#x1f4bb; NixHomepage - 简单的个人网站 推荐下个人的开源项目&#xff0c;演示网站&#xff0c;项目链接 https://github.com/nixgnauhcuy/NixHomepage&#xff0c;喜欢的话可以为我的项目点个 Star~ &#x1f4f7; 预览 ⚙️ 功能特性 多平台适配 明亮/暗黑模式切换 W…

HCIA项目实践---OSPF的知识和原理总结

9.5 OSPF 9.5.1 从哪些角度评判一个动态路由协议的好坏&#xff1f; &#xff08;1&#xff09;选路佳&#xff08;是否会出环&#xff09; OSPF 协议采用链路状态算法&#xff0c;通过收集网络拓扑信息来计算最短路径&#xff0c;从根本上避免了路由环路的产生。 &#xff08…

Calico网络组件本地部署支持IPv6(Kubernetes)

知其然 问题背景 因项目现场的网络正逐步从IPv4向IPv6迁移&#xff0c;这几年现场服务器基本上都配置了双栈&#xff1b;但随着IPv6铺开&#xff0c;出现了很多纯IPv6的服务器&#xff0c;并且要求通信优先使用IPv6。 在项目建设之初&#xff0c;其实就考虑了上述情况&#…