用Python实现9大回归算法详解——04. 多项式回归算法

news2024/12/28 18:38:14

多项式回归 是线性回归的一种扩展,它通过将输入特征的多项式项(如平方、立方等)引入模型中,以捕捉数据中非线性的关系。虽然多项式回归属于线性模型的范畴,但它通过增加特征的多项式形式,使得模型能够拟合非线性数据。

1. 多项式回归的基本概念与动机

1.1 为什么使用多项式回归?

在很多实际应用中,特征与目标变量之间的关系并不是简单的线性关系,而是更加复杂的非线性关系。虽然可以通过增加特征的数量来捕捉这种非线性关系,但有时直接将特征进行多项式扩展是更为自然的选择。

多项式回归通过引入原始特征的高次项来捕捉非线性关系。例如,如果 y 与 x 之间的关系是二次或三次关系,则线性回归可能无法很好地拟合数据,而多项式回归可以更准确地捕捉这种关系。

1.2 多项式回归的模型形式

对于一个变量 x 的二次多项式回归模型,其形式为:

y = \beta_0 + \beta_1 x + \beta_2 x^2 + \epsilon

对于  n 阶的多项式回归,模型形式为:

y = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3 + \ldots + \beta_n x^n + \epsilon

  • y 是目标变量。
  • x是自变量。
  • \beta_0 , \beta_1 , \beta_2 ,..., \beta_n 是模型的回归系数。
  • \epsilon是误差项。
1.3 多项式回归的动机

多项式回归的主要动机在于,通过增加特征的多项式项(如x^2, x^3 等),可以在线性模型的框架内处理非线性关系。多项式回归仍然是线性模型,因为它对系数的求解是线性的,但它能够拟合非线性数据。

1.4 多项式回归的步骤

多项式回归的主要步骤如下:

  1. 特征扩展:将原始特征 xxx 扩展为多项式特征x, x^2, x^3, \ldots, x^n
  2. 线性回归:使用线性回归模型拟合扩展后的多项式特征。
  3. 模型预测:使用训练好的模型对新数据进行预测。

2. 多项式回归的数学推导与最小二乘法

2.1 特征扩展

假设我们有一个自变量 x,通过将其扩展为[1, x, x^2, x^3, \ldots, x^n],我们可以将原始的线性回归模型转化为多项式回归模型。

对于 n 阶多项式回归,模型形式为:

y = \beta_0 + \beta_1 x + \beta_2 x_2 + \ldots + \beta_n x_n + \epsilon

其中,x_1 = x, x_2 = x^2, \ldots, x_n = x^n

2.2 损失函数的定义

与线性回归类似,多项式回归的目标也是最小化残差平方和。损失函数为:

\text{Loss} = \frac{1}{2m} \sum_{i=1}^{m} \left( y_i - \hat{y}_i \right)^2

其中:

  • m 是样本数。
  • y_i 是第 i 个样本的实际值。
  • \hat{y}_i 是第 i 个样本的预测值,计算公式为:

\hat{y}_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \ldots + \beta_n x_i^n

2.3 最小二乘法求解

多项式回归与线性回归的本质相同,都是通过最小化损失函数来求解回归系数 \beta。我们可以通过矩阵运算来求解:

\hat{\beta} = (X^TX)^{-1}X^Ty

其中:

  • X是特征矩阵,形状为m \times (n+1)
  • y是目标变量向量,形状为 m \times 1
  • \hat{\beta} 是回归系数向量,形状为 (n+1) \times 1

3. 多项式回归的常见问题

3.1 过拟合问题

随着多项式阶数的增加,模型的复杂度也随之增加。虽然高阶多项式可以很好地拟合训练数据,但它们可能会捕捉到数据中的噪声,导致在测试数据上的泛化能力下降,即出现过拟合。

3.2 偏差-方差权衡

在选择多项式阶数时,需要在模型的偏差和方差之间进行权衡。低阶多项式模型可能存在较大的偏差,而高阶多项式模型可能存在较大的方差。理想情况下,我们希望选择一个合适的阶数,使得模型的偏差和方差都处于较低水平。

4. 多项式回归案例:捕捉非线性关系

接下来,我们通过一个具体的案例,展示如何使用多项式回归捕捉数据中的非线性关系。

4.1 数据生成与预处理

我们首先生成一个模拟数据集,包含 100 个样本,目标变量与自变量之间存在二次非线性关系。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

# 生成模拟数据
np.random.seed(42)
X = 2 - 3 * np.random.normal(0, 1, 100)  # 100个样本
y = X - 2 * (X ** 2) + np.random.normal(-3, 3, 100)  # 二次非线性关系

# 查看数据
df = pd.DataFrame({'Feature': X, 'Target': y})
print(df.head())

输出:

    Feature     Target
0 -0.496714   -2.562097
1  1.861735   -5.639160
2 -0.647689    0.682448
3 -1.523030  -11.215062
4  0.234153   -4.478066

解释

  • 生成的模拟数据包含一个自变量 X和一个目标变量y。特征X 是从正态分布中采样的随机变量,而目标变量 y 是通过一个二次方程生成的,并加入了一些噪声。
4.2 特征扩展与模型训练

接下来,我们将特征扩展为二次多项式特征,并使用线性回归模型进行训练。

# 将数据集拆分为训练集和测试集
X = X[:, np.newaxis]  # 将X转化为列向量
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建二次多项式特征
polynomial_features = PolynomialFeatures(degree=2)
X_train_poly = polynomial_features.fit_transform(X_train)

# 使用线性回归模型训练
model = LinearRegression()
model.fit(X_train_poly, y_train)

# 输出模型系数
print("模型截距 (Intercept):", model.intercept_)
print("模型系数 (Coefficients):", model.coef_)

输出:

模型截距 (Intercept): -2.6240444635236564
模型系数 (Coefficients): [ 0.         -1.97702707 -2.03275601]

解释

  • 模型截距 (Intercept):表示当所有特征都为零时,目标变量的预测值。
  • 模型系数 (Coefficients):系数表示每个多项式特征对目标变量的贡献。这里的一次项系数为 -1.977,二次项系数为 -2.033,模型能够捕捉到数据中的二次非线性关系。
4.3 模型预测与可视化

我们使用训练好的模型对测试集进行预测,并绘制回归曲线。

# 对测试集进行预测
X_test_poly = polynomial_features.transform(X_test)
y_pred = model.predict(X_test_poly)

# 绘制原始数据点和回归曲线
plt.scatter(X, y, color='blue', label='Data Points')
plt.plot(X_test, y_pred, color='red', label='Polynomial Regression Curve')
plt.xlabel('Feature')
plt.ylabel('Target')
plt.title('Polynomial Regression')
plt.legend()
plt.show()

输出:

可视化解释

  • 数据点(蓝色):表示原始数据的分布,显示出明显的非线性趋势。
  • 回归曲线(红色):模型拟合的结果,通过二次多项式回归,能够很好地捕捉到数据中的二次非线性关系。
4.4 模型评估与结果分析

我们使用均方误差(MSE)和决定系数(R^2)来评估模型的性能,并分析结果。

from sklearn.metrics import mean_squared_error, r2_score

# 计算均方误差 (MSE) 和决定系数 (R²)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("均方误差 (MSE):", mse)
print("决定系数 (R²):", r2)

输出:

均方误差 (MSE): 8.825660578899377
决定系数 (R²): 0.9219126943457243

解释

  • 均方误差 (MSE):MSE 表示预测值与实际值之间的平均平方误差。MSE 越小,模型的预测效果越好。这里的 MSE 为 8.826,说明模型的预测误差较小。
  • 决定系数 (R²)R^2 表示模型解释了目标变量方差的百分比。这里的R^2 为 0.922,说明模型解释了 92.2% 的目标变量方差,拟合效果较好。
4.5 不同阶数的多项式回归对比

为了更全面地理解多项式回归的影响,我们可以尝试使用不同阶数的多项式回归模型,并比较它们的表现。

degrees = [1, 2, 3, 4, 5]
mse_list = []
r2_list = []

for degree in degrees:
    polynomial_features = PolynomialFeatures(degree=degree)
    X_train_poly = polynomial_features.fit_transform(X_train)
    X_test_poly = polynomial_features.transform(X_test)
    
    model = LinearRegression()
    model.fit(X_train_poly, y_train)
    y_pred = model.predict(X_test_poly)
    
    mse_list.append(mean_squared_error(y_test, y_pred))
    r2_list.append(r2_score(y_test, y_pred))

# 输出不同阶数模型的MSE和R²
for degree, mse, r2 in zip(degrees, mse_list, r2_list):
    print(f"Degree: {degree}, MSE: {mse}, R²: {r2}")

输出:

Degree: 1, MSE: 22.834736038833358, R²: 0.7483870820958233
Degree: 2, MSE: 8.825660578899377, R²: 0.9219126943457243
Degree: 3, MSE: 8.715869441254588, R²: 0.9230105125414327
Degree: 4, MSE: 8.749054761125448, R²: 0.9226821543161257
Degree: 5, MSE: 8.909704494964572, R²: 0.9211392250804578

解释

  • 当阶数为 1 时,模型是一个简单的线性回归,无法捕捉数据中的非线性关系,因此 MSE 较大,R^2 较低。
  • 当阶数为 2 时,模型能够准确捕捉二次非线性关系,因此 MSE 最小,R^2最高。
  • 当阶数继续增加时,MSE 和 R^2没有显著提升,甚至略有下降,这表明过高的阶数并没有带来更好的模型表现,反而可能导致过拟合。

5. 多项式回归的优缺点及应用

5.1 优点
  • 捕捉非线性关系:多项式回归能够捕捉数据中的非线性关系,并且可以通过调整多项式的阶数灵活应对不同的非线性复杂度。
  • 容易实现:多项式回归建立在简单的线性回归模型之上,容易实现且计算效率高。
5.2 缺点
  • 容易过拟合:当多项式的阶数过高时,模型容易过拟合训练数据,泛化能力下降。
  • 特征膨胀:随着多项式阶数的增加,特征数量迅速增加,可能导致计算复杂度增加,并需要更多的内存和计算资源。
5.3 应用场景
  • 非线性数据建模:在特征与目标变量之间存在明显的非线性关系时,多项式回归是一个有效的建模工具。
  • 数据预处理和特征工程:多项式扩展可以作为特征工程的一部分,将原始特征转换为更复杂的特征表示,以便于捕捉复杂的模式。

6. 总结

多项式回归是一种强大的回归方法,通过对特征进行多项式扩展,它能够捕捉数据中的非线性关系。虽然多项式回归容易出现过拟合问题,但通过适当的正则化或交叉验证方法,可以有效地控制模型的复杂度。在实际应用中,多项式回归因其简洁和高效性,被广泛用于各种非线性数据的建模任务中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2043678.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python-NLP:4句法分析

文章目录 句法分析概述句法分析分类句法分析任务 句法结构分析基本概念语法形式化基本方法 依存句法分析浅层句法分析 句法分析概述 句法分析(syntacticparsing)是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构(syntactic structure)或句子中词汇之…

华三超融合服务器硬件监控指标解读

随着信息技术的快速发展,超融合服务器因其高效、灵活的特点,在企业IT架构中扮演着越来越重要的a角色。华三(H3C)作为业界知名的网络设备供应商,其超融合服务器产品在市场上广受欢迎。 为了确保这些服务器的稳定运行&am…

asp.net core 调用wps实现word转pdf

安装wps https://www.wps.cn/ 创建.net core控制项目 添加com引用,搜索wps 准备word,名字叫001.docx word转pdf 编写代码 namespace WPSStu01 {internal class Program{static void Main(string[] args){Console.WriteLine("转化开始&q…

JAVA maven pom下载失败问题处理

如果直接在IDEA编辑器中中下载pom依赖 下载失败,可以直接去官网下载jar依赖包(也可以用其他方式,比如找同事拷贝等最终目的是本地需要这个包) 官网点击地址跳转 搜索你需要的包点击进入下载界面 选择对应的版本进行下载 () 下载界面中有对应的当前包的pom坐标个当前jar包 坐…

163邮箱注销后不能再注册

网易邮箱注销后不能再注册 一个手机号只能注册15个163邮箱 再注册会报异常 申请注销邮箱要等15天,才是永久注销 永久注销邮箱后,在拿这个手机号注册新邮箱,还是不行

尊享奢睡新境界:康姿百德柔压磁性枕匠心设计引领品质睡眠革命

重塑睡眠艺术:揭秘康姿百德豪华磁性枕,个性化支撑与卓越透气性的完美融合 在现代家居生活中,细节往往决定了整体的品质。而在睡眠方面,一款好的枕头能够改变我们的睡眠体验。康姿百德柔压磁性枕(豪华款)正…

Anaconda使用

查看conda版本: conda -V查看支持的cuda版本: nvidia -smi 输出为: Mon Aug 12 12:35:26 2024 ----------------------------------------------------------------------------- | NVIDIA-SMI 528.92 Driver Version: 528.…

string详解(2)— 模拟实现

1.经典的string类实现 最主要是实现string类的构造、拷贝构造、赋值运算符重载以及析构函数。 (1) String.h 为了与库里的string进行区分我们使用String&#xff1a; // String.h#pragma once #define _CRT_SECURE_NO_WARNINGS 1 #include<iostream> #include<stri…

在linux上架设Web服务器Apache(Ubuntu)

欢迎诸位来阅读在下的博文~ 在这里&#xff0c;在下会不定期发表一些浅薄的知识和经验&#xff0c;望诸位能与在下多多交流&#xff0c;共同努力! 江山如画&#xff0c;客心如若&#xff0c;欢迎到访&#xff0c;一展风采 文章目录 背景1. 安装 Apache2. 启动和检查 Apache 服务…

计算机的错误计算(六十三)

摘要 计算机的错误计算&#xff08;五十六&#xff09;探讨了大数的正切函数值的错误计算。本节讨论大数的余切函数的计算精度问题。 例1. 已知 计算 不妨用 3种方法计算。 (1) 在 Python 中利用 直接贴图&#xff1a; (2) 在 Java 中利用 若运行下列代码 import ja…

【Python快速入门和实践016】Python常用脚本-对视频抽取指定帧数并保存

一、功能介绍 这段代码的功能是从一个视频文件中抽取指定数量的帧&#xff0c;并将这些帧保存为图像文件。步骤如下&#xff1a; 设置路径和参数&#xff1a; video_path&#xff1a;视频文件的路径。image_folder&#xff1a;保存抽取图像的目录。num_frames_to_extract&#…

FL Studio21.2.4最新中文版免费下载汉化包破解补丁

&#x1f389; FL Studio 21中文版新功能全解析&#xff01;让你的音乐制作更加高效&#xff01; 嘿&#xff0c;各位音乐制作的小伙伴儿们&#xff0c;今天我要安利一款你们绝对会爱上的神器——FL Studio 21中文版&#xff01;这款软件不仅功能强大&#xff0c;而且操作简便…

【ARM】解析MDK生成的C Compiler list文件的具体内容

1、 文档目标 用于解析MDK生成的C Compiler list文件的具体内容。 2、 问题场景 在MDK的options窗口中的Listing栏中有生成对应的源文件的编译列表&#xff08;如图2-1&#xff09;。但是&#xff0c;对于这个生成的列表中包含什么具体的信息就不太清楚了。 图2-1 3、软硬件…

智慧安防/一网统管/视频监控EasyCVR视频汇聚平台的视频轻量化特点及应用

在数字化时代&#xff0c;视频监控已成为保障公共安全、提升管理效率的重要手段。随着技术的不断进步&#xff0c;EasyCVR视频汇聚平台应运而生&#xff0c;平台以其独特的视频轻量化特点在安防监控领域展现出强大的应用潜力。本文将详细探讨EasyCVR视频汇聚平台的视频轻量化特…

空间变换其参数化二

目录 刚性变换的问题描述 最优平移向量求解 最优旋转矩阵求解 反射矩阵消除 基于SVD刚性变换矩阵计算流程总结 刚性变换的问题描述 令P{p_1,p_2,...,p_n}和Q{q_1,q_2,...,q_n}是R^d空间内的两组对应的点。希望找到一个刚性的变换&#xff0c;在最小二乘的意义上最优地对齐…

如何使用pholcus库进行多线程网页标题抓取以提高效率?

在当今信息爆炸的时代&#xff0c;数据抓取已成为获取信息的重要手段。Go语言因其高效的并发处理能力而成为编写爬虫的首选语言之一。pholcus库&#xff0c;作为一个强大的Go语言爬虫框架&#xff0c;提供了多线程抓取的能力&#xff0c;可以显著提高数据抓取的效率。本文将介绍…

搭建内网开发环境(四)|基于nexus搭建maven私服

引言 在前面一篇教程中&#xff0c;通过 docker-compose 快速搭建好了开发环境所需的应用&#xff0c;本文介绍基于 nexus 搭建 maven 私服&#xff1b;虽然本篇教程是基于内网的&#xff0c;但是本文会分别介绍在拥有外网的情况下配置私服和内网的情况下配置私服&#xff0c;…

【论文阅读03】用于海洋物体检测的多注意力路径聚合网络

来源&#xff1a;用于海洋物体检测的多注意力路径聚合网络 |应用智能 (springer.com) 一、背景&#xff1a; 水下图像存在偏色、对比度低、能见度低等问题&#xff0c;使得海洋物体难以被探测到。这些都增加了海上目标探测的难度。 目前流行的检测器方法是基于卷积神经网络&…

怎么将pdf转为ppt文件?pdf转ppt的8个方法

在诸多职场与学术交流的场合中&#xff0c;我们时常面临将详尽的PDF文件转化为生动且易于编辑的PPT演示文稿的需求。这一转换不仅是为了满足演示时的灵活性&#xff0c;更是为了提升信息传递的效率与观众的理解度。从简单的在线工具到功能全面的专业软件&#xff0c;我们拥有多…

使用balenaEtcher制作 macOS 系统启动u盘

第一步&#xff1a;首先准备一个U盘要求8G(macOS Catalina 10.15.x及以上要求16G)或以上的空U盘&#xff0c;有资料会被格式化 第二步&#xff1a;下载并安装etcher https://www.apple114.com/threads/83/ 第三步&#xff1a;下载macOS引导镜像 (通过序列号查询电脑确认电脑…