【机器学习】——线性回归(自我监督学习)

news2024/9/28 5:46:27

文章目录

    • 1. 线性回归的定义
    • 2. 线性回归的模型
    • 3. 线性回归的核心思想
    • 4. 线性回归的求解
    • 5. 线性回归的假设
    • 6. 模型评估
    • 7. 线性回归的优缺点
    • 8. 线性回归的扩展
    • 9. 线性回归的实际应用
    • 10. 示例代码(Python实现)

线性回归详细介绍

1. 线性回归的定义

线性回归(Linear Regression)是一种用于建立自变量和因变量之间线性关系的统计方法。它假设两个变量之间具有线性关系,并通过拟合一条直线来预测因变量的值。

线性回归分为两种形式:

简单线性回归:只有一个自变量。
多元线性回归:包含多个自变量。

2. 线性回归的模型

线性回归模型用一个线性方程来表示数据中的关系。其基本形式为:
在这里插入图片描述

其中:
y 是目标变量或因变量(输出)。
x1,x2,…,xn 是输入特征或自变量。
w0是偏置项(截距)。
w1,w2,…,wn是对应自变量的权重(回归系数)。
ϵ 是误差项(通常假设其服从正态分布,且期望值为零)。

3. 线性回归的核心思想

线性回归的核心思想是找到回归系数 w 和截距 w0​,使得预测的输出值与实际的输出值之间的差异最小。为了度量预测值与实际值的差异,通常使用**均方误差(MSE)**作为损失函数:
在这里插入图片描述
其中:
m 是样本数量。
yi 是第 iii 个样本的实际值。
yi​ 是第 iii 个样本的预测值。
通过最小化均方误差,可以找到最佳的回归系数 w和偏置项 w0​,即通过最小二乘法(Ordinary Least Squares, OLS)来实现。

4. 线性回归的求解

线性回归的最优解可以通过解析方法或迭代方法求解。

解析法:通过直接计算公式求解回归系数。
对于简单线性回归,回归系数 𝑤1和截距 𝑤0可以使用以下公式计算:
在这里插入图片描述
其中,xˉ 和 yˉ​ 是自变量和因变量的均值。
对于多元线性回归,最佳参数可以通过矩阵求解:
在这里插入图片描述
X 是设计矩阵(每一行是一个数据样本的输入特征向量)。
𝑦是目标值向量。
迭代法:常用的是梯度下降法,通过逐步调整参数来逼近最优解。其更新规则为:
在这里插入图片描述
其中 𝛼 是学习率。

5. 线性回归的假设

线性回归在使用过程中有以下假设:

线性关系:自变量和因变量之间存在线性关系。
误差项的独立性:数据点之间的误差项相互独立。
同方差性:误差项的方差是常数。
正态性:误差项服从正态分布。
这些假设决定了线性回归适用的场景。违反这些假设可能导致模型效果不佳。

6. 模型评估

线性回归模型可以通过以下指标来评估其性能:R平方(R^2) 用于衡量模型对数据的拟合程度,取值范围为 0 到 1。 R^2 越接近 1,表示模型越好。公式如下:
在这里插入图片描述
其中 𝑦ˉ 是实际输出的平均值。

均方误差(MSE):用于评估模型预测值与实际值之间的平均平方误差。
均方根误差(RMSE):MSE 的平方根,度量误差的大小,单位与因变量一致。

7. 线性回归的优缺点

优点:

简单、易于理解和实现。
可解释性强,系数可以直接反映变量的影响。
计算成本低,适用于大多数小规模或中等规模的数据集。
缺点:

仅适用于线性关系,不能有效处理复杂的非线性问题。
对异常值敏感,容易被离群点干扰。
依赖于假设(如线性性、同方差性、正态性等),如果假设不成立,模型表现可能很差。

8. 线性回归的扩展

线性回归有几种常见的扩展形式,适用于不同场景:

岭回归(Ridge Regression):通过加入正则化项,防止过拟合,特别是在高维数据下有效。
Lasso回归:另一种正则化方法,可以自动进行特征选择,适用于高维稀疏数据。
弹性网络(Elastic Net):结合了岭回归和Lasso回归的优点,适用于更复杂的数据结构。

9. 线性回归的实际应用

线性回归被广泛应用于多个领域:

经济学:预测价格、需求等。
医疗:预测病人的疾病发展或治疗效果。
工程:预测系统中的性能变化或故障发生的可能性。
市场分析:根据历史数据预测未来销售额。

10. 示例代码(Python实现)

以下是一个使用 Python 和 scikit-learn 实现简单线性回归的示例:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 生成示例数据
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1.2, 1.9, 3.2, 3.9, 5.1])

# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 打印结果
print(f"预测值: {y_pred}")
print(f"模型系数: {model.coef_}")
print(f"截距: {model.intercept_}")

# 可视化回归直线
plt.scatter(X, y, color='blue')
plt.plot(X, model.predict(X), color='red')
plt.xlabel('X')
plt.ylabel('y')
plt.title('线性回归示例')
plt.show()

总结
线性回归是监督学习中最基础的算法之一,适用于线性关系的回归任务。虽然简单易用,但在面对复杂非线性问题时,通常需要使用更加复杂的模型或对数据进行预处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2167467.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【已解决】Ubuntu 24.04 修改 ssh 连接端口无效

用编辑器打开 /etc/ssh/sshd_config 文件 sudo vim /etc/ssh/sshd_config将 Port 22 改为你想要的端口号(这里演示就设置为4080) 用编辑器打开 /lib/systemd/system/ssh.socket 文件 sudo vim /lib/systemd/system/ssh.socket将 ListenStream22 中的 2…

Windows 10 系统安装 FFmpeg 查看、转换、编辑音频文件

1、FFmpeg官网:FFmpeg 点击下载 可以选择下载full版本 下载之后解压到指定目录,在系统环境变量 Path 里面新增环境变量 打开CMD终端运行 ffmpeg -version 查看是否安装成功。 2、基本命令 查看音频基本信息 ffprobe 1.mp3 ##输出 [mp3 000002ab334405…

Xcode16 iOS18 编译问题适配

问题1:ADClient编译报错问题 报错信息 Undefined symbols for architecture arm64:"_OBJC_CLASS_$_ADClient", referenced from:in ViewController.o ld: symbol(s) not found for architecture arm64 clang: error: linker command failed with exit co…

<Java>String类型变量的使用

两边有一个string就是连接,否则做加法 ‘ ’是char,“ ”是string,char能做加法,string只能连接

STM32F407_05

RTC实时时钟 主要特性: 由于RTC实时时钟提供了三种时钟源可供选择(LSI,LSE,HSE) ,一般我们选择低速外部时钟源(32.768KHZ)来作为RTC的时钟源 另外,RTC实时时钟可以由系统主电源供电,但是也可以由备份电源供电(系统主电源不工作时&#xff09…

微电网与大电网主动同步控制

前言 大电网正常运行时,微电网通过大电网得到正常的电压频率参数支撑,大电网故障时,微电网的电压和频率支撑需要通过分布式电源提供,从而保持自身独立运行。分布式电源提供的电压信息会因为自身的下垂特性随本地负荷的改变不断变…

leetcode331. 验证二叉树的前序序列化

序列化二叉树的一种方法是使用 前序遍历 。当我们遇到一个非空节点时,我们可以记录下这个节点的值。如果它是一个空节点,我们可以使用一个标记值记录,例如 #。 例如,上面的二叉树可以被序列化为字符串 "9,3,4,#,#,1,#,#,2,#,…

【含文档】基于Springboot+Vue的高校师资管理系统(含源码+数据库+lw)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 系统定…

构建高效线上培训体系的知识库策略

在数字化时代,线上培训已成为企业提升员工技能、促进知识传递的重要手段。然而,如何构建一个高效、系统的线上培训体系,确保培训内容的准确性与时效性,是许多企业面临的共同挑战。其中,知识库作为培训资源的核心载体&a…

Arduino中实现定时器中断

1、使用MsTimer2库文件 使用之前需要先添加库 (1)实现功能 (2)代码 /*MsTimer2 is a small and very easy to use library to interface Timer2 withhumans. Its called MsTimer2 because it "hardcodes" a resolutio…

99页PPT | 智慧城市运营大数据平台解决方案

方案内容综述 这是一套综合性的解决方案,旨在通过先进的数据分析和处理技术,提升城市管理的智能化水平。平台基于运营商的运营理论构建,通过整合城市各个层面的数据资源,实现对城市运行状态的全面监测、分析和优化。 城市大数据公…

MySQL的登录、访问、退出

一、登录: 访问MySQL服务器对应的命令:mysql.exe ,位置:C:\Program Files\MySQL\MySQL Server 8.0\bin (mysql.exe需要带参数执行,所以直接在图形界面下执行该命令会自动结束) 执行mysql.exe命令的时候出…

【Linux】进程的标识符、状态(超详解)

目录 进程的概念 进程标识符PID 系统调用创建进程-fork初识 进程状态 R状态(运行状态) S,D状态(休眠状态) T,t状态 Z状态(僵尸进程) 孤儿进程 X状态(死亡状态&a…

深度学习500问——Chapter15:异构计算,GPU和框架选型(1)

文章目录 异构计算,GPU和框架选型指南 15.1 什么是异构计算 15.2 什么是GPU 15.3 GPU架构简介 15.3.1 如何通俗理解GPU的架构 15.3.2 CUDA的核心是什么 15.3.3 为什么要使用GPU 异构计算,GPU和框架选型指南 深度学习训练和推理的过程中,会涉…

塑封芯片多大才需要点胶加固保护?

塑封芯片多大才需要点胶加固保护? 塑封芯片是否需要点胶加固保护,并不完全取决于芯片的大小,而是由多种因素共同决定的。以下是一些影响是否需要点胶加固保护的主要因素: 芯片的应用场景:如果芯片所处的环境较为恶劣&a…

四种msvcp120.dll丢失的解决方法,简单几步将丢失的msvcp120.dll修复

如果你在使用电脑的时候遇到了msvcp120.dll文件丢失的问题应该怎么办呢?如何修复丢失的msvcp120.dll的问题呢?今天那就和大家聊聊msvcp120.dll丢失的解决办法,详细说说msvcp120.dll的解决办法步骤。 修复“msvcp120.dll”丢失问题的详细方法 …

Vue3使用vue-quill富文本编辑器

安装依赖 npm install vueup/vue-quill quill quill-image-uploader自定义字体 把自定义字体样式放入font.css中在main.js中导入 .ql-snow .ql-picker.ql-font .ql-picker-label[data-valueSimSun]::before, .ql-snow .ql-picker.ql-font .ql-picker-item[data-valueSimSun]…

GitLab发送邮件功能详解:如何配置自动化?

GitLab发送邮件的设置指南?怎么优化GitLab发送邮件? GitLab作为一个强大的代码管理平台,不仅提供了代码托管、CI/CD等功能,还集成了发送邮件的功能,使得开发团队能够及时获取项目动态。AokSend将详细介绍如何配置GitL…

暗黑破坏神4第六赛季开荒攻略,如何高效开荒刷图打装备?

暗黑破坏神4的第六赛季将于10月8日开启!要是你总觉得电脑开荒刷图打装备效率低,想知道有什么办法在手机上玩暗黑破坏神4?那这款专为游戏玩家打造的远程控制软件——网易GameViewer远程,就太适合你了!不仅可以在手机上玩…

Linux下文件/目录操作的相关函数

1.文件系统 把一个磁盘分成一个或多个分区。每个分区可用包含一个文件系统 文件系统是,一组规则,规定对文件的存储及读取的一般方法。文件系统在磁盘格式化过程中指定。 常见的文件系统有:fat32 ntfs exfat ext2 、ext3 、ext4 inode是固定…