【机器学习基础】 线性回归

news2024/11/19 6:38:54

线性回归

    • 1、线性回归定义
    • 2、线性回归题目示例
    • 3、推导公式
    • 4、误差
    • 5、似然函数
    • 6、线性回归评价指标
    • 7、梯度下降

1、线性回归定义

  • 经典统计学习技术中的线性回归和softmax回归可以视为 线性神经⽹络。给定训练数据特征 X 和对应的已知标签 y ,线性回归的⽬标是找到⼀组权重向量 w 和偏置 b。当给定从X的同分布中取样的新样本特征时,找到的权重向量和偏置能够使得新样本预测标签的误差尽可能小。

  • 线性回归是一个单层的神经网络,所以可以作为分类,检测等问题很多网络结构的最后的输出层。

  • 机器学习模型中的关键要素是训练数据,损失函数,优化算法,还有模型本⾝。

  • ⽮量化使数学表达上更简洁,同时运⾏的更快。

  • 最小化⽬标函数和执⾏最⼤似然估计等价。

  • 线性回归模型也是神经⽹络。

  • 回归:就是预测值通过网络迭代逐渐逼近真实值的过程

2、线性回归题目示例

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3、推导公式

其实x和参数看成是行向量和列向量都行,只要相乘后得到的预测值Y是一个列向量就行(一个样本就是一维列向量,多个样本集成在一块就是多维列向量,总之一个样本不管有多少元或者多少维 的参数或者特征,只对应一个预测值y, 且不同样本中参数的值是一样的,不同的只是特征的值不同)

应该是这样的(其实 都行,保证输出正确就行):

  • 要注意的是这中间x1, x2……,是特征,整合后的x是一个包含所有特征的向量,应该是针对每一个样本(数据)都是这样 ,比如下图中根据工资和年龄这两个特征也预测贷款额度的第一行数据(也就是第一个样本)

  • 而所说的高维是指的是高维度的特征,而不是很多样本

4、误差

预测值中就包含了偏置项,然后预测值不可能就恰好是真实值,也会存在着一个误差,且每个样本的误差都是不一样的

当数据不符合高斯分布时,我们需要进行转换使其符合高斯分布


5、似然函数

最大似然函数 (maximum likelihood estimates,MLE)

似然函数是根据样本去估计参数值; 最大(极大)似然估计是一种确定模型参数值的方法。确定参数值的过程,是找到能最大化模型产生真实观察数据可能性的那一组参数。


我们需要使用极大似然估计来找到能最大化模型产生真实观察数据可能性的那一组参数 (如果数据服从高斯分布,因此要求求解的参数就是均值和标准差,注意这里是每个每个样本对应的误差服从正太分发布,要求的参数不是标准差),而似然估计概率(L),也就是联合概率是越大越好;使用对数似然求解,化简如下:

疑问:这里的目标函数就是CNN中常用的损失吗?

还需要掌握矩阵求导,完全推导出求偏导的步骤

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LB6ludsG-1666598578893)在这里插入图片描述

这样是直接通过求偏导来求出参数的值,线性回归是个特例,可以直接求出参数,但目标函数并不总能求解,所以需要借助梯度下降方法来求解,当然线性回归我们也可以用梯度下降法来求解参数,应该更为简单

6、线性回归评价指标

此外, RMSE(Root Mean Square Error)均方根误差MSE(Mean Square Error)均方误差 ;F-statistic(F统计或者F检验)也可以用来评价一个线性回归模型;

F statistic, F统计也称F检验,它是检验因变量与所有自变量之间的线性关系是否显着, 多元线性回归中当我们想要测定多元自变量是否整体与y因变量线性相关时,就需要F检验

7、梯度下降

在线性回归中,可以通过求偏导直接计算出参数解, 但目标函数并不总是好求解或者能求解(通过求偏导来求解),因此需要通过梯度下降法来计算出参数,下面是使用梯度下降法通过迭代来更新参数,最终得到参数解。

θ 中的 θ1, θ2……是各自求偏导优化,而不是整体去优化

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uC6IsxP1-1666598578897)(md_images_save/images_save_add/1662887082967.png)]

该实例目标函数中θ0, θ1,在进行梯度下降时会赋予一个初始值,也就是参数初始化

梯度前加一个负号,就意味着朝着梯度相反的方向前进!我们在前文提到,梯度的方向实际就是函数在此点上升最快的方向!而我们需要朝着下降最快的方向走,自然就是负的梯度的方向,所以此处需要加上负号;那么如果时上坡,也就是梯度上升算法,当然就不需要添加负号了。

学习率先稍微大一点,后在减少一些,学习率太大 ,容易错过最低点,太小迭代速度太慢

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/723.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Seata安装启动

一、下载 https://github.com/seata/seata/releases/download/v1.4.2/seata-server-1.4.2.zip 二、启动 在安装路径下cmd seata-server.bat -h 127.0.0.1 -m file 三、作用 Seata是分布事务解决方案,seata保证微服务远程调用业务的原子性 Seata将为用户提供了 …

Spring Cloud LoadBalancer--负载均衡的原理(源码分析)

原文网址:Spring Cloud LoadBalancer--负载均衡的原理(源码分析)_IT利刃出鞘的博客-CSDN博客 简介 说明 本文介绍Spring Cloud LoadBalancer负载均衡的原理。 SpringCloud从2020版本开始移除了对Ribbon的依赖,官方使用Spring Cl…

VsCode中一些可以让工作“事半功倍”的插件

1.GitLens — Git supercharged 这个插件可以查看代码修改的消息,比如是谁修改的以及修改时间 2.Chinese (Simplified) (简体中文) 简体中文,这个可以说是装的最多的一款插件了 3.Auto Close Tag 标签自动补全 4.Auto Rename Tag:自动完…

2021第7届中国大学生程序设计竞赛CCPC广州站, 签到题4题

文章目录I.Pudding StoreH.Three IntegersC.NecklaceF.Cactus补题链接:https://codeforces.com/gym/103415 I.Pudding Store I. Pudding Store time limit per test2.0 s memory limit per test512 megabytes inputstandard input outputstandard output 159 is a…

快速排序图解(两种思想)

七大排序之快速排序 文章目录七大排序之快速排序前言一、《算法导论》中的分区思想1.1 算法思想1.2 代码实现二、Hoare挖坑法2.1 算法思想2.2 代码实现三、算法分析四、注意事项总结前言 博主个人社区:开发与算法学习社区 博主个人主页:Killing Vibe的博…

【每天学习一点新知识】网络安全--截获攻击

截获攻击原理和后果 原理 若正常传输路径为终端A到终端B,黑客首先改变传输路径为终端A—黑客终端—终端B,使得传输信息必须经过黑客终端,黑客终端就可以截获终端A传输给终端B的消息。 后果 目前很多访问过程采用明码方式传输登录的用户名和密…

C++入门基础(下)

目录 引用 引用概念 引用特性 1.引用在定义时必须初始化 2.一个变量可以有多个引用 3.引用一旦引用一个实体,再不能引用其他实体. 常引用 使用场景 1.作为参数使用 2.作为返回值使用 引用和指针的区别 内联函数 内联函数的概念 内联函数特性 宏的优缺点 auto关键字 …

scala spark dataframe 时间加减

参考Adding 12 hours to datetime column in Spark 只针对标准化时间戳 yyyy-MM-dd HH:mm:ss 如果是 yyyy-MM-dd HH:mm 转换后会自动补到 HH:mm:ss ss位补0 时间英文简写查询 HOUR 代表小时 MINUTE 代表分钟 SECOND 代表秒 DAY MONTH YEAR 正数代表向后 负数代表向前 …

AI绘画突然爆火?快速体验二次元画师NovelAI(diffusion)

目录0 写在前面1 diffusion vs GAN2 NovelAI3 AI绘画环境搭建4 体验AI创作0 写在前面 机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解与应用。“深”在详细推导算法模型背后的数学原理;“广”在分析多个机器学习模型:决策树、支持…

到了30岁,我才有了深刻的感悟:千万不要一辈子靠技术生存

千万不要一辈子靠技术生存,这句话,我也是到了快30岁才有了深刻认知。 当我20多岁,年收入2-3W的时候,我会认为说这话的人都是自身技术不咋地,想靠技术吃饭吃不了。 然而,快30岁了,虽然技术小有…

【Java】之IO流

个人主页:天寒雨落的博客_CSDN博客-C,CSDN竞赛,python领域博主 特别标注:仅为自己的学习记录笔记,方便复习和加深记忆,仅供借鉴参考! 目录 IO流概述 IO流分类 按数据的流向 按数据类型 字符流 字节流 字节流写数…

【Linux】虚拟机安装Ubuntu后的一些通用设置

文章目录前言一、虚拟机缩放设置二、实现本机和虚拟机之间复制粘贴共享三、ubuntu中vi文件时方向键等问题四、虚拟机扩容五、时区和时间格式设置六、防火墙相关七、中文输入法问题八、虚拟机和主机之间的互通前言 主要是记录虚拟机中安装ubuntu后一些常规设置操作。 一、虚拟…

当你使用MPLS时,不要忘记还有SD-WAN!

企业网络管理人员和IT部门主管在考虑其WAN架构时最常见的问题就是:“为什么我要选择SD-WAN而不是MPLS?”确实,选择新技术时通常会带来“不确定性”。 与MPLS相比,SD-WAN更便宜,性能更强,也带来了更低成本的…

IDEA安装及Clone代码

IDEA安装及Clone代码 文章目录1.IDEA下载2.IDEA安装3 IDEA clone(克隆) 代码1.IDEA下载 官网下载地址: DEA 分为两个版本: 旗舰版(Ultimate)和社区版(Community)。 旗舰版:收费(限 30 天免费试用),功能全面,插件丰富…

公众号查题系统搭建

公众号查题系统搭建 本平台优点: 多题库查题、独立后台、响应速度快、全网平台可查、功能最全! 1.想要给自己的公众号获得查题接口,只需要两步! 2.题库: 查题校园题库:查题校园题库后台(点击…

刚来的00后真的卷,听说工作还没两年,跳到我们公司直接起薪20k...

前段时间我们公司来了个00后,工作都没两年,跳槽到我们公司起薪18K,都快接近我了。后来才知道人家是个卷王,从早干到晚就差搬张床到工位睡觉了。 最近和他聊了一次天,原来这位小老弟家里条件不太好,一大家子…

c++内存管理:

目录 new和delete 使用方法&#xff1a; 注意事项&#xff1a; new申请不需要检查返回值 operator new和operator delete函数的讲解 c语言申请内存有哪些方法&#xff1a; 答&#xff1a;malloc calloc realloc三种 #include<stdlib.h> void test() {int*p1 (in…

Day11-尚品汇-退出登录

1.在Header组件里面&#xff1a; 1》绑定一个click事件 2》写其触发的方法 2.发请求通知服务器 1》先观察文档 2》.在api里面写代码&#xff1a; 3》在store仓库user.js里面也要写代码&#xff1a; 1&#xff09; 不单单向服务器发请求清除token&#xff0c;而且需要清除use…

【MLOPs】Docker

&#x1f50e;大家好&#xff0c;我是Sonhhxg_柒&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流&#x1f50e; &#x1f4dd;个人主页&#xff0d;Sonhhxg_柒的博客_CSDN博客 &#x1f4c3; &#x1f381;欢迎各位→点赞…

Python基础加强学习

一、python概述 1. python的应用领域 web开发大数据处理人工智能自动化运维开发云计算爬虫游戏开发 2. 安装python 要进行python开发&#xff0c;首先要安装python解释器&#xff0c;这里说的安装python说的就是安装python的解释器。 测试python是否安装成功&#xff0c;在…