线性代数|机器学习-P10最小二乘法的四种方案

news2024/11/24 9:12:34

文章目录

  • 1. 概述
  • 2. SVD奇异值分解
  • 3. 最小二乘法方程解
  • 4. 最小二乘法图像解释
  • 5. Gram-Schmidt

1. 概述

当我们需要根据一堆数据点去拟合出一条近似的直线的时候,就会用到 最小二乘法 .根据矩阵A的情况,有如下四种方法

  • 在r = n = m 时,SVD奇异值分解, A = U Σ V T A=U\Sigma V^T A=UΣVT,伪逆矩阵 A + = V Σ − 1 U T A^{+}=V\Sigma^{-1}U^T A+=VΣ1UT
  • 在矩阵A列满秩的情况下(r=n),直接用方程 A T A x ^ = A T b → x ^ = ( A T A ) − 1 A T b A^TA\hat{x}=A^Tb\rightarrow \hat{x}=(A^TA)^{-1}A^Tb ATAx^=ATbx^=(ATA)1ATb
  • 在条件数 σ 1 σ r \frac{\sigma_1}{\sigma_r} σrσ1太大时,通过Gram-Schmidt生成一个正交列向量, A = Q R → x ^ = R − 1 Q T b A=QR\rightarrow \hat{x}=R^{-1}Q^Tb A=QRx^=R1QTb,通过消除后得到可以求逆的 R − 1 R^{-1} R1
  • 加惩罚项, ( A T A + δ 2 I ) x ^ = A T b → x ^ = ( A T A + δ 2 I ) − 1 A T b (A^TA+\delta ^2 I)\hat{x}=A^Tb\rightarrow \hat{x}=(A^TA+\delta ^2 I)^{-1}A^Tb (ATA+δ2I)x^=ATbx^=(ATA+δ2I)1ATb,通过在对角线上加一个趋近于0的 δ 2 \delta ^2 δ2保证矩阵 ( A T A + δ 2 I ) (A^TA+\delta ^2 I) (ATA+δ2I)可逆,这样通过方程就可以得到想要的 x ^ \hat{x} x^

2. SVD奇异值分解

假设我们矩阵A可逆,那么我们就可以直接得到矩阵A的逆,那么此时的矩阵A的伪逆就等于矩阵A的逆
当矩阵 A 可逆 → A + = A − 1 \begin{equation} 当矩阵A可逆\rightarrow A^{+}=A^{-1} \end{equation} 当矩阵A可逆A+=A1
将矩阵A通过奇异值SVD分解可得如下:
A = U Σ V T , A T = V Σ T U T \begin{equation} A=U\Sigma V^T,A^T=V\Sigma^TU^T \end{equation} A=UΣVT,AT=VΣTUT

  • 得到 A A T , A T A AA^T,A^TA AAT,ATA
    A A T = U Σ Σ T U T , A T A = V Σ T Σ V T \begin{equation} AA^T=U\Sigma\Sigma^T U^T,A^TA=V\Sigma^T\Sigma V^T \end{equation} AAT=UΣΣTUT,ATA=VΣTΣVT
  • A A T AA^T AAT可以看出矩阵A右乘以 A T A^T AT,所以得到结果为列空间向量,所以U为列空间基;同理 A T A A^TA ATA可以看出矩阵A左乘以 A T A^T AT,所以结果为行空间向量,所以V为行空间基。那么我们可以通过 A v i = σ i u i Av_i=\sigma_i u_i Avi=σiui来对看作是行空间基 v i v_i vi 通过 A v i Av_i Avi变换后直接得到列空间基 σ i u i \sigma_i u_i σiui,同理可得, A T u i = σ i v i A^Tu_i=\sigma_i v_i ATui=σivi可以看作是列空间基 u i u_i ui,通过 A T u i A^Tu_i ATui变换后直接得到行空间基 σ i v i \sigma_i v_i σivi,那么对于行空间(r个基向量)和列空间(r个基向量)之间可以通过 A , A T A,A^T A,AT进行转换
    A v i = σ i u i , A T u i = σ i v i → A + = A T \begin{equation} Av_i=\sigma_iu_i,A^Tu_i=\sigma_iv_i\rightarrow A^{+}=A^T \end{equation} Avi=σiui,ATui=σiviA+=AT
    在这里插入图片描述
  • 通过奇异值分解可得:
    A = U Σ V T = [ u 1 u 2 ⋯ u m ] [ σ 1 σ 2 ⋱ σ r 0 ] [ v 1 T v 2 T ⋮ v n T ] \begin{equation} A=U\Sigma V^T=\begin{bmatrix}u_1&u_2&\cdots &u_m\end{bmatrix}\begin{bmatrix}\sigma_1\\\\&\sigma_2\\\\&&\ddots\\\\&&&\sigma_r\\\\&&&&0\end{bmatrix}\begin{bmatrix}v_1^T\\\\v_2^T\\\\\vdots \\\\v_n^T\end{bmatrix} \end{equation} A=UΣVT=[u1u2um] σ1σ2σr0 v1Tv2TvnT
  • 将矩阵A求逆可得:
    A − 1 = V Σ − 1 U T = V [ σ 1 − 1 σ 2 − 1 ⋱ σ r − 1 0 − 1 ] U T \begin{equation} A^{-1}=V\Sigma^{-1} U^T=V\begin{bmatrix}\sigma_1^{-1}\\\\&\sigma_2^{-1}\\\\&&\ddots\\\\&&&\sigma_r^{-1}\\\\&&&&0^{-1}\end{bmatrix}U^T \end{equation} A1=VΣ1UT=V σ11σ21σr101 UT
    Σ Σ − 1 = [ 1 1 ⋱ 1 0 ⋱ 0 ] \begin{equation} \Sigma\Sigma^{-1}=\begin{bmatrix}1\\\\&1\\\\&&\ddots\\\\&&&1\\\\&&&&0\\\\&&&&&\ddots\\\\&&&&&&0\end{bmatrix} \end{equation} ΣΣ1= 11100
  • 我们发现 0 − 1 0^{-1} 01根本不存在,所以奇异值分解直接求伪逆 A − 1 A^{-1} A1也出问题了。出问题的点在于对于特征值为0时候,无法求0的倒数,那就是所如果我们不用零空间的向量和其0特征值,只有行和列空间里面的向量,那么就没这个问题了,这就是Gram-Schmidt的思路,从矩阵A的列空间中挑选向量u_1,其他向量 m 1 m_1 m1 不是列空间的,那就通过正交化Gram-Schmidt 将其变换为 m 1 → u 2 m_1\rightarrow u_2 m1u2,这样我们就能得到一个可逆矩阵M,这样我们就能通过公式 M − 1 M^{-1} M1直接计算所需要的 x ^ \hat{x} x^

3. 最小二乘法方程解

我们知道,当我们有一个方程 A x = b Ax=b Ax=b时,我们得到的是一堆数据点,我们需要拟合一个直线,使得 ∣ ∣ A x ^ − b ∣ ∣ 2 2 = ( A x ^ − b ) 2 ||A\hat{x}-b||_2^2=(A\hat{x}-b)^2 ∣∣Ax^b22=(Ax^b)2 值最小,所以我们得到如下方程:
y = ( A x − b ) 2 = ( A x − b ) T ( A x − b ) = ( x T A T − b T ) ( A x − b ) \begin{equation} y=(Ax-b)^2=(Ax-b)^T(Ax-b)=(x^TA^T-b^T)(Ax-b) \end{equation} y=(Axb)2=(Axb)T(Axb)=(xTATbT)(Axb)

  • 整理可得:
    y = x T A T A x − x T A T b − b T A x + b T b \begin{equation} y=x^TA^TAx-x^TA^Tb-b^TAx+b^Tb \end{equation} y=xTATAxxTATbbTAx+bTb
  • 因为 b T A x b^TAx bTAx为常数,所以得到 x T A T b = b T A x x^TA^Tb=b^TAx xTATb=bTAx
    y = x T A T A x − 2 b T A x + b T b → ∂ y ∂ x = ∂ x T A T A x ∂ x − 2 ∂ b T A x ∂ x \begin{equation} y=x^TA^TAx-2b^TAx+b^Tb\rightarrow \frac{\partial y}{\partial x}= \frac{\partial x^TA^TAx}{\partial x}-2 \frac{\partial b^TAx}{\partial x} \end{equation} y=xTATAx2bTAx+bTbxy=xxTATAx2xbTAx
  • 根据矩阵求导可得,注意转置符号,别漏了
    ∂ x T A T A x ∂ x = 2 A T A x ; − 2 ∂ b T A x ∂ x = A T b \begin{equation} \frac{\partial x^TA^TAx}{\partial x}=2A^TAx;-2 \frac{\partial b^TAx}{\partial x}=A^Tb \end{equation} xxTATAx=2ATAx;2xbTAx=ATb
  • 所以求导公式可以整理得到:
    ∂ y ∂ x = 2 A T A x − 2 A T b = 0 → A T A x ^ = A T b \begin{equation} \frac{\partial y}{\partial x}=2A^TAx-2A^Tb=0\rightarrow A^TA\hat{x}=A^Tb \end{equation} xy=2ATAx2ATb=0ATAx^=ATb
  • 是不是很神奇,用矩阵求导得到的结果,居然是跟我们用投影法一样的,如果要满足求出上述的 x ^ \hat{x} x^,也就需要 A T A A^TA ATA 可逆,也就是需要矩阵A满秩,所以跟以前对上来了。
  • 当矩阵A列满秩,所以 A T A A^TA ATA 可逆,方程有解如下:
    x ^ = ( A T A ) − 1 A T b \begin{equation} \hat{x}=(A^TA)^{-1}A^Tb \end{equation} x^=(ATA)1ATb

4. 最小二乘法图像解释

假设我们有一个矩阵A和方程 A x = b Ax=b Ax=b,求解最优 b ^ \hat{b} b^?

  • 从四个子空间可以看出,我们画出任意向量b,如下图所示:
    当我们要求的向量b不在由矩阵A的列向量组成的空间时候,我们其实无法得到正确的解,那么怎么办呢?如果我们将向量b分解,一部分通过投影可得向量 p = A x ^ p=A\hat{x} p=Ax^,其在矩阵A的列空间中,另外一部分就是e= A x − b Ax-b Axb,只有投影上去了,我们才能够根据向量p来求得近似的解 x ^ \hat{x} x^
    在这里插入图片描述

5. Gram-Schmidt

Gram-Schmidt 的作用是将矩阵A进行正交分解为 A = Q R A=QR A=QR,本身也是通过投影后相减得到垂直向量,这样通过Gram-Schmidt 变换后的矩阵都正交,得到一个可逆矩阵Q和R
A = Q R , A T = R T Q T , A T A x ^ = A T b → R T Q T Q R x ^ = R T Q T b → R x ^ = Q T b \begin{equation} A=QR,A^T=R^TQ^T,A^TA\hat{x}=A^Tb\rightarrow R^TQ^TQR\hat{x}=R^TQ^Tb\rightarrow R\hat{x}=Q^Tb \end{equation} A=QR,AT=RTQT,ATAx^=ATbRTQTQRx^=RTQTbRx^=QTb

  • 整理可得:
    x ^ = R − 1 Q T b \begin{equation} \hat{x}=R^{-1}Q^Tb \end{equation} x^=R1QTb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1807221.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Apple - Quartz 2D Programming Guide

本文翻译自:Quartz 2D Programming Guide(更新时间:2017-03-21 https://developer.apple.com/library/archive/documentation/GraphicsImaging/Conceptual/drawingwithquartz2d/Introduction/Introduction.html#//apple_ref/doc/uid/TP300010…

SpringCloud中注册中心Nacos的下载与使用步骤

1.前言 Nacos(Dynamic Naming and Configuration Service)是阿里巴巴开源的一款服务发现和配置管理工具。它可以帮助用户自动化地进行服务注册、发现和配置管理,是面向微服务架构的一个重要组成部分。 2.下载 链接:https://pan.b…

002-链路聚合

链路聚合 链路聚合是一个重要的计算机网络术语,它涉及将多个物理端口汇聚在一起,形成一个逻辑端口,从而增加网络带宽、实现链路传输的弹性和工程冗余。 定义与基本原理 定义:链路聚合(英语:Link Aggrega…

6.7-6.10作业

1. /*1.使用switch实现银行系统,默认用户为A,密码为1234,余额2000 如果登录失败,则直接结束 如果登录成功,则显示银行页面 1.查询余额 2.取钱 3.存钱 如果是1,则打印余额 如果是2,则输入取钱金…

纳什均衡:博弈论中的运作方式、示例以及囚徒困境

文章目录 一、说明二、什么是纳什均衡?2.1 基本概念2.2 关键要点 三、理解纳什均衡四、纳什均衡与主导策略五、纳什均衡的例子六、囚徒困境七、如何原理和应用7.1 博弈论中的纳什均衡是什么?7.2 如何找到纳什均衡?7.3 为什么纳什均衡很重要&a…

python 判断点和线段相交

python 判断点和线段相交 import numpy as np import cv2 import numpy as npdef point_to_line_distance(points, line_segments):# line_segments [[549, 303], [580, 303]]# points [565, 304]x0, y0, x1, y1line_segments[0][0], line_segments[0][1], line_segments[1]…

手把手带你做一个自己的网络调试助手(1) - TCP服务器准备

程序设计流程图 TCP 服务器 ui界面搭建 Tcp服务器建立连接 - listen() connect() 1.在构造函数中进行如下初始化: 通过 QNetworkInterface 类的 allAddresses 这一API 获得可用IP地址(包括IPv4 和 IPv6) 然后通过QHostAddress类的 protocol 这一AP…

前端-a-date-picker如何设置禁选时间段

想要做到如图所示的效果&#xff0c;代码如下&#xff1a; 第一个是只能选择某一天&#xff0c;第二个是只能选择某一个时间段 <a-date-pickerv-model:value"record.onTimeStr":show-time"{ format: HH:mm }"valueFormat"YYYY-MM-DD HH:mm:ss&qu…

【算法小记】深度学习——时间序列数据分析 Time series Data Analysis

在本篇博客中将简单介绍常见的几种循环神经网络和一维卷积神经网络&#xff0c;并使用一些简答的数据进行拟合分析。本文相对适合刚入门的同学&#xff0c;同时也作为自己过去一段时间学习的总结和记录&#xff0c;现在神经网络框架已经非常完善的支持了很多常见和有效的深度学…

【学永远不嫌晚】Linux操作系统,linux教程,动力节点linux,老杜linux

碎碎念 总是遇到一些恶心的事情 看最新教程 老师安装的是 vm17 pro&#xff0c;想着也去安装&#xff0c;搜了一大堆&#xff0c;都指向官网下载。 https://support.broadcom.com/group/ecx/productdownloads?subfamilyVMwareWorkstationPro 安装显示没有 entitlement&#…

“GPT-4o深度解析:技术演进、能力评估与个人体验综述“

文章目录 每日一句正能量前言对比分析模型架构性能应用场景用户体验技术创新社区和生态系统总结 技术能力语言生成能力语言理解能力技术实现总结 个人感受关于GPT-4o的假设性观点&#xff1a;关于当前语言模型的一般性观点&#xff1a; 后记 每日一句正能量 又回到了原点&#…

2024年CKA模拟系统制作 | step-by-step | 1、基础环境准备

目录 一、软件环境 二、虚拟网络环境准备 1、编辑虚拟网络 2、网络设置 三、新建虚拟主机 1、新建目录 2、新建虚拟主机 四、系统安装 1、装载系统镜像 2、开启虚拟机 3、选择语言 4、键盘选择 5、网络配置 6、代理设置 7、设置软件源 8、存储设置 9、名称设置 …

记一次postgresql拼接函数string_agg() 和row_number() 使用

PG两个函数使用需求和简单介绍 需求背景介绍第一个需求背景是这样的需求升级一下接下来讲讲STRING_AGG()基本语法排序 然后我们再说说ROW_NUMBER()基本语法使用 row_number() over (partition by) 进行分组统计使用 row_num限定每组数量 需求背景介绍 第一个需求背景是这样的 …

6、组件通信详解(父子、兄弟、祖孙)

一、父传子 1、props 用法&#xff1a; &#xff08;1&#xff09;父组件用 props绑定数据&#xff0c;表示为 v-bind:props"数据" &#xff08;v-bind:简写为 : &#xff0c;props可以任意命名&#xff09; &#xff08;2&#xff09;子组件用 defineProps([props&…

curl 92 HTTP/2 stream 5 was not closed cleanly: CANCEL

source ~/.bash_profile flutter clean Command exited with code 128: git fetch --tags Standard error: 错误&#xff1a;RPC 失败。curl 92 HTTP/2 stream 5 was not closed cleanly: CANCEL (err 8) 错误&#xff1a;预期仍然需要 2737 个字节的正文 fetch-pack: unexpec…

力扣167. 两数之和 II - 输入有序数组

Problem: 167. 两数之和 II - 输入有序数组 文章目录 题目描述思路复杂度Code 题目描述 思路 1.定义左、右指针left、right分别指向数组索引为0和索引为nums.length - 1&#xff0c;定义结果数组int[] res new int[2]用于存储索引; 2.查找&#xff1a;当判断numbers[left] nu…

质量小议38 -- 60岁退休的由来

总是要有个标准&#xff0c;质量更是如些。 标准不是固定不变的&#xff0c;与时俱进。 关键词&#xff1a;当时的人均寿命&#xff1b;渐进式 60岁退休。 22大学毕业开始工作&#xff08;当然可能会更早&#xff09;&#xff0c;到60岁退休&#xff0c;要工作38年。 …

linux:如何硬盘分区扩容

文章目录 1. 前言2. 硬盘分区2.1 查看硬盘2.2 分区2.3 格式化 3. 硬盘分区扩容3.1 创建物理卷3.2 扩展到卷组&#xff08;volume group&#xff09;3.3 合并到待拓展分区3.4 使扩展生效 4 .参考 1. 前言 本文介绍如何将剩余的空间扩展到已有的硬盘分区中。 安装虚拟机的教程&…

【传知代码】BLIP - VLP任务的新框架(论文复现)

前言&#xff1a;在当今人工智能与机器学习领域&#xff0c;视觉-语言预训练&#xff08;Vision-and-Language Pre-training, VLP&#xff09;任务正逐渐崭露头角&#xff0c;其对于推动跨模态智能系统的进步起着至关重要的作用。在这些系统中&#xff0c;图像与文本不再是孤立…

vue -ant -design 卡片是布局 实现动态计算 当前的 左右间距 实现居中

是这样的一个样式 我们使用display :flex 布局的时候 我们全部剧中 display: flex;align-items: center;justify-content: center; 如果是上述的代码来说的话 总是最后的一个也是会居中的 这样就比较丑 我们好像就没有什么好的办法了 我们这自己写的 肯定没有组件牛 如果有…