机器学习之参数学习

news2024/11/18 4:23:23

下述内容为课程小结

定义

参数估计的方法包括经验风险最小化、结构风险最小化、最大似然估计、最大后验估计。

参数估计用于学习模型参数,以达到最优的目的,如线性回归的模型参数
在这里插入图片描述


经验风险最小化

对于输入的待处理数据格式为 ( x , y ) {(x,y)} (xy)时,x为输入数据,y为输入的标签,那么常用平方损失函数衡量真实值与预测值的偏差。
一般表达方式为
L o s s = ∑ n = 1 N L ( y n , f ( x ( n ) ; w ) ) = 1 2 ∑ n = 1 N ( Y ( n ) − w T x ( n ) ) 2 = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 \begin{aligned} Loss &= \sum_{n=1}^{N}L(y^{n},f(x^{(n)};w))\\ &=\frac{1}{2}\sum_{n=1}^{N}(Y^{(n)}-w^Tx^{(n)})^2\\ &=\frac{1}{2}||y-X^Tw||^2\\ \end{aligned} Loss=n=1NL(yn,f(x(n);w))=21n=1N(Y(n)wTx(n))2=21∣∣yXTw2
PS:该表达式为训练集上的经验风险定义
其中
y = [ y ( 1 ) , . . . , y ( N ) ] T ∈ R N y = [y^{(1)},...,y^{(N)}]^T \in R^N y=[y(1),...,y(N)]TRN,为真实标签向量
x ∈ R ( D + 1 ) ∗ N x \in R^{(D+1)*N} xR(D+1)N由所有样本的特征向量组成

由上述表达式可知,关于 w w w使得函数存在最小值,那么只需对 w w w求解导数即可,得到
∂ R ( w ) ∂ w = 1 2 ∂ ( ∣ ∣ y − X T w ∣ ∣ 2 ) ∂ w = − X ( y − X T w ) = 0 可得 w = ( X X T ) − 1 X y \begin{aligned} \frac{\partial R(w)}{\partial w} &= \frac{1}{2}\frac{\partial (||y-X^Tw||^2)}{\partial w}\\&=-X(y-X^Tw) \\&=0\\ 可得 w&=(XX^T)^{-1}Xy \end{aligned} wR(w)可得w=21w(∣∣yXTw2)=X(yXTw)=0=(XXT)1Xy
PS:根据矩阵的性质可知, X X T XX^T XXT必须可逆。若存在不可逆的情况,常见有两种方法用于处理:

  • 使用PCA等方法进行预处理,降低或者消除特征之间的相关性
  • 使用梯度下降的方法进行迭代达到参数估计目的(与深度学习中的反向传播原理一致),如 w ← w + α X ( y − X T w ) w ← w + \alpha X(y − X^Tw) ww+αX(yXTw), 𝛼 为学习率。
结构风险最小化

在最小二乘估计中,需要保证特征矩阵 X X T XX^T XXT可逆,那么为了解决该问题,结构风险最小化在最小二乘方法基础上添加对角常数,使特征矩阵 X X T XX^T XXT可逆,具体的实现方式为 X X T + λ I XX^T+\lambda I XXT+λI。则 X X T + λ I XX^T+\lambda I XXT+λI为满秩矩阵,必存在可逆矩阵,参数 w = ( X X T + λ I ) − 1 X y w=(XX^T+ \lambda I)^{-1}Xy w=(XXT+λI)1Xy
PS: λ \lambda λ为超参数但不为0
X X T + λ I XX^T+\lambda I XXT+λI代入原最小二乘估计损失函数,可得到
L o s s = ∑ n = 1 N L ( y n , f ( x ( n ) ; w ) ) + λ ∣ ∣ w ∣ ∣ 2 = 1 2 ∑ n = 1 N ( Y ( n ) − w T x ( n ) ) 2 + 1 2 λ ∣ ∣ w ∣ ∣ 2 = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 + 1 2 λ ∣ ∣ w ∣ ∣ 2 \begin{aligned} Loss &= \sum_{n=1}^{N}L(y^{n},f(x^{(n)};w))+ \lambda ||w||^2\\ &=\frac{1}{2}\sum_{n=1}^{N}(Y^{(n)}-w^Tx^{(n)})^2+\frac{1}{2} \lambda ||w||^2\\ &=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2} \lambda ||w||^2\\ \end{aligned} Loss=n=1NL(yn,f(x(n);w))+λ∣∣w2=21n=1N(Y(n)wTx(n))2+21λ∣∣w2=21∣∣yXTw2+21λ∣∣w2

最大似然估计

最大似然估计为概率论中的概念,那么在机器学习中除了存在的{x,y}函数对应关系 y = f ( x ) y=f(x) y=f(x),还存在条件概率 p ( y ∣ x ) p(y|x) p(yx)
那么条件概率 p ( y ∣ x ) p(y|x) p(yx)使用最大似然估计如何估计参数呢?

若数据集中的y由下列表达式决定:
y = f ( x ; w ) + ε y=f(x;w)+ \varepsilon y=f(x;w)+ε
其中 x x x为输入样本数据, w w w为权重, ε \varepsilon ε为噪声,服从高斯分布 ε   ϵ   N ( 0 , σ 2 ) \varepsilon \space \epsilon \space N(0,\sigma ^2) ε ϵ N(0,σ2)
根据高斯分布的性质可知, y y y则服从 N ( w T x , σ 2 ) N(w^Tx,\sigma ^2) N(wTx,σ2)

那么需要确定在参数 w w w取某个值,确保𝑝(𝒚|𝑿; 𝒘, 𝜎)最大。
p ( y ∣ X ; w , σ ) = ∏ n = 1 N p ( y ( n ) ∣ x ( n ) ; w , σ ) = ∏ n = 1 N N ( y ( n ) ; w T x ( n ) , σ 2 ) \begin{aligned} p(y|X; w, \sigma ) &=\prod_{n=1}^{N}p(y^{(n)}|x^{(n)}; w, \sigma ) \\ &=\prod_{n=1}^{N}N(y^{(n)};w^Tx^{(n)}, \sigma ^2)\\ \end{aligned} p(yX;w,σ)=n=1Np(y(n)x(n);w,σ)=n=1NN(y(n);wTx(n),σ2)

在数学中常用取对数再求导的方法进行求解,最后可以得到
𝒘 𝑀 𝐿 = ( 𝑿 𝑿 T ) − 1 𝑿 𝒚 . 𝒘^{𝑀𝐿} = (𝑿𝑿^T)^{−1}𝑿𝒚. wML=(XXT)1Xy.

最大后验估计

最大后验估计的前提在于需要知道一个先验分布。
假设参数 w w w服从先验分布 p ( w ; a ) = N ( w ; 0 , a 2 I ) p(w;a)=N(w;0,a^2I) p(w;a)=N(w;0,a2I),其中 a 2 a^2 a2为每一维度上的方差, I I I为对角矩阵。
利用贝叶斯公式 P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = P(B|A) \frac{P(A)}{P(B)} P(AB)=P(BA)P(B)P(A),可得到参数 w w w的后验分布计算公式为
p ( w ∣ X , y ; a , σ ) = p ( w , y ∣ X ; a , σ ) ∑ w p ( w , y ∣ X ; a , σ ) ∝ p ( y ∣ X , w ; σ ) p ( w ; a ) \begin{aligned} p(w|X,y; a, \sigma ) &= \frac{p(w,y|X;a,\sigma)}{\sum_{w}p(w,y|X;a,\sigma)}\\ &\propto p(y|X,w;\sigma)p(w;a) \end{aligned} p(wX,y;a,σ)=wp(w,yX;a,σ)p(w,yX;a,σ)p(yX,w;σ)p(w;a)
其中 ∝ p ( y ∣ X , w ; σ ) \propto p(y|X,w;\sigma) p(yX,w;σ) w w w的似然函数, p ( w ; a ) p(w;a) p(w;a)为先验分布。

那么根据最大后验估计的原理,我们旨在选取最优的参数 w w w值,令 p ( w ∣ X , y ; a , σ ) p(w|X,y; a, \sigma ) p(wX,y;a,σ)值最大,那么只需对 ∝ p ( y ∣ X , w ; σ ) p ( w ; a ) \propto p(y|X,w;\sigma)p(w;a) p(yX,w;σ)p(w;a)使用最大似然函数的计算方法即可,可以得到
l o g   p ( w ∣ X , y ; a , σ ) ∝ − 1 2 σ 2 ∣ ∣ y − X T w ∣ ∣ 2 − 1 2 a 2 w T w \begin{aligned} log \space p(w|X,y; a, \sigma ) \propto -\frac{1}{2\sigma^2}||y-X^Tw||^2-\frac{1}{2 a^2}w^Tw \end{aligned} log p(wX,y;a,σ)2σ21∣∣yXTw22a21wTw

巧合的是,该结果与平方损失的结构风险最小化一致,那么有理由知道最大后验概率等于平方损失的结构风险最小化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/185951.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Plant Simulation热力图工具V2.1全新发布

在做AGV路径规划或人员路径规划时,如果配套热力图,是可以非常方便的分析出相应位置的热点情况,决策人员可以更加方便的确定方案修改思路,比如下图可以非常清晰地看到AGV的停顿位置和路口的使用情况。较早之前,波哥开发…

Vue3+Vite+Element-Plus实现CRUD常见表单项目

效果有 查询,增加,表格,删除,编辑 其实CRUD,就是一个管理项目最常见的功能 C增加 (Create) R读取 (Read) U更新 (Update) D删除 (Delete) 一、创建项目 vue3用vite创建项目 1 对应路径cmd 输入 npm create vitelates…

C 语言零基础入门教程(十八)

C 输入 & 输出 当我们提到输入时,这意味着要向程序填充一些数据。输入可以是以文件的形式或从命令行中进行。C 语言提供了一系列内置的函数来读取给定的输入,并根据需要填充到程序中。 当我们提到输出时,这意味着要在屏幕上、打印机上或…

SSM框架整合(Spring+SpringMVC+MyBatis)

一、创建MAVEN工程 二、导入pom依赖 <dependency><groupId>com.mchange</groupId><artifactId>c3p0</artifactId><version>0.9.5.2</version></dependency><!-- https://mvnrepository.com/artifact/commons-logging/comm…

项目错误排查

项目运行不起来&#xff0c;先观察表现&#xff0c;就像中医所讲的望。复现&#xff0c;了解触发问题的时机和过程。在哪个步骤&#xff0c;哪个接口出了问题。闻问切浏览器f12&#xff0c;根据请求参数和响应码判断问题出在前端还是后端。查看错误日志&#xff0c;一般写的还是…

LeetCode011之盛最多水的容器(相关话题:双指针,逻辑分析)

题目描述 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明&#xff1a;你不能倾斜容…

小程序 --- 收货地址 --- 定位功能

一、整体功能如下图二、功能点定位选择自己的位置手动选择省市县后输入详细地址关键词搜索地址&#xff0c;然后进行选择三、如何实现定位采用小程序API wx.chooseLocation 调出地图选择位置 API wx.chooseLocation 详细说明根据地址解析出省市县以及详细地址及经纬度代码实现c…

【Linux】-- 进程概念

目录 一、进程概念 二、PCB 1.什么是PCB 2.什么是task_struct 3.task_struct包含内容 三、task_struct内容详解 1.查看进程 &#xff08;1&#xff09;通过系统目录查看 &#xff08;2&#xff09;通过ps命令查看 &#xff08;3&#xff09;通过top命令查看 &…

Mysql自定义变量在递归遍历中的妙用

借着在解决一个递归查询父目录的问题&#xff0c;学习了一下mysql变量的用法&#xff0c;在某些场景下这种解法还是比较有特效的&#xff0c;下面具体来聊一下场景&#xff0c;同时也会详细分析下mysql自定义变量的用法 场景&#xff1a; 获取从树的根节点到叶子节点的全路径&…

图解基于UDS的Flash BootLoader

图解基于UDS的Flash BootLoader一、为什么要搞Bootloader&#xff1f;为什么要基于UDS搞Bootloader二、Bootloader应支持的UDS服务三、Bootloader——三段式(1) 预编程阶段(2) 主编程阶段(3)后编程状态四、BootLoader的启动顺序与转换流程五、问题点疑问点 Q:图中的烧写顺序是…

点云 3D 目标检测 - RangeDet(ICCV 2021)

点云 3D 目标检测 - RangeDet&#xff08;ICCV 2021&#xff09;摘要1. 引言2. 相关工作3. 距离视图表示的回顾4. 方法4.1 距离条件金字塔4.2 元核卷积4.3 加权非最大抑制4.4 距离视图中的数据增强4.5 体系结构5. 实验5.1 元核卷积的研究5.2 距离条件金字塔的研究5.3 加权非最大…

基于android的有声听书系统

需求信息&#xff1a; 1&#xff1a;注册登录&#xff1a;未注册用户首先进行账号注册&#xff0c;注册成功后进行登录&#xff0c;已注册用户直接输入账号密码进行登录&#xff0c;登录成功后进入主页面。 2&#xff1a;主页面&#xff1a;通过左右滑动可以实现对推荐界面、订…

Activity7工作流介绍_和BPM语言介绍---工作流工作笔记003

只说经典,重要的部分,节省学习时间,用最快的速度学习掌握 看一个简单审批流程,要知道工作流是基于状态驱动的,就是比如,状态有: 0 已创建 1 已提交 2 已部门经理审核 3 已总经理审核 4 审核通过 5 审核拒绝 根据这些状态来做驱动. 这里需要用到流程引擎,常见的比如有Drools规…

不看后悔,一文入门Go云原生微服务

文章目录打好基础微服务框架对比简单横评各个框架微服务概念软件架构演进史简单理解微服务的好处go-micro概述构成组件Go MicroAPISidecarWebCLIBot总结Go Micro组件架构Registry注册中心Selector负载均衡Broker事件驱动&#xff1a;发布订阅Transport消息传输总结快速入门准备…

使用Java8优化模板方法模式

目录 前言 以前的模板方法 Java 8 的函数式编程 Java 8以后的模板方法 总结 前言 我们在日常开发中&#xff0c;经常会遇到类似的场景&#xff1a;当要做一件事儿的时候&#xff0c;这件事儿的步骤是固定好的&#xff0c;但是每一个步骤的具体实现方式是不一定的。 通…

网络 随笔 2-linux的三种网络模式

0. 前面的科普对操作系统网络的理解还有帮助的 简单点&#xff0c;linux三种网络模式 linux中的三种网络模式 1. bridge 物理网卡使用虚拟网桥作为虚拟交换机的输入物理机以及虚拟网卡接入这个虚拟交换机虚拟网卡与物理网卡处于一个网段下(网关与DNS 一致) 2. NAT 虚拟的N…

删除的文件怎么恢复?误删文件恢复,就使用这些方法!

电脑里面保存着很多文件&#xff0c;为了让电脑更整洁&#xff0c;我们一般都会定期清理不必要的数据。在清理过程中&#xff0c;出现文件被误删&#xff0c;我们该怎么办&#xff1f;误删文件恢复&#xff0c;方法就看下面三个&#xff1a;注册表恢复、回收站恢复、软件恢复。…

一场晚会直播背后的安全攻防

多姿多彩的数字世界中&#xff0c;“直播”扮演了不可或缺的角色。刚刚结束的央视春晚&#xff0c;腾讯和中央广播电视总台一起打造了“竖屏春晚HDR及菁彩声”技术方案&#xff0c;并在“央视频”客户端上线。让广大用户“听”得更沉浸&#xff0c;“看”得更清晰。总台首次使用…

无刷电机驱动器

0.0参考&#xff1a; FOC?看这篇文章就够了 志辉君——【自制FOC驱动器】深入浅出讲解FOC算法与SVPWM技术 SPWM基本原理详解&#xff08;图文并茂公式推导C程序实现&#xff09; 1、开源的FOC方案 1、SmipleFOC是比较常见的无刷驱动方案&#xff0c;因为其便宜的制造成本…

高级Spring之Scope 详解

在当前版本的 Spring 和 Spring Boot 程序中&#xff0c;支持五种 Scope singleton&#xff0c;容器启动时创建&#xff08;未设置延迟&#xff09;&#xff0c;容器关闭时销毁 prototype&#xff0c;每次使用时创建&#xff0c;不会自动销毁&#xff0c;需要调用 DefaultList…