为什么估计的参数具有渐进高斯性?M-estimateor的渐进高斯性推导

news2025/2/22 21:39:20

M-estimators

在这里我们研究一种叫M-estimators的渐进高斯性。具体来说,如果参数估计可以用一个最小化或者最大化目标表示:

θ o = arg ⁡ min ⁡ θ ∈ Θ E [ q ( w , θ ) ] \theta _{o} =\arg\min_{\theta \in \Theta }\mathbb{E}[ q(w,\theta )] θo=argθΘminE[q(w,θ)]

比如最大似然估计就是最大化似然函数的参数,那么把样本代进去,我们就可以得到m-estimator(maximum-likelihood-like estimator Huber (1967)):

θ ^ = arg ⁡ min ⁡ θ N − 1 ∑ i = 1 N q ( w i , θ ) \hat{\theta } =\arg\min_{\theta } N^{-1}\sum _{i=1}^{N} q(w_{i} ,\theta ) θ^=argθminN1i=1Nq(wi,θ)

它表示就是从样本中估计的参数。
我们也可以用其极值条件来表示这个估计量,即找到其导数为0的极值点就是我们的 θ ^ \displaystyle \hat{\theta } θ^

N − 1 ∑ i = 1 N ∇ θ q ( w i , θ ^ ) = 0 N^{-1}\sum _{i=1}^{N} \nabla _{\theta } q(w_{i} ,\hat{\theta } )=0 N1i=1Nθq(wi,θ^)=0

这个估计方式也被称为generalized method of moments(GMM),大部分情况下GMM和MLE是等价的,GMM的适用范围会更广一点,因为那些无法用MLE的模型可以用GMM来求,比如有些数据的分布不知道,或者写不出具体的形式,这时候MLE就没法用了。

Consistency and normality of M-estimators

那么这个估计的参数 θ ^ \displaystyle \hat{\theta } θ^有些什么性质呢?对于估计量的性质,我们一般关心这三个问题:可识别性(identifiability),一致性(consistency),以及渐进高斯性(asymptotic normality)。

可识别性是基本要求,也就是这个极值点是唯一的,不可以存在另外的参数但他们的大小相同,这个性质一般是具体问题具体分析,这里先假设成立。

Consistency

对于一致性,其实就是 θ ^ → p θ 0 \displaystyle \hat{\theta }\xrightarrow{p} \theta _{0} θ^p θ0是否依概率收敛到到真实的 θ 0 \displaystyle \theta _{0} θ0上去。

在这里插入图片描述

为了证明一致性,如上图,我们可以以他们的目标函数作为桥梁,通过证明 N − 1 ∑ i = 1 N q ( w i , θ ) \displaystyle N^{-1}\sum _{i=1}^{N} q(w_{i} ,\theta ) N1i=1Nq(wi,θ)uniform convergence收敛到 E [ q ( w , θ ) ] \displaystyle E[ q( w,\theta )] E[q(w,θ)](其实就是大数定理),并且基于 θ 0 \displaystyle \theta _{0} θ0的可识别性,以及连续有界等等性质,证明出 θ ^ → p θ 0 \displaystyle \hat{\theta }\xrightarrow{p} \theta _{0} θ^p θ0:

在这里插入图片描述

Normality

最后是渐进高斯性,所谓渐进高斯就是

在这里插入图片描述

这个定理告诉我们,这个估计的参数是服从正态分布的,而且他的方差取决于q的一阶和二阶导数。这东西是怎么来的呢,其实就是通过泰勒展开建立了估计参数与目标函数导数的桥梁。具体推导如下,这里都假设可识别性以及一致性成立。

首先定义符号, s i ( θ ) \displaystyle s_{i} (\theta ) si(θ)是一个 1 × P 1\times P 1×P 向量

s i ( θ ) ≡ ∇ θ q ( w i , θ ) = ( ∂ q ( w i , θ ) ∂ θ 1 , . . . , ∂ q ( w i , θ ) ∂ θ P ) T \begin{array}{ r c l } s_{i} (\theta ) & \equiv & \nabla _{\theta } q(w_{i} ,\theta )\\ & = & \left(\frac{\partial q(w_{i} ,\theta )}{\partial \theta _{1}} ,...,\frac{\partial q(w_{i} ,\theta )}{\partial \theta _{P}}\right)^{T} \end{array} si(θ)=θq(wi,θ)(θ1q(wi,θ),...,θPq(wi,θ))T

H i ( θ ) \displaystyle H_{i} (\theta ) Hi(θ)则是 P × P P\times P P×P矩阵

H i ( θ ) ≡ ∇ θ θ 2 q ( w i , θ ) = ∂ 2 q ( w i , θ ) ∂ θ ∂ θ ′ . H_{i} (\theta )\equiv \nabla _{\theta \theta }^{2} q(w_{i} ,\theta )=\frac{\partial ^{2} q(w_{i} ,\theta )}{\partial \theta \partial \theta ^{\prime }} . Hi(θ)θθ2q(wi,θ)=θθ2q(wi,θ).

接下来我们希望对 s i ( θ ) \displaystyle s_{i}( \theta ) si(θ)作一阶泰勒展开。回顾一下泰勒展开,一个连续函数 f ( x ) \displaystyle f( x) f(x) x 0 \displaystyle x_{0} x0处的展开为:

f ( x ) = f ( x 0 ) + f ′ ( x + ) ( x − x 0 ) f(x)=f(x_{0} )+f'(x^{+} )(x-x_{0} ) f(x)=f(x0)+f(x+)(xx0)

其中   x + \displaystyle \ x^{+}  x+ x 0 \displaystyle x_{0} x0 x \displaystyle x x之间的数,这个也称为中值定理。但如果f的输出是个向量,那么这个展开就是向量形式的泰勒展开:

f ( x ) = f ( x 0 ) + ∂ f ( x ) ∂ x ∣ x = x + ( x − x 0 ) \mathbf{f} (\mathbf{x} )=\mathbf{f} (\mathbf{x}_{0} )+\frac{\partial \mathbf{f} (\mathbf{x} )}{\partial \mathbf{x}}\Bigl|_{\mathbf{x} =\mathbf{x}^{+}} (\mathbf{x} -\mathbf{x}_{0} ) f(x)=f(x0)+xf(x) x=x+(xx0)

这里 ∂ f ( x ) ∂ x \displaystyle \frac{\partial \mathbf{f} (\mathbf{x} )}{\partial \mathbf{x}} xf(x)是一个矩阵,对于该矩阵的每一行,其对应的 x + \displaystyle \mathbf{x}^{+} x+都是不同的。

接下来,我们建立 θ \displaystyle \theta θ s ( θ ) \displaystyle s( \theta ) s(θ)的联系,具体的,把这个泰勒展开用到 s i ( θ ) \displaystyle s_{i} (\theta ) si(θ)上,

∑ i = 1 N s i ( θ ^ ) = ∑ i = 1 N s i ( θ 0 ) + ∑ i = 1 N ∂ s i ( θ ) ∂ θ ∣ θ + ( θ ^ − θ 0 ) \sum _{i=1}^{N} s_{i} (\hat{\theta } )=\sum _{i=1}^{N} s_{i} (\theta _{0} )+\sum _{i=1}^{N}\frac{\partial s_{i} (\theta )}{\partial \theta }\Bigl|_{\theta ^{+}} (\hat{\theta } -\theta _{0} ) i=1Nsi(θ^)=i=1Nsi(θ0)+i=1Nθsi(θ) θ+(θ^θ0)

现在,我们用 S ( θ ) = 1 N ∑ i = 1 N s i ( θ ) = 1 N ∑ i = 1 N ∇ θ q ( w i , θ ) \displaystyle S( \theta ) =\frac{1}{N}\sum _{i=1}^{N} s_{i} (\theta )=\frac{1}{N}\sum _{i=1}^{N} \nabla _{\theta } q(w_{i} ,\theta ) S(θ)=N1i=1Nsi(θ)=N1i=1Nθq(wi,θ) S ′ ( θ ) = 1 N ∑ i = 1 N ∂ s i ( θ ) ∂ θ ∣ θ + = 1 N ∑ i = 1 N ∇ θ θ 2 q ( w i , θ ) \displaystyle S'( \theta ) =\frac{1}{N}\sum _{i=1}^{N}\frac{\partial s_{i} (\theta )}{\partial \theta }\Bigl|_{\theta ^{+}} =\frac{1}{N}\sum _{i=1}^{N} \nabla _{\theta \theta }^{2} q(w_{i} ,\theta ) S(θ)=N1i=1Nθsi(θ) θ+=N1i=1Nθθ2q(wi,θ),于是

S ( θ ^ ) = S ( θ 0 ) + S ′ ( θ + ) ( θ ^ − θ 0 ) S(\hat{\theta }) =S( \theta _{0}) +S'\left( \theta ^{+}\right) (\hat{\theta } -\theta _{0} ) S(θ^)=S(θ0)+S(θ+)(θ^θ0)

首先,根据 θ ^ \displaystyle \hat{\theta } θ^的定义,他是通过极值点求得的,因此 S ( θ ^ ) = 0 \displaystyle S(\hat{\theta }) =0 S(θ^)=0,于是

0 = S ( θ 0 ) + S ′ ( θ + ) ( θ ^ − θ 0 ) θ ^ − θ 0 = − S ′ ( θ + ) − 1 S ( θ 0 ) \begin{aligned} 0 & =S( \theta _{0}) +S'\left( \theta ^{+}\right) (\hat{\theta } -\theta _{0} )\\ \hat{\theta } -\theta _{0} & =-S'\left( \theta ^{+}\right)^{-1} S( \theta _{0}) \end{aligned} 0θ^θ0=S(θ0)+S(θ+)(θ^θ0)=S(θ+)1S(θ0)

接下来,希望将 θ + \displaystyle \theta ^{+} θ+变成 θ 0 \displaystyle \theta _{0} θ0。基于参数的一致性 θ ^ → p θ 0 \displaystyle \hat{\theta }\xrightarrow{p} \theta _{0} θ^p θ0,并且进一步假设 S ′ \displaystyle S' S这个函数是平滑的,那么就会有

θ ^ − θ 0 = − S ′ ( θ 0 ) − 1 S ( θ 0 ) + o p ( 1 ) N ( θ ^ − θ 0 ) = − S ′ ( θ 0 ) − 1 N S ( θ 0 ) ⏟ → N ( 0 , B 0 ) + o p ( 1 ) \begin{aligned} \hat{\theta } -\theta _{0} & =-S'( \theta _{0})^{-1} S( \theta _{0}) +o_{p}( 1)\\ \sqrt{N}(\hat{\theta } -\theta _{0}) & =-S'( \theta _{0})^{-1}\underbrace{\sqrt{N} S( \theta _{0})}_{\rightarrow \mathcal{N}( 0,B_{0})} +o_{p}( 1) \end{aligned} θ^θ0N (θ^θ0)=S(θ0)1S(θ0)+op(1)=S(θ0)1N(0,B0) N S(θ0)+op(1)

这里 o p ( 1 ) \displaystyle o_{p}( 1) op(1)表示这条等式在 N → ∞ \displaystyle N\rightarrow \infty N的时候成立。接下来,因为 θ 0 \displaystyle \theta _{0} θ0是个常数,而 S ( θ 0 ) = 1 N ∑ i = 1 N ∇ θ q ( w i , θ 0 ) \displaystyle S( \theta _{0}) =\frac{1}{N}\sum _{i=1}^{N} \nabla _{\theta } q(w_{i} ,\theta _{0} ) S(θ0)=N1i=1Nθq(wi,θ0),是一个样本的均值,所以根据中心极限定理,这个东西会趋于正态分布,并且因为 E [ S ( θ 0 ) ] = 0 \displaystyle E[ S( \theta _{0})] =0 E[S(θ0)]=0(因为 θ 0 \displaystyle \theta _{0} θ0 E [ q ( w , θ ) ] \displaystyle \mathbb{E}[ q(w,\theta )] E[q(w,θ)]的极值点),所以其正态分布的均值为0,而其方差则是 V a r ( ∇ θ q ( w i , θ 0 ) ) = V a r ( s i ( θ 0 ) ) \displaystyle Var( \nabla _{\theta } q(w_{i} ,\theta _{0} )) =Var( s_{i} (\theta _{0} )) Var(θq(wi,θ0))=Var(si(θ0)),记为 B 0 \displaystyle B_{0} B0,并且记 A 0 : = S ′ ( θ 0 ) \displaystyle A_{0} :=S'( \theta _{0}) A0:=S(θ0)

N ( θ ^ − θ 0 ) → d N ( 0 , A 0 − 1 B 0 A 0 − 1 ) \sqrt{N}(\hat{\theta } -\theta _{0})\xrightarrow{d}\mathcal{N}\left( 0,A_{0}^{-1} B_{0} A_{0}^{-1}\right) N (θ^θ0)d N(0,A01B0A01)

这里之所以两个 A 0 \displaystyle A_{0} A0是因为 − a ∗ N ( 0 , 1 ) ∼ N ( 0 , a 2 ) \displaystyle -a*N( 0,1) \sim N\left( 0,a^{2}\right) aN(0,1)N(0,a2),是矩阵的平方的写法。最后这就是我们的定理

在这里插入图片描述

我们发现,这个参数估计的方差是取决于 V a r ( ∇ θ q ( w i , θ 0 ) ) \displaystyle Var( \nabla _{\theta } q(w_{i} ,\theta _{0} )) Var(θq(wi,θ0))以及 E [ ∇ θ θ 2 q ( w i , θ ) ] \displaystyle E\left[ \nabla _{\theta \theta }^{2} q(w_{i} ,\theta )\right] E[θθ2q(wi,θ)].

这个证明核心的地方是那个泰勒展开,其导数 S ( θ 0 ) \displaystyle S( \theta _{0}) S(θ0)是样本均值求和,根据中心极限定理是渐进高斯的,又因为参数 θ ^ − θ 0 \displaystyle \hat{\theta } -\theta _{0} θ^θ0可以用 S ( θ 0 ) \displaystyle S( \theta _{0}) S(θ0)表示,从而可以写出渐进高斯的表达式。

例子

考虑一个简单的线性模型

y = a x + ϵ ,   y=ax+\epsilon ,\ y=ax+ϵ, 

其中 x ∼ N ( 0 , σ x 2 ) , ϵ ∼ N ( 0 , σ ϵ 2 ) \displaystyle x\sim \mathcal{N}\left( 0,\sigma _{x}^{2}\right) ,\epsilon \sim \mathcal{N}\left( 0,\sigma _{\epsilon }^{2}\right) xN(0,σx2),ϵN(0,σϵ2)。于是,

a ^ = arg ⁡ max ⁡ 1 N ∑ i = 1 N log ⁡ p ( x i , y i ; a ) = arg ⁡ min ⁡ 1 N ∑ i = 1 N ( y i − a x i ) 2 \begin{aligned} \hat{a} & =\arg\max\frac{1}{N}\sum _{i=1}^{N}\log p( x_{i} ,y_{i} ;a)\\ & =\arg\min\frac{1}{N}\sum _{i=1}^{N}( y_{i} -ax_{i})^{2} \end{aligned} a^=argmaxN1i=1Nlogp(xi,yi;a)=argminN1i=1N(yiaxi)2

因此, q ( x i , y i , a ) = ( y i − a x i ) 2 \displaystyle q( x_{i} ,y_{i} ,a) =( y_{i} -ax_{i})^{2} q(xi,yi,a)=(yiaxi)2,于是

B 0 = V a r ( ∇ a q ( x i , y i , a ) ) = V a r ( − 2 ( y i − a x i ) x i ) = V a r ( − 2 ϵ i x i ) = E [ 4 ϵ i 2 x i 2 ] − 4 E [ ϵ i x i ] 2 = 4 σ x 2 σ ϵ 2 A 0 = E [ ∇ a a 2 q ( x i , y i , a ) ] = E [ 2 x i 2 ] = 2 σ x 2 B_{0} =Var( \nabla _{a} q( x_{i} ,y_{i} ,a)) =Var( -2( y_{i} -ax_{i}) x_{i}) =Var( -2\epsilon _{i} x_{i}) =E\left[ 4\epsilon _{i}^{2} x_{i}^{2}\right] -4E[ \epsilon _{i} x_{i}]^{2} =4\sigma _{x}^{2} \sigma _{\epsilon }^{2}\\ A_{0} =E\left[ \nabla _{aa}^{2} q( x_{i} ,y_{i} ,a)\right] =E\left[ 2x_{i}^{2}\right] =2\sigma _{x}^{2} B0=Var(aq(xi,yi,a))=Var(2(yiaxi)xi)=Var(2ϵixi)=E[4ϵi2xi2]4E[ϵixi]2=4σx2σϵ2A0=E[aa2q(xi,yi,a)]=E[2xi2]=2σx2

于是,我们有

N ( a ^ − a ) → d N ( 0 , σ ϵ 2 σ x 2 ) \sqrt{N}(\hat{a} -a)\xrightarrow{d}\mathcal{N}\left( 0,\frac{\sigma _{\epsilon }^{2}}{\sigma _{x}^{2}}\right) N (a^a)d N(0,σx2σϵ2)

参考资料

Consistency and normality of M-estimators
Linearity of the Integrator of Riemann-Stieltjes Integrals

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1098187.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HHDESK便捷功能介绍四

1 窗口切换 在文件管理界面,点击切换按钮,除了可以对左右两边窗口进行位置切换; 也可以直接打开该文件夹,并且进行图片浏览。 2 新建功能 同样是在文件管理中,点击新建,可在当前文件夹中创建各类文件&…

长连接与短连接的区别以及使用场景

文章底部有个人公众号:热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享? 踩过的坑没必要让别人在再踩,自己复盘也能加深记忆。利己利人、所谓双赢。 短连接 1、连接->传输数据->关闭连接…

想做WMS仓库管理系统,找了好久才找到云表

公司内部仓库管理原方式均基于人工电子表格管理方式来实现收发存管理,没有流程化管理,无法保证数据的准确性和及时性,同时现场操作和数据核对会出现不同步的情况,无法提高仓库的运作效率,因此,我们基于云表…

区块链服务网络BSN季度版本迭代说明【2023年Q3】

根据区块链服务网络发展联盟计划安排,BSN将每周进行一个小的版本迭代,每季度进行一个大的版本迭代,目前区块链服务网络(BSN)已完成最新季度版本迭代。 我们将按照BSN官方专网(国内版和国际版)、…

网络工程师知识点5

71、什么是FTP? FTP是文件传输协议。 FTP传输数据时支持两种传输模式:ASCII模式和二进制模式。 需要TCP的21号端口来建立控制连接 需要TCP的20号端口来建立数据连接 72、什么是telnet? Telnet提供了一个交互式操作界面,允许终端远…

用Eclipse写java代码

1.新建项目 2.选择创建java项目 3.输入项目名称,选择specific JRE 可以选1.8版本的,finish 4.在src中新建包,包名为项目名.包名 5.在包中新建类 如何修改eclipse字体大小 看这里 6.写代码,写好之后运行 报错a jni error…

问:TCP/IP协议栈在内核态的好还是用户态的好

“TCP/IP协议栈到底是内核态的好还是用户态的好?” 问题的根源在于,干嘛非要这么刻意地去区分什么内核态和用户态。 引子 为了不让本文成为干巴巴的说教,在文章开头,我以一个实例分析开始。 最近一段时间,我几乎每…

ASEMI整流桥GBJ2510参数:拆析其关键性能特点

编辑-Z 在众多的电力电子元件中,GBJ2510整流桥以其高效能和可靠性赢得了工业领域的广泛认可。这款设备是在电力系统、直流电源等一系列设备中不可或缺的组件。本文将详细反析GBJ2510整流桥参数的关键性能特点,以帮助用户更加全面地理解和使用这种电子设…

微信小程序用 canvas 实现手写签名弹框(全网最最最详细!!)

文章目录 一、签字面板效果图二、WXML文件三、JS文件四、WXSS文件五、小Tips ~ 一、签字面板效果图 二、WXML文件 &#x1f338;点击弹出手写签名面板事件 <van-button type"default" bindtap"handWrittenSign">点击弹出手写签名弹框</van-butt…

通过电商API接口,代购系统可以获取到商品、订单、物流等多种信息

代购系统需要接入电商API接口&#xff0c;以便实现与电商平台的交互与数据共享。通过电商API接口&#xff0c;代购系统可以获取到商品、订单、物流等多种信息&#xff0c;同时也可以完成下单、支付、退货等多种操作。 对于用户来说&#xff0c;接入电商API接口可以提供以下好处…

Linux性能基础:CPU、内存、磁盘等概述

目录 1. CPU 1.1. CPU常见品牌 1.2. CPU性能概述 ① CPU主频 ② CPU位数 ③ CPU缓存指令集 ④ CPU核心数 ⑤ IPC 1.3. 上下文切换 1.4. 进程与线程 ① 进程 ② 线程 2. 内存 2.1. 内存主频 2.2. 内存带宽 2.3. 内存分类 2.4. 内存的分配 2.5. 内存的回收 2.6. 内存泄漏 3. 磁盘…

Mysql系列---【linux安装mysql8.1.0】

1.下载安装包 官网链接: https://dev.mysql.com/downloads/mysql/ 注意:linux查看glibc版本的命令: rpm -qa|grep glibc 2.把下载的包上传到/opt/app/middles目录下 注意: 速度可能有点慢。 3.解压压缩包 #xz解压 xz -d mysql-8.1.0-linux-glibc2.17-x86_64.tar.xz #tar解压 t…

c++仿写小波分解和去噪代码(只使用基础库)

小波分解C版本 C代码 参考了一些Github的代码 最终代码可从链接下载。 main函数如果打不开的话&#xff0c;使用 #include <iostream> #include <vector> #include <fstream> #include "wavelet.h"int main() {// 读取原始信号数据std::ifstrea…

用户生成内容vs专业生成内容:谁主海外社媒营销江山?

随着社交媒体和数字营销的崛起&#xff0c;海外社媒营销已经成为各大品牌推广产品和服务的一种主要方式。然而&#xff0c;在选择最佳策略时&#xff0c;品牌经常会面临一个关键的问题&#xff1a;是使用用户生成内容&#xff08;UGC&#xff09;还是专业生成内容&#xff08;P…

fix: prosemirror adds two extra spaces when paste

bug 项目使用 prosemirror&#xff0c;复制 NodeSelection 时&#xff0c;会在末尾多出两个空格。 NodeSelection prosemirror 的 Selection 是抽象类&#xff0c;它有三个子类 TextSelection 最常见的NodeSelection 指向单一节点的选区。设置了 selectable true 的节点&am…

C++项目实战——基于多设计模式下的同步异步日志系统-⑪-日志器管理类与全局建造者类设计(单例模式)

文章目录 专栏导读日志器建造者类完善单例日志器管理类设计思想单例日志器管理类设计全局建造者类设计日志器类、建造者类整理日志器管理类测试 专栏导读 &#x1f338;作者简介&#xff1a;花想云 &#xff0c;在读本科生一枚&#xff0c;C/C领域新星创作者&#xff0c;新星计…

达梦数据库适配ServiceStack框架

注&#xff1a;达梦的驱动版本请使用2023第四季度及以后版本驱动才可以 ServiceStack介绍 ServiceStack官网&#xff1a; https://github.com/ServiceStack/ServiceStack ServiceStack是一个开源的十分流行的WebService框架&#xff0c;引用其官网的介绍&#xff1a;“Servic…

创建React Native的第一个hello world工程

创建React Native的第一个hello world工程 需要安装好node、npm环境 如果之前没有安装过react-native-cli脚手架的&#xff0c;可以按照下述步骤直接安装。如果已经安装过的&#xff0c;但是在使用这个脚手架初始化工程的时候遇到下述报错的话 cli.init(root, projectname);…

FPGA中的LUT查找表工作原理。

在RAM中填入1110,后续的不同AB组合Y输出对应的值&#xff0c;实现上面逻辑表达式的功能。

windows编译ollvm笔记

准备工作 1.找到Android SDK目录配置好cmake环境变量 E:\AndroidSDK\cmake\3.18.1&#xff08;E:\AndroidSDK为 Android SDK目录地址&#xff09;。 下载llvm-mingw编译环境(gcc编译器的windows版本&#xff0c;即可以在windows平台上使用gcc编译器)&#xff0c;下载地址&…