KSG互信息估计器的原理详细推导(Kraskov, 2004)

news2024/11/28 18:01:22

KSG Estimators

KSG估计器是Kraskov在2004年提出的互信息估计器,其原文过于简略,我参考大量文献对细节进行了补充。原文位置:[https://arxiv.org/pdf/cond-mat/0305641.pdf]

KSG估计的基本方法是首先对互信息进行如下分解 (1)
I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X,Y)=H(X)+H(Y)-H(X,Y) I(X,Y)=H(X)+H(Y)H(X,Y)
因此,只需要对 H ( x ) H(x) H(x)等三项进行逐个估计即可。

KLE Esitmator

KLE估计器用于估计微分熵。

利用蒙特卡洛估计有(2)
H [ x ] = − ∫ μ ( x ) l o g μ ( x ) d x ≈ − 1 N l o g μ ^ ( x ) H[x]=-\int\mu(x)log\mu(x)dx \approx -\frac{1}{N}log\hat{\mu}(x) H[x]=μ(x)lo(x)dxN1logμ^(x)
Then the key problem is estimating μ ^ \hat{\mu} μ^(x).

考虑 一个 ϵ − b a l l \epsilon-ball ϵball x i x_i xi为中心, 则 ( 0 , ϵ 2 ) (0,\frac{\epsilon}{2}) (0,2ϵ)的范围内有 k − 1 k-1 k1个点, ( ϵ 2 , ϵ 2 + d ϵ ) (\frac{\epsilon}{2},\frac{\epsilon}{2}+d\epsilon) (2ϵ,2ϵ+dϵ)中间有一个点(the kth neighbor), ( ϵ 2 + d ϵ ) (\frac{\epsilon}{2}+d\epsilon) (2ϵ+dϵ)之外有剩余的 N − k − 1 N-k-1 Nk1​个点,因此首先在除了 x i x_i xi的N-1个点中挑选k个点,其中一个点位于边缘上,这k个点中剩余选取k-1个点位于最中心范围内,则 p ( ϵ ) p(\epsilon) p(ϵ) x i x_i xi周围 ϵ − b a l l \epsilon-ball ϵball的概率质量(mass) (3):
p i ( ϵ ) = ( N − 1 k ) ( k k − 1 ) ( 1 − p i ( ϵ ) ) N − k − 1 p i ( ϵ ) k − 1 d p i ( ϵ ) 1 d ϵ = ( N − 1 ) ! ( N − k − 1 ) ! 1 ! ( k − 1 ) ! ( 1 − p i ( ϵ ) ) N − k − 1 p i ( ϵ ) k − 1 d p i ( ϵ ) 1 d ϵ \begin{aligned} p_i(\epsilon)=&\tbinom{N-1}{k}\tbinom{k}{k-1}(1-p_i(\epsilon))^{N-k-1}p_i(\epsilon)^{k-1}\frac{dp_i(\epsilon)^1}{d\epsilon}\\ & = \frac{(N-1)!}{(N-k-1)!1!(k-1)!}(1-p_i(\epsilon))^{N-k-1}p_i(\epsilon)^{k-1}\frac{dp_i(\epsilon)^1}{d\epsilon} \end{aligned} pi(ϵ)=(kN1)(k1k)(1pi(ϵ))Nk1pi(ϵ)k1dϵdpi(ϵ)1=(Nk1)!1!(k1)!(N1)!(1pi(ϵ))Nk1pi(ϵ)k1dϵdpi(ϵ)1
u = p i ( ϵ ) u=p_i(\epsilon) u=pi(ϵ),则 d u = d p i ( ϵ ) d ϵ du=dp_i(\epsilon)d\epsilon du=dpi(ϵ)dϵ
Beta函数定义为 b e t a ( p , q ) = ∫ 0 1 x p − 1 ( 1 − x ) q − 1 d x = ( p − 1 ) ! ( q − 1 ) ! ( p + q − 1 ) ! = p + q p q ( p + q p ) beta(p,q)=\int_0^{1}x^{p-1}(1-x)^{q-1}dx=\frac{(p-1)!(q-1)!}{(p+q-1)!=\frac{\frac{p+q}{pq}}{\tbinom{p+q}{p}}} beta(p,q)=01xp1(1x)q1dx=(p+q1)!=(pp+q)pqp+q(p1)!(q1)!
因此,验证积分为1: (4)
∫ 0 ∞ p i ( ϵ ) d ϵ = ∫ 0 1 k ( N − 1 k ) μ k − 1 ( 1 − μ ) N − k − 1 d μ = k ( N − 1 k ) b e t a ( k , N − k ) = k ( N − 1 k ) N k ( N − k ) 1 ( N k ) = 1 \begin{aligned} \int_0^{\infin}p_i(\epsilon)d\epsilon&=\int_0^1k\tbinom{N-1}{k}\mu^{k-1}(1-\mu)^{N-k-1}d\mu=k\tbinom{N-1}{k}beta(k,N-k)\\ &=k\tbinom{N-1}{k}\frac{N}{k(N-k)}\frac{1}{\tbinom{N}{k}}=1 \end{aligned} 0pi(ϵ)dϵ=01k(kN1)μk1(1μ)Nk1dμ=k(kN1)beta(k,Nk)=k(kN1)k(Nk)N(kN)1=1

Lemma 1.

X ∼ B e t a ( α , β ) , E [ l o g ( X ) ] = ψ ( α ) − ψ ( α + β ) , ψ ( ) = Γ ′ ( ) Γ ( ) X\sim Beta(\alpha, \beta),\mathbb{E}[log(X)]=\psi(\alpha)-\psi(\alpha+\beta),\psi()=\frac{\Gamma'()}{\Gamma()} XBeta(α,β),E[log(X)]=ψ(α)ψ(α+β),ψ()=Γ()Γ()

证明: (5)
E [ l o g ( X ) ] = ∫ 0 1 B ( α , β ) − 1 l o g ( x ) x α − 1 ( 1 − x ) β − 1 d x = B ( α , β ) − 1 ∫ 0 1 ∂ ∂ α x α − 1 ( 1 − x ) β − 1 d x \begin{aligned} E[log(X)]&=\int_0^1B(\alpha,\beta)^{-1}log(x)x^{\alpha-1}(1-x)^{\beta-1}dx\\ &=B(\alpha,\beta)^{-1}\int_0^1\frac{\partial}{\partial\alpha}x^{\alpha-1}(1-x)^{\beta-1}dx \end{aligned} E[log(X)]=01B(α,β)1log(x)xα1(1x)β1dx=B(α,β)101αxα1(1x)β1dx
交换微分和积分的顺序(类似于莱布尼兹法则): (6)
E [ l o g ( X ) ] = B e t a ( α , β ) − 1 ∂ ∂ α B e t a ( α , β ) = ∂ ∂ α l o g B ( α , β ) E[log(X)]=Beta(\alpha,\beta)^{-1}\frac{\partial}{\partial\alpha}Beta(\alpha,\beta)=\frac{\partial}{\partial\alpha}logB(\alpha,\beta) E[log(X)]=Beta(α,β)1αBeta(α,β)=αlogB(α,β)
展开Beta函数: (7)
= ∂ ∂ α [ l o g Γ ( α ) + l o g Γ ( β ) − l o g Γ ( α + β ) ] = ψ ( α ) − ψ ( α + β ) =\frac{\partial}{\partial\alpha}[log\Gamma(\alpha)+log\Gamma(\beta)-log\Gamma(\alpha+\beta)]=\psi(\alpha)-\psi(\alpha+\beta) =α[logΓ(α)+logΓ(β)logΓ(α+β)]=ψ(α)ψ(α+β)

Proposition 2.

E [ l o g p i ( ϵ ) ] = ψ ( k ) − ψ ( N ) E[logp_i(\epsilon)]=\psi(k)-\psi(N) E[logpi(ϵ)]=ψ(k)ψ(N)

使用Lemma 1可得。

熵的估计

假设在 x i x_i xi的邻域范围内,概率密度 μ ( x ) \mu(x) μ(x)是均匀的,则有 (8)
p i ( ϵ ) ≈ c d ϵ d μ ( x i ) p_i(\epsilon)\approx c_d\epsilon^d\mu(x_i) pi(ϵ)cdϵdμ(xi)
其中, c d c_d cd是n维的单位球体体积,定义为 ∫ ∥ s ∥ < 1 / 2 d s \int_{\Vert s \Vert<1/2}ds s<1/2ds,对于某些范数。

如果是2范数,则n维球体积公式 (9)
V n = π n 2 R d Γ ( 1 + n 2 ) V_n=\frac{\pi^{\frac{n}{2}}R^d}{\Gamma(1+\frac{n}{2})} Vn=Γ(1+2n)π2nRd
R = 1 R=1 R=1时即为 c d c_d cd,再乘以 R d R^d Rd

因此,该区域概率密度 μ ( x i ) \mu(x_i) μ(xi)乘以体积 c d ϵ d c_d\epsilon^d cdϵd,得到该区域概率质量 p i ( ϵ ) p_i(\epsilon) pi(ϵ)

根据(8),有 (10)
E [ − l o g μ ( X i ) ] ≈ − E [ l o g p i ( ϵ ) ] + l o g c d + d E [ l o g ϵ ] = − ϕ ( k ) + ϕ ( N ) + l o g c d + d E [ l o g ϵ ] ≈ − ϕ ( k ) + ϕ ( N ) + l o g c d + d N ∑ i = 1 N l o g ϵ i \begin{aligned} E[-log\mu(X_i)]&\approx-E[logp_i(\epsilon)]+logc_d+dE[log\epsilon]\\ &=-\phi(k)+\phi(N)+logc_d+dE[log\epsilon]\\ &\approx-\phi(k)+\phi(N)+logc_d+\frac{d}{N}\sum_{i=1}^{N}log\epsilon_i \end{aligned} E[lo(Xi)]E[logpi(ϵ)]+logcd+dE[logϵ]=ϕ(k)+ϕ(N)+logcd+dE[logϵ]ϕ(k)+ϕ(N)+logcd+Ndi=1Nlogϵi
其中,最后的 ϵ i \epsilon_i ϵi表示第 i i i个点到他第kth最近邻的距离。

KSG1估计器

首先, H ( X ) H(X) H(X) H ( Y ) H(Y) H(Y)可以直接使用(10)进行估计。

其次,使用(10),联合熵的一个估计是 (11):
H ^ ( X , Y ) = − ψ ( k ) + ψ ( N ) + l o g ( c d z ) + d z N ∑ l o g ϵ i \hat{H}(X,Y)=-\psi(k)+\psi(N)+log(c_{dz})+\frac{dz}{N}\sum log\epsilon_i H^(X,Y)=ψ(k)+ψ(N)+log(cdz)+Ndzlogϵi
其中, d z = d x + d y dz=dx+dy dz=dx+dy,即Z的维度是x和y维度之和。且对于球的体积,KSG采用的最大范数进行的度量,也就是最大范数下N维空间球的体积,因此区域看上去是n维的立方体。

其中可以注意到: (12)
c d z = c d x c d y c_{dz}=c_{dx}c_{dy} cdz=cdxcdy
我思考时类比于正方体的底面积乘以高,这一点在下面(23)式中使用。

然而,使用固定的k估计的 H ( X ) H ( Y ) H ( X , Y ) H(X)H(Y)H(X,Y) H(X)H(Y)H(X,Y)直接对 I ( X , Y ) I(X,Y) I(X,Y)进行估计,存在问题。原因是,(10)式的偏差主要来自于对(8)式假设的均匀概率密度的违反,因此这三项估计都因此会存在偏差。而对于一个固定的k来说,联合空间上的第k近邻的距离要远于边际空间,因此实际上同样是kth近邻,空间的大小不同,因此概率密度违反(8)式假设的大小也不同,因此会导致偏差非常不同从而无法抵消(且观看下图图示,以1近邻为例)。
在这里插入图片描述

为了避免这一点,由于(10)对任意k都成立,因此不必使用固定的k。KSG1的方法是首先找到Joint上kth近邻,然后在X marginnal space上确定其距离 ϵ ( i ) \epsilon(i) ϵ(i),在该距离内的点的个数作为 n x ( i ) n_x(i) nx(i),则到joint上第kth点的距离正是 ϵ ( i ) \epsilon(i) ϵ(i),而这个点在Xmarginal上则必然是第 n x ( i ) + 1 n_x(i)+1 nx(i)+1个点。对Y marginal space用同样大小的距离 ϵ ( i ) \epsilon(i) ϵ(i)做同等操作。具体的情况如下图所示,此时Joint上是1th近邻,而此时x方向上产生5近邻,而y方向上是3近邻。
在这里插入图片描述

此时对于 H ( X ) H(X) H(X)来说,则有(考虑(2)式和(10)式中第一个约等号的蒙特卡洛近似,我未必写的非常非常详细,如果这里还需过于详细的介绍,则无需再看此文,而是重新补习统计相关知识): (13)
H ^ ( X ) = − 1 N ∑ i = 1 N ψ ( n x ( i ) + 1 ) + ψ ( N ) + l o g ( c d z ) + d x N ∑ l o g ϵ i \hat{H}(X)=-\frac{1}{N}\sum_{i=1}^{N}\psi(n_x(i)+1)+\psi(N)+log(c_{dz})+\frac{dx}{N}\sum log\epsilon_i H^(X)=N1i=1Nψ(nx(i)+1)+ψ(N)+log(cdz)+Ndxlogϵi
对于Y,则利用同样的距离找到 n y ( i ) + 1 n_y(i)+1 ny(i)+1进行估计,导致Y的估计不准,因为y到其kth点的距离不是 ϵ 2 \frac{\epsilon}{2} 2ϵ

KSG2估计器

KSG2估计器更为复杂,其考虑在两个marginal的方向上采用不同的距离,此时图示joint的kth区域不再是超立方体区域,而是超长方体区域。首先根据joint上kth近邻的位置分别确定x marginal上的距离和y marginal上的距离(已经与KSG1不同,该方法确定x marginal上的距离后,直接将该距离应用于 y marginal上,因此是超正方体),此时点落在 x i ± ϵ x ( i ) / 2 x_i\pm\epsilon_x(i)/2 xi±ϵx(i)/2 y i ± ϵ y ( i ) / 2 y_i\pm\epsilon_y(i)/2 yi±ϵy(i)/2之内。

此时存在两种情况,即 ϵ x ( i ) \epsilon_x(i) ϵx(i) ϵ y ( i ) \epsilon_y(i) ϵy(i)由同一点决定由两点决定,具体见下图。
在这里插入图片描述

故考虑在将原先的超正方体概率替换为超长方体的概率,该超长方体的概率是两种情况的混合,则 (14)
P k ( ϵ x , ϵ y ) = P k b ( ϵ x , ϵ y ) + P k c ( ϵ x , ϵ y ) P_k(\epsilon_x,\epsilon_y)=P_k^b(\epsilon_x,\epsilon_y)+P_k^c(\epsilon_x,\epsilon_y) Pk(ϵx,ϵy)=Pkb(ϵx,ϵy)+Pkc(ϵx,ϵy)
其中第一种时,有k-1个点在最内,中间的微分区域(逻辑与(3)相同)有1个点,外部有N-1-k个点在最外,若不失一般性的假设 ϵ x < ϵ y \epsilon_x<\epsilon_y ϵx<ϵy,该种状况发生的概率表达为 (15)
P k b ( ϵ x , ϵ y ) = ( N − 1 k ) ( k k − 1 ) q i k − 1 ( ∂ 2 q i ∂ ϵ x ∂ ϵ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 = k ( N − 1 k ) q i k − 1 ( ∂ 2 q i ∂ ϵ x ∂ ϵ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 \begin{aligned} P_k^b(\epsilon_x,\epsilon_y)&=\tbinom{N-1}{k}\tbinom{k}{k-1}q_i^{k-1}(\frac{\partial ^2 q_i}{\partial\epsilon_x\partial\epsilon_y})(1-p_i(\epsilon_y))^{N-k-1}\\ &=k\tbinom{N-1}{k}q_i^{k-1}(\frac{\partial ^2 q_i}{\partial\epsilon_x\partial\epsilon_y})(1-p_i(\epsilon_y))^{N-k-1} \end{aligned} Pkb(ϵx,ϵy)=(kN1)(k1k)qik1(ϵxϵy2qi)(1pi(ϵy))Nk1=k(kN1)qik1(ϵxϵy2qi)(1pi(ϵy))Nk1
原文的表述将 q i q_i qi吸进了偏导项中,其中 q i q_i qi表示的是上述超长方体的区域,而 p i p_i pi则仍然是由较大的 ϵ y \epsilon_y ϵy确定的超正方体区域。使用 p i p_i pi是必须的,因为使用了最大范数,即最远的点的距离,保证了如果该正方形内的点都在矩形中,反之则不行。

对于第二种情况,此时有k-2个点在最内,而2个点在微分区域,N-k-1个点在外围区域,因此此种状况发生的概率为 (16)
P k c ( ϵ x , ϵ y ) = ( N − 1 k ) ( k k − 2 ) q i k − 2 ( ∂ 2 q i 2 ∂ ϵ x ∂ ϵ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 = ( N − 1 k ) ( k k − 2 ) 2 q i q i k − 2 ( ∂ 2 q i ∂ ϵ x ∂ ϵ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 = k ( k − 1 ) ( N − 1 k ) q i k − 1 ( ∂ 2 q i ∂ ϵ x ∂ ϵ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 \begin{aligned} P_k^c(\epsilon_x,\epsilon_y)&=\tbinom{N-1}{k}\tbinom{k}{k-2}q_i^{k-2}(\frac{\partial ^2 q_i^2}{\partial\epsilon_x\partial\epsilon_y})(1-p_i(\epsilon_y))^{N-k-1}\\ &=\tbinom{N-1}{k}\tbinom{k}{k-2}2q_iq_i^{k-2}(\frac{\partial ^2 q_i}{\partial\epsilon_x\partial\epsilon_y})(1-p_i(\epsilon_y))^{N-k-1}\\ &=k(k-1)\tbinom{N-1}{k}q_i^{k-1}(\frac{\partial ^2 q_i}{\partial\epsilon_x\partial\epsilon_y})(1-p_i(\epsilon_y))^{N-k-1} \end{aligned} Pkc(ϵx,ϵy)=(kN1)(k2k)qik2(ϵxϵy2qi2)(1pi(ϵy))Nk1=(kN1)(k2k)2qiqik2(ϵxϵy2qi)(1pi(ϵy))Nk1=k(k1)(kN1)qik1(ϵxϵy2qi)(1pi(ϵy))Nk1
同时注意到,由于X和Y上是独立的,根据 (17)
u ( ∂ q ∂ x ∂ y ) = ( ∂ q ∂ x ) ( ∂ q ∂ y ) u(\frac{\partial q}{\partial x\partial y})=(\frac{\partial q}{\partial x})(\frac{\partial q}{\partial y}) u(xyq)=(xq)(yq)
故(16)进一步拆解为 (18)
k ( k − 1 ) ( N − 1 k ) q i k − 2 ( ∂ q ∂ x ) ( ∂ q ∂ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 k(k-1)\tbinom{N-1}{k}q_i^{k-2}(\frac{\partial q}{\partial x})(\frac{\partial q}{\partial y})(1-p_i(\epsilon_y))^{N-k-1} k(k1)(kN1)qik2(xq)(yq)(1pi(ϵy))Nk1
验证 P k ( ϵ x , ϵ y ) = P k b ( ϵ x , ϵ y ) + P k c ( ϵ x , ϵ y ) P_k(\epsilon_x,\epsilon_y)=P_k^b(\epsilon_x,\epsilon_y)+P_k^c(\epsilon_x,\epsilon_y) Pk(ϵx,ϵy)=Pkb(ϵx,ϵy)+Pkc(ϵx,ϵy)的积分为1. (19)
∫ 0 ∞ ∫ 0 ϵ y P k ( ϵ x , ϵ y ) d ϵ x d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ∫ 0 ϵ y ∂ ∂ x ( k q i k − 1 ( ∂ q i ∂ ϵ y ) ) d ϵ x d ϵ y = k ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 p i ( ϵ y ) k − 1 d ϵ y = k ( N − 1 k ) B e t a ( k , N − k ) = 1 \begin{aligned} &\int_0^{\infin}\int_0^{\epsilon_y}P_k(\epsilon_x,\epsilon_y)d\epsilon_xd\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}\int_0^{\epsilon_y}\frac{\partial}{\partial x}({kq_i^{k-1}(\frac{\partial q_i}{\partial\epsilon_y}}))d\epsilon_xd\epsilon_y\\ &=k\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}p_i(\epsilon_y)^{k-1}d\epsilon_y\\ &=k\tbinom{N-1}{k}Beta(k,N-k)=1 \end{aligned} 00ϵyPk(ϵx,ϵy)dϵxdϵy=(kN1)0(1pi(ϵy))Nk10ϵyx(kqik1(ϵyqi))dϵxdϵy=k(kN1)0(1pi(ϵy))Nk1pi(ϵy)k1dϵy=k(kN1)Beta(k,Nk)=1
下面证明 E [ l o g q i ( ϵ x , ϵ y ) ] = ψ ( k ) − ψ ( N ) − 1 / k E[logq_i(\epsilon_x,\epsilon_y)]=\psi(k)-\psi(N)-1/k E[logqi(ϵx,ϵy)]=ψ(k)ψ(N)1/k,首先在第二个积分号进行分部积分: (20)
E [ l o g q i ( ϵ x , ϵ y ) ] = ∫ 0 ∞ ∫ 0 ϵ y l o g ( q i ) P k ( ϵ x , ϵ y ) d ϵ x d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ∫ 0 ϵ y ∂ ∂ x ( k q i k − 1 ( ∂ q i ∂ ϵ y ) ) d ϵ x d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 [ l o g ( q i ) k q i k − 1 ( ∂ q i ∂ ϵ y ) ∣ 0 ϵ y − ∫ 0 ϵ y { k q i k − 2 ∂ q i ∂ ϵ x ( ∂ q i ∂ ϵ y ) } d ϵ x ] d ϵ y \begin{aligned} E[logq_i(\epsilon_x,\epsilon_y)]&=\int_0^{\infin}\int_0^{\epsilon_y}log(q_i)P_k(\epsilon_x,\epsilon_y)d\epsilon_xd\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}\int_0^{\epsilon_y}\frac{\partial}{\partial x}({kq_i^{k-1}(\frac{\partial q_i}{\partial\epsilon_y}}))d\epsilon_xd\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}[log(q_i)kq_i^{k-1}(\frac{\partial q_i}{\partial \epsilon_y})|_{0}^{\epsilon_y}\\&-\int_0^{\epsilon_y}\{kq_i^{k-2}\frac{\partial q_i}{\partial \epsilon_x}(\frac{\partial q_i}{\partial \epsilon_y})\}d\epsilon_x]d\epsilon_y\\ \end{aligned} E[logqi(ϵx,ϵy)]=00ϵylog(qi)Pk(ϵx,ϵy)dϵxdϵy=(kN1)0(1pi(ϵy))Nk10ϵyx(kqik1(ϵyqi))dϵxdϵy=(kN1)0(1pi(ϵy))Nk1[log(qi)kqik1(ϵyqi)0ϵy0ϵy{kqik2ϵxqi(ϵyqi)}dϵx]dϵy
由最开始的Lemma1可知 X ∼ B e t a ( α , β ) , E [ l o g ( X ) ] = ψ ( α ) − ψ ( α + β ) , ψ ( ) = Γ ′ ( ) Γ ( ) X\sim Beta(\alpha, \beta),\mathbb{E}[log(X)]=\psi(\alpha)-\psi(\alpha+\beta),\psi()=\frac{\Gamma'()}{\Gamma()} XBeta(α,β),E[log(X)]=ψ(α)ψ(α+β),ψ()=Γ()Γ()

可以观察到第一部分: (21)
= ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 [ l o g ( q i ) k q i k − 1 ( ∂ q i ∂ ϵ y ) ∣ 0 ϵ y d ϵ x d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 l o g ( p i ( ϵ y ) ) k p i ( ϵ y ) k − 1 ( ∂ p i ( ϵ y ) ∂ ϵ y ) d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 l o g ( p i ( ϵ y ) ) k p i ( ϵ y ) k − 1 ( ∂ p i ( ϵ y ) ∂ ϵ y ) d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 l o g ( p i ( ϵ y ) ) k p i ( ϵ y ) k − 1 d p i ( ϵ y ) = ( N − 1 k ) ∫ 0 1 ( 1 − u ) N − k − 1 l o g ( u ) k u k − 1 d u = ψ ( k ) − ψ ( N ) \begin{aligned} &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}[log(q_i)kq_i^{k-1}(\frac{\partial q_i}{\partial \epsilon_y})|_{0}^{\epsilon_y}d\epsilon_xd\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}log(p_i(\epsilon_y))kp_i(\epsilon_y)^{k-1}(\frac{\partial p_i(\epsilon_y)}{\partial \epsilon_y})d\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}log(p_i(\epsilon_y))kp_i(\epsilon_y)^{k-1}(\frac{\partial p_i(\epsilon_y)}{\partial \epsilon_y})d\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}log(p_i(\epsilon_y))kp_i(\epsilon_y)^{k-1}dp_i(\epsilon_y)\\ &=\tbinom{N-1}{k}\int_0^{1}(1-u)^{N-k-1}log(u)ku^{k-1}du=\psi(k)-\psi(N) \end{aligned} =(kN1)0(1pi(ϵy))Nk1[log(qi)kqik1(ϵyqi)0ϵydϵxdϵy=(kN1)0(1pi(ϵy))Nk1log(pi(ϵy))kpi(ϵy)k1(ϵypi(ϵy))dϵy=(kN1)0(1pi(ϵy))Nk1log(pi(ϵy))kpi(ϵy)k1(ϵypi(ϵy))dϵy=(kN1)0(1pi(ϵy))Nk1log(pi(ϵy))kpi(ϵy)k1dpi(ϵy)=(kN1)01(1u)Nk1log(u)kuk1du=ψ(k)ψ(N)
其中,注意到 q i ( 0 ) = 0 q_i(0)=0 qi(0)=0和当 ϵ x = ϵ y \epsilon_x=\epsilon_y ϵx=ϵy时有 q ( ϵ y , ϵ y ) q(\epsilon_y,\epsilon_y) q(ϵy,ϵy)为一个超立方体,恰是 p i ( ϵ y ) p_i(\epsilon_y) pi(ϵy),最后的部分由前面Prososition 2.的结论得出。

第二部分: (22)
− ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( ∫ 0 ϵ y { k q i k − 2 ∂ q i ∂ ϵ x ( ∂ q i ∂ ϵ y ) } d ϵ x ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( ∫ 0 ϵ y { k q i k − 2 ∂ q i ∂ ϵ x ( ∂ q i ∂ ϵ y ) } d ϵ x ) d ϵ y \begin{aligned} &-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\int_0^{\epsilon_y}\{kq_i^{k-2}\frac{\partial q_i}{\partial \epsilon_x}(\frac{\partial q_i}{\partial \epsilon_y})\}d\epsilon_x)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\int_0^{\epsilon_y}\{kq_i^{k-2}\frac{\partial q_i}{\partial \epsilon_x}(\frac{\partial q_i}{\partial \epsilon_y})\}d\epsilon_x)d\epsilon_y \end{aligned} (kN1)0(1pi(ϵy))Nk1(0ϵy{kqik2ϵxqi(ϵyqi)}dϵx)dϵy=(kN1)0(1pi(ϵy))Nk1(0ϵy{kqik2ϵxqi(ϵyqi)}dϵx)dϵy
由局部均匀假设: (23)
q i ( ϵ x , ϵ y ) ≈ μ ( x i , y i ) c d x c d y ϵ x d x ϵ y d y → ∂ ∂ ϵ y q i ( ϵ x , ϵ y ) = μ ( x i , y i ) c d x c d y ϵ x d x d y ϵ y d y − 1 = q i ( ϵ x , ϵ y ) d y ϵ y \begin{aligned} &q_i(\epsilon_x,\epsilon_y)\approx\mu(x_i,y_i)c_{dx}c_{dy}\epsilon_x^{dx}\epsilon_y^{dy}\\ \rightarrow&\frac{\partial}{\partial \epsilon_y}q_i(\epsilon_x,\epsilon_y)=\mu(x_i,y_i)c_{dx}c_{dy}\epsilon_x^{dx}dy\epsilon_y^{dy-1}=q_i(\epsilon_x,\epsilon_y)\frac{dy}{\epsilon_y} \end{aligned} qi(ϵx,ϵy)μ(xi,yi)cdxcdyϵxdxϵydyϵyqi(ϵx,ϵy)=μ(xi,yi)cdxcdyϵxdxdyϵydy1=qi(ϵx,ϵy)ϵydy
并且由刚才分部积分时提及的当 ϵ x = ϵ y \epsilon_x=\epsilon_y ϵx=ϵy时有 q ( ϵ y , ϵ y ) q(\epsilon_y,\epsilon_y) q(ϵy,ϵy)为一个超立方体,因此 (24)
∂ ∂ ϵ y q i ( ϵ x , ϵ y ) ∣ ϵ x = ϵ y = p i ( ϵ y ) d y ϵ y \frac{\partial}{\partial \epsilon_y}q_i(\epsilon_x,\epsilon_y)|_{\epsilon_x=\epsilon_y}=p_i(\epsilon_y)\frac{dy}{\epsilon_y} ϵyqi(ϵx,ϵy)ϵx=ϵy=pi(ϵy)ϵydy

则(22)继续简化有: (25)
= − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( ∫ 0 ϵ y { k q i k − 2 ∂ q i ∂ ϵ x ( ∂ q i ∂ ϵ y ) } d ϵ x ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( ∫ 0 ϵ y { k q i k − 2 ∂ q i ∂ ϵ x ( q i d y ϵ y ) } d ϵ x ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( d y ϵ y ) ( ∫ 0 ϵ y { k q i k − 1 ∂ q i ∂ ϵ x } d ϵ x ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( d y ϵ y ) p i ( ϵ y ) k ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( d y ϵ y ) p i ( ϵ y ) k ) d ϵ y \begin{aligned} &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\int_0^{\epsilon_y}\{kq_i^{k-2}\frac{\partial q_i}{\partial \epsilon_x}(\frac{\partial q_i}{\partial \epsilon_y})\}d\epsilon_x)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\int_0^{\epsilon_y}\{kq_i^{k-2}\frac{\partial q_i}{\partial \epsilon_x}(q_i\frac{dy}{\epsilon_y})\}d\epsilon_x)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\frac{dy}{\epsilon_y})(\int_0^{\epsilon_y}\{kq_i^{k-1}\frac{\partial q_i}{\partial \epsilon_x}\}d\epsilon_x)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\frac{dy}{\epsilon_y})p_i(\epsilon_y)^k)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\frac{dy}{\epsilon_y})p_i(\epsilon_y)^k)d\epsilon_y \end{aligned} =(kN1)0(1pi(ϵy))Nk1(0ϵy{kqik2ϵxqi(ϵyqi)}dϵx)dϵy=(kN1)0(1pi(ϵy))Nk1(0ϵy{kqik2ϵxqi(qiϵydy)}dϵx)dϵy=(kN1)0(1pi(ϵy))Nk1(ϵydy)(0ϵy{kqik1ϵxqi}dϵx)dϵy=(kN1)0(1pi(ϵy))Nk1(ϵydy)pi(ϵy)k)dϵy=(kN1)0(1pi(ϵy))Nk1(ϵydy)pi(ϵy)k)dϵy
其中第三个等号注意到了 d y ϵ y \frac{dy}{\epsilon_y} ϵydy是常数,注意 d y dy dy Y Y Y的维度不是微分。第四个等号是将 k q i k − 1 kq_i^{k-1} kqik1吸收到微分,再由积分所得。

进一步根据(24)有:(26)
d d ϵ y p i ( ϵ y ) = d ∂ ϵ y q i ( ϵ x , ϵ y ) ∣ ϵ x = ϵ y = q i ( ϵ x , ϵ y ) ∣ ϵ x = ϵ y d y d ϵ y = p i ( ϵ y ) d y ϵ y \frac{d}{d\epsilon_y}p_i(\epsilon_y)=\frac{d}{\partial \epsilon_y}q_i(\epsilon_x,\epsilon_y)|_{\epsilon_x=\epsilon_y}=q_i(\epsilon_x,\epsilon_y)|_{\epsilon_x=\epsilon_y}\frac{dy}{d\epsilon_y}=p_i(\epsilon_y)\frac{dy}{\epsilon_y} dϵydpi(ϵy)=ϵydqi(ϵx,ϵy)ϵx=ϵy=qi(ϵx,ϵy)ϵx=ϵydϵydy=pi(ϵy)ϵydy
因此,(25)简化为(26)
= − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( d y ϵ y ) p i ( ϵ y ) k ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 p i ( ϵ y ) k − 1 ∂ ∂ y p i ( ϵ y ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 p i ( ϵ y ) k − 1 d p i = − ( N − 1 k ) B e t a ( k , N − k ) = − 1 k \begin{aligned} &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\frac{dy}{\epsilon_y})p_i(\epsilon_y)^k)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}p_i(\epsilon_y)^{k-1}\frac{\partial}{\partial y}p_i(\epsilon_y)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}p_i(\epsilon_y)^{k-1}dp_i=-\tbinom{N-1}{k}Beta(k,N-k)\\ &=-\frac{1}{k} \end{aligned} =(kN1)0(1pi(ϵy))Nk1(ϵydy)pi(ϵy)k)dϵy=(kN1)0(1pi(ϵy))Nk1pi(ϵy)k1ypi(ϵy)dϵy=(kN1)0(1pi(ϵy))Nk1pi(ϵy)k1dpi=(kN1)Beta(k,Nk)=k1
联立(21)和(26),得到(27)
E [ l o g q i ( ϵ x , ϵ y ) ] = ψ ( k ) − ψ ( N ) − 1 k E[logq_i(\epsilon_x,\epsilon_y)]=\psi(k)-\psi(N)-\frac{1}{k} E[logqi(ϵx,ϵy)]=ψ(k)ψ(N)k1
进一步的,根据公式(23),自然可得(28)
l o g μ ( x i , y i ) ≈ l o g q i ( ϵ x , ϵ y ) − l o g ( c d x c d y ) − d x l o g ϵ x − d y l o g ϵ y \begin{aligned} log\mu(x_i,y_i)\approx logq_i(\epsilon_x,\epsilon_y)-log(c_{dx}c_{dy})-dxlog\epsilon_x-dylog\epsilon_y \end{aligned} lo(xi,yi)logqi(ϵx,ϵy)log(cdxcdy)dxlogϵxdylogϵy
求期望有:(29)
E [ l o g μ ( x i , x y ) ] = ψ ( k ) − ψ ( N ) − 1 k − l o g ( c d x c d y ) − d x 1 N ∑ l o g ϵ x − d y 1 N ∑ l o g ϵ y E[log\mu(x_i,x_y)]=\\\psi(k)-\psi(N)-\frac{1}{k}-log(c_{dx}c_{dy})-dx\frac{1}{N}\sum log\epsilon_x-dy\frac{1}{N}\sum log\epsilon_y E[lo(xi,xy)]=ψ(k)ψ(N)k1log(cdxcdy)dxN1logϵxdyN1logϵy
再进一步利用(1)式可得KSG2估计器:(30)
I ( 2 ) ( X , Y ) = ψ ( k ) + ψ ( N ) − 1 k − 1 N ∑ ψ ( n x ) − 1 N ∑ ψ ( n y ) I^{(2)}(X,Y)=\psi(k)+\psi(N)-\frac{1}{k}-\frac{1}{N}\sum\psi(n_x)-\frac{1}{N}\sum\psi(n_y) I(2)(X,Y)=ψ(k)+ψ(N)k1N1ψ(nx)N1ψ(ny)

注意,这里是 ψ ( n x ) \psi(n_x) ψ(nx),这是因为 n x n_x nx此时定义为距离小于等于 ϵ x 2 \frac{\epsilon_x}{2} 2ϵx的点的个数。

至此,KSG估计器的形式推导完毕。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1041894.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

纽扣电池16CRF1700.15,16CFR1700.20,ANSI C18.3M如何申请?

随着科技的发展&#xff0c;纽扣电池被广泛应用于小型电子产品&#xff0c;如计算器、电子手表、玩具、医疗设备等。由于其体积小&#xff0c;易于拆卸&#xff0c;也造成了儿童误吞的潜在风险。因此&#xff0c;对于纽扣电池的认证和包装&#xff0c;各国均有相应的规定。 在美…

磁盘占用率100% 的优化方案

1.禁用不必要的系统服务 右键点击此电脑&#xff0c;打开管理 打开服务 寻找SysMain 右键属性 》 禁用 》 停止 》 应用 SysMain的作用&#xff1a;当开机后&#xff0c;windows会加载大量的应用程序预加载到内存中&#xff0c;会在后台预加载数据&#xff08;如果是旧版本win…

概率深度学习建模数据不确定性

https://zhuanlan.zhihu.com/p/568912284理解论文 What uncertainties do we need in Bayesian deep learning for computer vision? &#xff08;NeurIPS 2017) [1]中的数据不确定性建模&#xff0c;并给出公式推导。论文[1]指出不确定性uncertainty分为随机不确定性(aleator…

【算法与数据结构】JavaScript实现十大排序算法(一)

文章目录 关于排序算法冒泡排序选择排序插入排序希尔排序归并排序 关于排序算法 稳定排序&#xff1a; 在排序过程中具有相同键值的元素&#xff0c;在排序之后仍然保持相对的原始顺序。意思就是说&#xff0c;现在有两个元素a和b&#xff0c;a排在b的前面&#xff0c;且ab&…

linux通过time命令统计代码编译时间

首先编写一个编译脚本 build.sh 内容如下&#xff1a; 然后执行time sh build.sh 编译完成后输出三个时间 time sh xxx.sh # 会返回3个时间数据 (1) real&#xff1a;从进程 ls 开始执行到完成所耗费的 CPU 总时间。该时间包括 ls 进程执行时实际使用的 CPU 时间&#xff0c;…

影刀自动化采集底层逻辑

hello,大家好&#xff0c;这里是【玩数据的诡途】 接上回 <我的影刀故事> 今天给大家介绍一下整个采集的底层逻辑&#xff0c;包括业务流程自动化也是基于这一套基础逻辑进行展开的&#xff0c;顺便带大家熟悉一下影刀&#xff0c;既然叫影刀系列了&#xff0c;那后续一些…

怕客户跑单?这套上市制造企业都在使的订单管理方案你一定要看看

随着我国工业和科技的不断发展&#xff0c;越来越多的制造业企业出现订单管理问题&#xff0c;比如订单交期延误、缺乏预警能力等等&#xff0c;轻则客户跑单&#xff0c;重则影响品牌声誉。 其实这些问题都是因为制造企业的订单全流程无法打通、订单信息不能可视化、无法实时监…

【问题解决】Android Studio 无法连接手机(荣耀90)无法识别手机usb

问题描述&#xff1a; 使用AS调试的时候遇到一个问题&#xff0c;由于是重装后的电脑&#xff0c;什么都没配置&#xff0c;但是两个旧手机都在安装SDK tools里的Google usb driver后直接连上AS&#xff0c;而我的新手机却死活连不上&#xff0c;查了一下午&#xff0c;啥方法都…

6种最常用的3D点云语义分割AI模型对比

由于增强现实/虚拟现实的发展及其在计算机视觉、自动驾驶和机器人领域的广泛应用&#xff0c;点云学习最近引起了人们的关注。 深度学习已成功用于解决 2D 视觉问题&#xff0c;然而&#xff0c;由于其处理面临独特的挑战&#xff0c;深度学习技术在点云上的使用仍处于起步阶段…

模仿快猫猫App实现的微信小程序,前端页面基本完成

概述 模仿快猫猫App实现的微信小程序&#xff0c;前端页面基本完成&#xff0c;通过微信开发这工具可以直接跑&#xff0c;代码没有问题&#xff0c;首页数据已经模拟&#xff0c;上拉加载等。 详细 通过小程序模拟快猫猫App的前端页面。代码简单易懂&#xff0c;没有什么高…

Mock.js介绍和使用与首页导航栏左侧菜单搭建

1.1 mockjs介绍 Mock.js是一个用于生成随机数据和模拟接口请求的JavaScript库。它可以帮助开发人员在前端开发过程中模拟后端接口的返回数据&#xff0c;以便进行前端页面的开发和测试。 Mock.js有两个重要的特性风靡前端: 数据类型丰富 Mock.js提供了一套简单易用的API&#x…

蓝牙手表出口欧盟CE认证常规测试项目和流程

蓝牙手表是一种带蓝牙功能的手表,是多功能智能通讯手表的一种,通过手表带有的蓝牙功能,可以和蓝牙手机配对连接后使用。现如今这种产品在生活中收到了许多年轻人的欢迎&#xff0c;一般这类产品要出口欧洲则必须要办理CE认证。 蓝牙手表是无线产品&#xff0c;所以需要办理CE-R…

哈希表的模拟实现

unordered_set: 接口函数&#xff1a; 对应的应用&#xff1a; unrodered_map: 对应的函数接口&#xff1a; 对应的应用&#xff1a; 比较set和unordered_set的效率&#xff1a; 可以看到各个方面hashset是优于set的。 哈希表的模拟实现&#xff1a; 哈希表的实现分为两种&…

Python大数据之PySpark(一)SparkBase

文章目录 SparkBase环境基础Spark框架概述Spark环境搭建-Local SparkBase环境基础 Spark学习方法&#xff1a;不断重复&#xff0c;28原则(使用80%时间完成20%重要内容) Spark框架概述 Spark风雨十年s 2012年Hadoop1.x出现&#xff0c;里程碑意义2013年Hadoop2.x出现&#…

html播放视频

文章目录 <embed>标签<object> 标签<video>标签<video>浏览器支持视频格式与浏览器的支持DOM元素提供的方法、属性和事件 兼容多版本的浏览器自定义控制栏 <embed>标签 <embed> 标签的作用是在 HTML 页面中嵌入多媒体元素。 前提&#xf…

直播软件App开发趋势:2023年最值得关注的五大技术突破

直播软件App开发正处于快速发展的阶段&#xff0c;不断涌现出新的技术突破和创新。本文将向您介绍2023年直播软件App开发领域最值得关注的五大技术突破&#xff0c;帮助开发者和行业从业者把握时代发展脉搏&#xff0c;实现更出色的直播体验。 技术突破一&#xff1a;实时AI强…

【数据结构-图】图介绍

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kuan 的首页,持续学…

【笔试强训选择题】Day48.习题(错题)解析

作者简介&#xff1a;大家好&#xff0c;我是未央&#xff1b; 博客首页&#xff1a;未央.303 系列专栏&#xff1a;笔试强训选择题 每日一句&#xff1a;人的一生&#xff0c;可以有所作为的时机只有一次&#xff0c;那就是现在&#xff01;&#xff01;&#xff01;&#xff…

WebGL绘制圆形的点

目录 前言 如何实现圆形的点&#xff1f; 片元着色器内置变量&#xff08;gl_FragCoord、gl_PointCoord&#xff09; gl_PointCoord的含义 示例程序&#xff08;RoundedPoint.js&#xff09; 代码详解 前言 本文将讨论示例程序RoundedPoint&#xff0c;该程序绘制了圆…

一款强大的ntfs磁盘读写工具Paragon NTFS 15破解版百度网盘下载

今天再给大家分享一款NTFS工具Paragon NTFS 15&#xff0c;Paragon NTFS 15破解版是目前的最新版&#xff0c;需要的赶快收藏&#xff0c;地址失效可以留言。 Paragon Ntfs For Mac 15下载&#xff1a;https://souurl.cn/s84CCB Crcak链接: https://pan.baidu.com/s/1c2Hx7QBE…