点估计与区间估计
矩估计与最大似然估计都属于点估计,也就是估计出来的结果是一个具体的值。对比区间估计,通过样本得出的估计值是一个范围区间。例如估计一个人的年龄,点估计就是最终直接估计年龄为50岁,而区间估计是最终估计的结果是48到52岁之间。
矩估计
矩估计就是直接用样本替代总体,所以样本均值 x ‾ \overline{x} x等于总体均值 E ( x ) E(x) E(x),样本平方的均值 x 2 ‾ \overline{x^2} x2等于总体均值 E ( x 2 ) E(x^2) E(x2)。
利用数学语言描述如下:
设
A
k
A_{k}
Ak是
x
x
x的
k
k
k阶原点矩。
A
k
=
1
n
∑
i
=
1
n
x
i
k
A_{k} = \dfrac{1}{n}\sum_{i=1}^{n}x_{i}^{k}
Ak=n1i=1∑nxik
期望估计(一阶原点矩)
A
1
=
E
(
x
)
=
x
‾
A_{1} = E(x) = \overline{x}
A1=E(x)=x
方差估计(二阶原点距)
A
2
=
E
(
x
2
)
=
D
(
x
)
+
[
E
(
x
)
]
2
A_{2} = E(x^{2}) = D(x) + \left[E(x)\right]^{2}
A2=E(x2)=D(x)+[E(x)]2
在实际应用中可以通过样本算出样本的一阶矩和二阶矩,从而得到方差的估计值
D
(
x
)
=
x
2
‾
−
(
x
‾
)
2
D(x)=\overline{x^2}-(\overline{x})^2
D(x)=x2−(x)2
最大似然估计
最大似然估计认为我们既然已经抽取得到了样本结果,那么就认为这个样本结果就是所有情况、所有样本结果中出现概率最大的那一个。例如从一个箱子中又放回的取球,最终取出了70个黑球和30个白球,那么从现有的结果出发就可以估计箱子中黑球和白球比例大致就是7:3
考虑到这个样本中每次的取值都是独立同分布的,所以将每一个取值对应的概率相乘就是这一个样本结果出现的概率(也就是似然函数),那么只要让这一个结果出现的概率(似然函数)最大就可以估算出每个值对应的概率
所以最大似然估计的一般步骤为:
- 写出似然函数(也就是样本结果出现的概率)。对于离散型变量是将对应概率相乘,连续型变量就是概率密度函数相乘。分别有:
离散型:
L ( θ ) = ∏ i = 1 n P θ ( X i = x i ) L(\theta)=\prod \limits_{i=1}^n P_\theta(X_i=x_i) L(θ)=i=1∏nPθ(Xi=xi)
连续型:
L ( θ ) = ∏ i = 1 n f ( x i ) L(\theta)=\prod \limits_{i=1}^n f(x_i) L(θ)=i=1∏nf(xi) - 求似然函数最大时的 θ \theta θ的值。一般为了简化计算,首先对等式两边取对数,然后对 θ \theta θ求导,求得导数为0时 θ ^ \hat \theta θ^的取值即为最大似然估计值
实际应用
假设总体
X
X
X的概率分布为
其中
θ
(
0
<
θ
<
1
2
)
\theta(0<\theta<\frac{1}{2})
θ(0<θ<21)是未知参数,利用总体
X
X
X的如下样本值1,2,1,0,1,0,1,2,1,2,求
θ
\theta
θ的矩估计与最大似然估计值。
矩估计:
E
(
X
)
=
(
θ
2
)
×
0
+
2
θ
(
1
−
θ
)
×
1
+
(
1
−
θ
)
2
×
2
=
2
−
2
θ
E(X)=(\theta^2) \times 0+2\theta(1-\theta) \times 1 +(1-\theta)^2 \times 2=2-2\theta
E(X)=(θ2)×0+2θ(1−θ)×1+(1−θ)2×2=2−2θ
样本均值
X
‾
=
11
10
样本均值 \overline X=\frac{11}{10}
样本均值X=1011
根据
E
(
X
)
=
X
‾
E(X)=\overline X
E(X)=X可解得
θ
^
=
9
20
\hat \theta=\frac{9}{20}
θ^=209
最大似然估计:
设似然函数为
L
(
θ
)
L(\theta)
L(θ),根据样本有2个0值,5个1值,3个2,则有:
L
(
θ
)
=
(
θ
2
)
2
[
2
θ
(
1
−
θ
)
]
5
(
1
−
θ
)
6
=
2
5
θ
9
(
1
−
θ
)
11
L(\theta)=(\theta^2)^2[2\theta(1-\theta)]^5(1-\theta)^6=2^5\theta^9(1-\theta)^{11}
L(θ)=(θ2)2[2θ(1−θ)]5(1−θ)6=25θ9(1−θ)11
对式子两边取对数,有:
l
n
L
(
θ
)
=
5
l
n
2
+
9
l
n
θ
+
11
l
n
(
1
−
θ
)
ln L(\theta)=5ln2+9ln\theta+11ln(1-\theta)
lnL(θ)=5ln2+9lnθ+11ln(1−θ)
对
θ
\theta
θ求导并令导数为0,有:
d
[
l
n
L
(
θ
)
]
d
θ
=
9
θ
−
11
(
1
−
θ
)
=
0
\frac{d[lnL(\theta)]}{d\theta}=\frac{9}{\theta}-\frac{11}{(1-\theta)}=0
dθd[lnL(θ)]=θ9−(1−θ)11=0
θ
^
=
9
20
\hat \theta=\frac{9}{20}
θ^=209
在本例中,矩估计和最大似然估计的值求出来时一致的,有的情况下两种办法求出来的估计值并不一致