统计有效性检验
假设的评估检验:问题1
•
效果估计
• 给定一个假设
在有限量数据
上的准确率
• 该准确率是否能准确估计
在其它未见数据上
的效果?
假设的评估检验:问题2
•
h
1
在数据的一个样本集上表现优于
h
2
•
h
1
总体
上更好的概率有多大?
抽样理论基础
二项分布 (Binomial Distribution)
二项分布的应用场景
•
两个可能的输出
(
成功
/
失败
) (
Y
=0
或
Y
=1)
•
每次尝试成功的概率相等
Pr
(
Y
= 1) =
p
,
其中
p
是一个常数
• n
次独立尝试
• 随机变量
Y
1
,…,
Y
n
,
• iid (independent identically distribution
,独立同分布
)
•
R
:
随机变量
,
n
次尝试中
Y
i
= 1
的次数
,
•
Pr(R
=
r
) ~
二项分布
•
平均
(
期望值
):
E
[
R
],
µ
• 二项分布
:
µ
=
np
估计假设准确率 – Q1.1解答
估计的两个重要性质
•
估计
偏差 (Bias)
• 如果 S 是训练集, errorS
(
h
) 是有偏差的(偏乐观),
bias ≡ E[
error
S
(
h
) ] -
error
D
(
h
)
• 对于无偏估计(
bias
=0),
h
和
S
必须独立不相关地产生
→
不要在训练集上测试!
•
估计
方差 (Varias)
• 即使是
S
的无偏估计,
error
S
(
h
) 可能仍然和
error
D
(
h
) 不同
• E.g. 之前的例子 (3.2% vs. 6.5%)
• 需要选择
无偏
的且有
最小方差
的估计
估计假设准确率 – Q1.2解答
准确率的估计可能包含多少错误?
(
error
S
(
h
)
对
error
D
(
h
)
的估计有多好
?)
•
抽样理论
:
confidence interval
(
置信区间
)
•
定义
:
• 参数
p
的
N
%
置信区间是一个以
N
%
的概率包含
p
的区间
,
N
% :
置信度
✓ 90.0%
的置信度 ,年龄:
[12, 24]
✓ 99.9%
的置信度,年龄:
[3, 60]
置信度与置信区间
•
如何得到置信区间
?
• 坏消息
:
对二项分布来说很难
• 好消息
:
对正态分布来说很简单
• 通过正态分布的某个区间
(面积)来获得
正态分布 & 二项分布
•
如果满足以下条件,估计更准确:
• S
包含
n
>= 30
个样本
,
与
h
独立产生,且每个样本独立采样
•
那么有大约
95%
的概率
𝑒𝑟𝑟𝑜𝑟
𝑆
(ℎ)
落在区间
问题1解答总结
•
问题设定
:
• S
:
n
随机独立
样本
,
且
独立于假设
h
• n
>= 30
&
h
有
r
个错误
•
真实错误率
error
D
落在以下区间有
N
%
置信度
:
推导置信区间的一般方法
中心极限定理
•
简化了求解置信区间的过程
•
问题设定
• 独立同分布Independent, identically distributed (iid)
的随机变量Y1
, .. ,
Y
n
,
• 未知分布
,
有均值
μ
和有限方差
σ
2
• 估计均值:
样本均值 的分布
是已知的 ,
即使 Y
i
的分布是未知的
可以用来确定的
Y
i
均值方差
提供了估计的基础
估计量的分布
一些样本的均值
假设间的差异
•
在样本集合
S
1
(
n
1
个随机样本
)
上测试
h
1
,
在
S
2
(
n
2
)
上测试
h
2
• 选择要估计的参数
•
选择估计量
• 无偏的
*
证明
:
http://en.wikipedia.org/wiki/Sum_of_normally_distributed_random_variables
•
在样本集合
S
1
(
n
1
个随机样本
)
上测试
h
1
,
在
S
2
(
n
2
)
上测试
h
2
• 选择要估计的参数
•
选择估计量
• 无偏的
•
确定估计量所服从的正态分布
•
确定区间
(
L
,
U
)
满足
N
%
的概率落在区间
假设检验
统计有效性检验: ( z检验)举例
统计有效性检验:t检验
统计有效性检验(总结)
•
比较算法
A
和
B
的优劣
• 准确率均值高就一定好?
有随机性
• A比
B
高多少才能有把握说
A
算法更好?
显著性检验
•
随机变量的样本个数较多时
(
一般
>30)
:
z
检验
(
利用中心极限定理
)
• 一般用于单次评测,随机变量为
每个测试样本
的对错
•
随机变量的样本个数较少时
(
一般
<=30)
:
t
检验
• 一般用于多次评测如重复实验,随机变量为
每次测试集
上的指标