引言
小伙伴们,今天我们要来聊聊置信区间和p值这两个看起来超级相关的概念。咱们先来说说置信区间,它是一种区间估计,相当于给你的样本数据画了一个“框框”,告诉你总体数据的真实值很可能在这个框框里。就好像你买了一个锅,看到商家说这锅有保修期为一年,那么你就知道这锅能用至少一年,但也有可能用到更长时间。置信区间就是统计学里的“保修期”,让你更准确地了解总体数据的真实情况。
然后是p值,它是假设检验的核心结果。简单来说,它是告诉你这个数据和你假设的结果是否匹配的东西。就像你约了个网友见面,结果发现长得和头像差远了,你就会开始怀疑这个人是不是骗子了。p值也是这个意思,当它小于一个预设的值(通常是0.05),就意味着你的数据和你的假设非常不匹配,很可能存在别的问题。
置信区间和p值之间有着千丝万缕的联系。有时候通过看置信区间的范围,我们也能得出和p值相同的结论。就像你买了一个牌子的衣服10来件,试了试发现比预期的都大了一号,那么你就可以推断这个品牌的衣服都偏大。置信区间也是这个道理,当它的范围很窄的时候,就说明数据很准确,也就意味着你的假设是可信的,与此同时p值也会非常小,这就说明数据和假设非常匹配,很难出现偏差。
单个样本与总体比较
统计学允许,我们通过猜测和验证的方式来探索事物的真相。而在猜想的世界里,我们经常需要进行一些“假设检验”的操作。
比如说,某个学校想要知道自己的初中女生平均身高是否和全市水平相同。这时候我们就需要假设一个值,比如说156.7cm,然后通过测量学校的30名女生身高来验证这个假设。
如果发现学校女生平均身高与全市水平相同,那么我们就可以高高兴兴地说“原来我们学校女生真的和市里的女生一样高啊!”,如果不同,那么我们就要面对“学校女生身高与市里不同”的残酷事实。
不过,别担心,我们还有一个非常重要的工具——置信区间,可以帮助我们更加准确地判断事物的真相。而计算置信区间的公式就是:“XXOOXXOO”。(这是我在开玩笑,实际上我知道计算置信区间的公式是:样本平均数±(t值×标准误))
计算出95%置信区间(144.25,168.67),观察到这个区间包括了一开始的假设值(μ),156.7cm。
在双向假设检验中,我们首先根据下面的公式计算统计量:
然后再将得到的t值与t分布比较,得到p值=0.83,没有统计差异。
通过交换分母项你可以发现这两个公式本质就是一回事。从统计的角度,解释了为什么我们可以用置信区间和假设检验得到同样的结论。(注意:这个等价关系只在双边检验(即判断“是否等于”)中存在,单边假设检验只能与不大常见的“单侧置信区间”做比较,此处不赘述。实际计算中,有时用正态分布Z值取代公式中的t值)
两个独立样本检验
在两个独立样本的比较检验中置信区间和有什么不同呢?
先看一个例子:
有个药物,判断服用药物是否会造成ALT水平变化。50位患者随机分配到实验组,另外50位患者接受安慰剂(对照组)。试验结束后,获得数据如下:
从图表可以看出,尽管实验组和对照组ALT的置信区间有重叠,假设检验的结果却是存在显著统计差异(p<0.05)。这是因为两个独立样本分析时,计算置信区间和假设检验数据的方法不再相同。简单来说,计算实验组和对照组各自的95%置信区间用的是各自的标准误,0.04,1.04这里就是把差值当样本计算置信区间,公式和上文单组分析一样:
于是假设检验时,用的是两组合并(pooled )的标准误,并且自由度也因两组合并而变大。因此,95%可信区间和p<0.05并不等价。仅仅看两组各自的置信区间,我们得出的结论却不一定和假设检验相同。
公式:
把t和标准t分布去比得到p。
在这个ALT的数据中,尽管p<0.05,从两组的差异来看,ALT水平的绝对差异并不是很大(∆=0.54),是否具有临床意义值得讨论。所以,仅仅因为p<0.05,就得出药物造成显著副作用的结论,未免有些操之过急。对于这样的结果,建议:同时报告p值和置信区间的结果,并且对可能造成结果不一致的原因(譬如绝对差异较小)进行讨论。在文献中读到这样的结果,也要保持警觉,看看结论是否片面。
总结
置信区间和p两者虽然非常常见,是统计依赖的科研(医学、心理学、社会学、经济学等虚头八脑的可惜)的基石,但也是被忽视的。
最后我用一个极端思维,概括两者不同:
一个抗高血压药物让100个病人每个人都降低了0.5个毫米汞柱的血压,在这个前后对照实验中,请问有显著治疗意义吗?脚趾头想想都知道,当然有,而且很显著!但是前后两个独立样本均值差别0.5正负tA/2个标准差/自由度,想想都是重合的!所以你得到截然相反的两个结论。