一般来说,使用哪种统计方法,取决于我们的应用场景、我们的研究目的是什么。
这里面一个麻烦的地方在于,不管你使用哪种统计方法,似乎都可以得出一个’结果’或一个p值,但这个结果有没有意义就两说了。
在我看来,确定我们要使用哪种方法的最关键的地方在于:
我们是要比较两组数据差异,还是两个变量的相关?
同样一件事情你可以从不同角度来描述,听起来也会不一样,
例如,我们拿到两组数值,分别代表男性和女性的身高,那么我们可以把我们的假设或研究目的设置为:
- 男性和女性的平均身高是否有差异?
此时我们只需要单纯比较两组数据差异就行,可以使用T检验。
但是,这个问题我们同样可以描述为:
- 性别和身高是否有关,或者性别对身高是否有影响?
此时研究的目的就变成了两个变量的相关性了,那么就应该使用卡方检验(当然这时候我们的数据需要做一些转化,以符合卡方检验的要求)。
我们再举一个更实际的例子:
- 生存曲线中p值的计算
假如我们得到了两条生存曲线,一条代表未吃药的病人组;另一条代表吃药的病人组,我们想知道这两条生存曲线是否有差异。
乍一看似乎是数值型数据间的比较,可以使用T检验或F检验:
- 我们可以确定几个时间点,然后计算两个实验组在这几个时间点上的生存率,这样就得到了两组数值型的数据。
但问题在于,这个结果的含义应该怎么解释?
吃药的病人平均生存率比未吃药的高?只听说过三年生存率、五年生存率,平均生存率似乎没什么意义。
如果业务上解释不通或难解释,我们就要考虑其他的统计方法了,比如我们把研究目的换一种描述:
- 药物对病人的生存特征是否有影响?
此时比较的就是变量的相关性,变量一是‘是否吃药’;变量二是‘生存特征’。
如果使用卡方检验得到的p值在临界区域,那么我们就可以说是否吃药对生存特征是有显著影响的,同样可以说明吃药组和不吃药组是有显著差异的,相关性也包含差异性。