一、假设检验前置准备

1. 选择具体检验方式

1.1 首先判断单样本检验or双样本检验：

双样本：分别抽取的是A\B两个样本，进行样本A的 NPS与样本B的NPS 检验，样本A与样本B是相互独立的。

1.2 其次判断 Z 检验还是 T 检验：

T检验：无法获取总体用户的数据，总体方差未知

1.3 最后判断数据正态性：

正态性判断有两种方式：【直方图】或【中心极限定理】
应用【直方图】：判断减肥前、减肥后的体重，曲线分别近似服从正态
或根据【中心极限定理】：减肥前样本量≥30，减肥后样本量≥30，因此减肥前、后的样本均值理论上应该是近似正态分布的

但NPS是单个数值，无法应用以上两个方法进行正态性的判断。

因此，需要对NPS进行指标拆解，看看是否能找到NPS服从正态的数学依据。

NPS=高推荐人数/总人数 - 低推荐人数/总人数
由于NPS是高推荐占比-低推荐占比所得，要确定样本中的NPS值的正态性，根据正态分布的线性性质：两个正态分布相加减后，依然服从正态分布。

只需确定高推荐占比、低推荐占比分别服从正态分布，则NPS也服从正态分布。

首先确定高推荐占比的正态性：

1.3.1 明确高推荐占比的正态性

在容量为n的样本中，每个用户的推荐类型都是相互独立的，如果是高推荐类型，赋值为1，如果不是高推荐，则赋值为0。
因此，因此用户是否为高推荐：X，服从二项分布(0,1)。
在这里插入图片描述
并且，由于样本量n较大，因此根据中心极限定理下的二项分布近似正态分布：

样本值（即高推荐人数X），近似服从正态分布N1( n $P_高$ ,n $P_高$ (1- $P_高$ ) )。
样本均值（即高推荐人数比例)，近似服从正态分布( $P_高$ , $\frac{P_高(1-P_高)}{n}$ )。

1.3.2 明确低推荐占比的正态性

同理可知，对于低推荐类型而言，低推荐类型赋值为1，其余推荐类型赋值为0，因此低推荐人数Y，服从二项分布（0，1）。

并且，由于样本量n较大，因此，低推荐占比也服从正态分布( $P_低$ , $\frac{P_低(1-P_低)}{n}$ )

1.3.3 明确 NPS 的正态性

NPS=高推荐比例-低推荐比例，高推荐比例、低推荐比例均分别服从正态分布，则 NPS 也服从正态分布。

或是可得，NPS=(高推荐人数X-低推荐人数Y)/n，高推荐人数、低推荐人数均分别服从正态分布，则 NPS 也服从正态分布

-（正态性：NPS服从正态分布）

并且，根据正态分布线性计算公式：
正态均值： X±Y
正态方差：Var(X±Y) = Var(X)+Var(Y)-2*Cov(X,Y)
NPS 所服从的正态均值 μ = P高-P低
则 NPS 所服从的正态方差 σ = Var( P高 - P低）= Var(P高)+Var(P低)-2*Cov(P高,P低)**

根据正态分布线性计算的方差公式推导，协方差公式Cov(X,Y) = E(XY)-E(X)E(Y)，

可得👉Cov(P高,P低) = E(P高P低)-E(P高)E(P低)

E（P高P低），表示当一个样本既是高推荐，同时又是低推荐的比例期望，由于高低推荐均服从二项分布，因此一个样本不可能既是高推荐，同时还是低推荐，那么E(P高P低）的期望为0。

因此Cov(P高，P低） = -E(P高）*E(P低）= -E( $\frac{x_{高1}+x_{高2}+...x_{高n}}{n}$ )*E( $\frac{x_{低1}+x_{低2}+...x_{低n}}{n}$ )= - $\frac{P高*P低}{n}$

👉NPS 所服从的正态方差 = Var(P高)+Var(P低)-2Cov(P高,P低) = $\frac{P_高(1-P_高)}{n}$ + $\frac{P_低(1-P_低)}{n}$ + $\frac{2 P高*P低}{n}$

所以，NPS 服从的正态分布为 N( P高-P低， $\frac{P_高(1-P_高)}{n}$ + $\frac{P_低(1-P_低)}{n}$ + $\frac{2 P高*P低}{n}$ )
【注：这是基于样本均值服从正态分布，在检验时的检验统计量无需÷样本量啦】

最终确定：双样本分别服从正态，且双样本相互独立，应选择双样本独立T检验。

二、假设检验正式流程

1. 提出假设

H0: NPS2-NPS1 = 0（A\B两组的NPS之差，位于95%的合理置信区间内，无显著差异）

H1: NPS2-NPS1 ≠ 0 （A\B两组的NPS之差，位于两侧5%的拒绝域内，有显著差异）

2. 计算t值

根据双独立样本T检验中的 t 值公式：

在这里插入图片描述

其中，A组的NPS1为样本均值，B组的NPS2为样本均值。

NPS1 服从的正态分布为 N( $P_{高1}-P_{低1}$ ， $\frac{P_{高1}(1-P_{高1})}{n1}$ + $\frac{P_{低1}(1-P_{低1})}{n1}$ + $\frac{2 P高1*P低1}{n1}$ )

NPS2 服从的正态分布为 N( $P_{高2}-P_{低2}$ ， $\frac{P_{高2}(1-P_{高2})}{n2}$ + $\frac{P_{低2}(1-P_{低2})}{n2}$ + $\frac{2 P高2*P低2}{n2}$ )

【注：这是基于样本均值 NPS 服从正态分布，即，方差为样本均值方差（标准误），因此，在检验时的检验统计量t 值中的方差无需÷样本量啦】
参考：检验统计量公式含义

即t值的分母 $\sqrt{\frac{S1²}{n1}+\frac{S2²}{n2}}$ = $\sqrt{Var(NPS1)+Var(NPS2)}$
= $\sqrt{\frac{P_{高1}(1-P_{高1})}{n1}+\frac{P_{低1}(1-P_{低1})}{n1} +\frac{2 P高1*P低1}{n1}+\frac{P_{高2}(1-P_{高2})}{n2}+\frac{P_{低2}(1-P_{低2})}{n2} +\frac{2 P高2*P低2}{n2}}$

t值的分子 = P高1-P低1-P高2+P低2

因此，t值 = $\frac{P高1-P低1-P高2+P低2}{\sqrt{\frac{P_{高1}(1-P_{高1})}{n1}+\frac{P_{低1}(1-P_{低1})}{n1} +\frac{2 P高1*P低1}{n1}+\frac{P_{高2}(1-P_{高2})}{n2}+\frac{P_{低2}(1-P_{低2})}{n2} +\frac{2 P高2*P低2}{n2}}}$

自由度公式如下：
在这里插入图片描述
$\frac{S1²}{n1}+\frac{S2²}{n2}$ = $Va r (NPS 1) + Va r (NPS 2)$
= $\frac{P_{高1}(1-P_{高1})}{n1}+\frac{P_{低1}(1-P_{低1})}{n1} +\frac{2 P高1*P低1}{n1}+\frac{P_{高2}(1-P_{高2})}{n2}+\frac{P_{低2}(1-P_{低2})}{n2} +\frac{2 P高2*P低2}{n2}$