👉A 组的NPS如下
👉B 组的NPS如下
(下标为1,均为A组的样本数据;下标为2,均为B组的样本数据)
要验证A\B两组的NPS差异是否显著,可通过假设检验。
一、假设检验前置准备
1. 选择具体检验方式
1.1 首先判断单样本检验or双样本检验:
双样本:分别抽取的是A\B两个样本,进行样本A的 NPS与样本B的NPS 检验,样本A与样本B是相互独立的。
1.2 其次判断 Z 检验还是 T 检验:
T检验:无法获取总体用户的数据,总体方差未知
1.3 最后判断数据正态性:
正态性判断有两种方式:【直方图】或【中心极限定理】
应用【直方图】:判断减肥前、减肥后的体重,曲线分别近似服从正态
或根据【中心极限定理】:减肥前样本量≥30,减肥后样本量≥30,因此减肥前、后的样本均值理论上应该是近似正态分布的
但NPS是单个数值,无法应用以上两个方法进行正态性的判断。
因此,需要对NPS进行指标拆解,看看是否能找到NPS服从正态的数学依据。
NPS=高推荐人数/总人数 - 低推荐人数/总人数
由于NPS是高推荐占比-低推荐占比
所得,要确定样本中的NPS值的正态性,根据正态分布的线性性质:两个正态分布相加减后,依然服从正态分布。
只需确定高推荐占比、低推荐占比分别服从正态分布,则NPS也服从正态分布。
- 首先确定高推荐占比的正态性:
1.3.1 明确高推荐占比的正态性
在容量为n的样本中,每个用户的推荐类型都是相互独立的,如果是高推荐类型,赋值为1,如果不是高推荐,则赋值为0。
因此,因此用户是否为高推荐:X,服从二项分布(0,1)。
并且,由于样本量n较大,因此根据中心极限定理下的二项分布近似正态分布:
- 样本值(即高推荐人数X),近似服从正态分布N1( n P 高 P_高 P高,n P 高 P_高 P高(1- P 高 P_高 P高) )。
- 样本均值(即高推荐人数比例),近似服从正态分布( P 高 P_高 P高 , P 高 ( 1 − P 高 ) n \frac{P_高(1-P_高)}{n} nP高(1−P高))。
1.3.2 明确低推荐占比的正态性
同理可知,对于低推荐类型而言,低推荐类型赋值为1,其余推荐类型赋值为0,因此低推荐人数Y,服从二项分布(0,1)。
并且,由于样本量n较大,因此,低推荐占比也服从正态分布( P 低 P_低 P低 , P 低 ( 1 − P 低 ) n \frac{P_低(1-P_低)}{n} nP低(1−P低))
1.3.3 明确 NPS 的正态性
NPS=高推荐比例-低推荐比例,高推荐比例、低推荐比例均分别服从正态分布,则 NPS 也服从正态分布。
或是可得,NPS=(高推荐人数X-低推荐人数Y)/n,高推荐人数、低推荐人数均分别服从正态分布,则 NPS 也服从正态分布
-(正态性:NPS服从正态分布)
并且,根据正态分布线性计算公式:
正态均值: X±Y
正态方差:Var(X±Y) = Var(X)+Var(Y)-2*Cov(X,Y)
NPS 所服从的正态均值 μ = P高-P低
则 NPS 所服从的正态方差 σ = Var( P高 - P低)= Var(P高)+Var(P低)-2*Cov(P高,P低)**
根据正态分布线性计算的方差公式推导,协方差公式Cov(X,Y) = E(XY)-E(X)E(Y),
可得👉Cov(P高,P低) = E(P高P低)-E(P高)E(P低)
E(P高P低),表示当一个样本既是高推荐,同时又是低推荐的比例期望,由于高低推荐均服从二项分布,因此一个样本不可能既是高推荐,同时还是低推荐,那么E(P高P低)的期望为0。
因此Cov(P高,P低) = -E(P高)*E(P低)= -E( x 高 1 + x 高 2 + . . . x 高 n n \frac{x_{高1}+x_{高2}+...x_{高n}}{n} nx高1+x高2+...x高n)*E( x 低 1 + x 低 2 + . . . x 低 n n \frac{x_{低1}+x_{低2}+...x_{低n}}{n} nx低1+x低2+...x低n)= - P 高 ∗ P 低 n \frac{P高*P低}{n} nP高∗P低
👉NPS 所服从的正态方差 = Var(P高)+Var(P低)-2Cov(P高,P低) = P 高 ( 1 − P 高 ) n \frac{P_高(1-P_高)}{n} nP高(1−P高)+ P 低 ( 1 − P 低 ) n \frac{P_低(1-P_低)}{n} nP低(1−P低) + 2 P 高 ∗ P 低 n \frac{2 P高*P低}{n} n2P高∗P低
所以,NPS 服从的正态分布为 N( P高-P低 ,
P
高
(
1
−
P
高
)
n
\frac{P_高(1-P_高)}{n}
nP高(1−P高)+
P
低
(
1
−
P
低
)
n
\frac{P_低(1-P_低)}{n}
nP低(1−P低) +
2
P
高
∗
P
低
n
\frac{2 P高*P低}{n}
n2P高∗P低)
【注:这是基于样本均值服从正态分布,在检验时的检验统计量无需
÷样本量啦】
最终确定:双样本分别服从正态,且双样本相互独立,应选择双样本独立T检验。
二、假设检验正式流程
1. 提出假设
H0: NPS2-NPS1 = 0(A\B两组的NPS之差,位于95%的合理置信区间内,无显著差异)
H1: NPS2-NPS1 ≠ 0 (A\B两组的NPS之差,位于两侧5%的拒绝域内,有显著差异)
2. 计算t值
根据双独立样本T检验中的 t 值公式:
其中,A组的NPS1为样本均值,B组的NPS2为样本均值。
NPS1 服从的正态分布为 N( P 高 1 − P 低 1 P_{高1}-P_{低1} P高1−P低1 , P 高 1 ( 1 − P 高 1 ) n 1 \frac{P_{高1}(1-P_{高1})}{n1} n1P高1(1−P高1)+ P 低 1 ( 1 − P 低 1 ) n 1 \frac{P_{低1}(1-P_{低1})}{n1} n1P低1(1−P低1) + 2 P 高 1 ∗ P 低 1 n 1 \frac{2 P高1*P低1}{n1} n12P高1∗P低1)
NPS2 服从的正态分布为 N( P 高 2 − P 低 2 P_{高2}-P_{低2} P高2−P低2 , P 高 2 ( 1 − P 高 2 ) n 2 \frac{P_{高2}(1-P_{高2})}{n2} n2P高2(1−P高2)+ P 低 2 ( 1 − P 低 2 ) n 2 \frac{P_{低2}(1-P_{低2})}{n2} n2P低2(1−P低2) + 2 P 高 2 ∗ P 低 2 n 2 \frac{2 P高2*P低2}{n2} n22P高2∗P低2)
【注:这是基于样本均值 NPS 服从正态分布,即,方差为样本均值方差(标准误),因此,在检验时的检验统计量t 值中的方差无需
÷样本量啦】
参考:检验统计量公式含义
即t值的分母
S
1
2
n
1
+
S
2
2
n
2
\sqrt{\frac{S1²}{n1}+\frac{S2²}{n2}}
n1S12+n2S22 =
V
a
r
(
N
P
S
1
)
+
V
a
r
(
N
P
S
2
)
\sqrt{Var(NPS1)+Var(NPS2)}
Var(NPS1)+Var(NPS2)
=
P
高
1
(
1
−
P
高
1
)
n
1
+
P
低
1
(
1
−
P
低
1
)
n
1
+
2
P
高
1
∗
P
低
1
n
1
+
P
高
2
(
1
−
P
高
2
)
n
2
+
P
低
2
(
1
−
P
低
2
)
n
2
+
2
P
高
2
∗
P
低
2
n
2
\sqrt{\frac{P_{高1}(1-P_{高1})}{n1}+\frac{P_{低1}(1-P_{低1})}{n1} +\frac{2 P高1*P低1}{n1}+\frac{P_{高2}(1-P_{高2})}{n2}+\frac{P_{低2}(1-P_{低2})}{n2} +\frac{2 P高2*P低2}{n2}}
n1P高1(1−P高1)+n1P低1(1−P低1)+n12P高1∗P低1+n2P高2(1−P高2)+n2P低2(1−P低2)+n22P高2∗P低2
t值的分子 = P高1-P低1-P高2+P低2
因此,t值 = P 高 1 − P 低 1 − P 高 2 + P 低 2 P 高 1 ( 1 − P 高 1 ) n 1 + P 低 1 ( 1 − P 低 1 ) n 1 + 2 P 高 1 ∗ P 低 1 n 1 + P 高 2 ( 1 − P 高 2 ) n 2 + P 低 2 ( 1 − P 低 2 ) n 2 + 2 P 高 2 ∗ P 低 2 n 2 \frac{P高1-P低1-P高2+P低2}{\sqrt{\frac{P_{高1}(1-P_{高1})}{n1}+\frac{P_{低1}(1-P_{低1})}{n1} +\frac{2 P高1*P低1}{n1}+\frac{P_{高2}(1-P_{高2})}{n2}+\frac{P_{低2}(1-P_{低2})}{n2} +\frac{2 P高2*P低2}{n2}}} n1P高1(1−P高1)+n1P低1(1−P低1)+n12P高1∗P低1+n2P高2(1−P高2)+n2P低2(1−P低2)+n22P高2∗P低2P高1−P低1−P高2+P低2
自由度公式如下:
S
1
2
n
1
+
S
2
2
n
2
\frac{S1²}{n1}+\frac{S2²}{n2}
n1S12+n2S22 =
V
a
r
(
N
P
S
1
)
+
V
a
r
(
N
P
S
2
)
Var(NPS1)+Var(NPS2)
Var(NPS1)+Var(NPS2)
=
P
高
1
(
1
−
P
高
1
)
n
1
+
P
低
1
(
1
−
P
低
1
)
n
1
+
2
P
高
1
∗
P
低
1
n
1
+
P
高
2
(
1
−
P
高
2
)
n
2
+
P
低
2
(
1
−
P
低
2
)
n
2
+
2
P
高
2
∗
P
低
2
n
2
\frac{P_{高1}(1-P_{高1})}{n1}+\frac{P_{低1}(1-P_{低1})}{n1} +\frac{2 P高1*P低1}{n1}+\frac{P_{高2}(1-P_{高2})}{n2}+\frac{P_{低2}(1-P_{低2})}{n2} +\frac{2 P高2*P低2}{n2}
n1P高1(1−P高1)+n1P低1(1−P低1)+n12P高1∗P低1+n2P高2(1−P高2)+n2P低2(1−P低2)+n22P高2∗P低2
3. 计算P值
用Excel双尾P值函数计算: t.DIST.2T( t 绝对值,自由度)= t.DIST.2T( ABS(t值),自由度)
4. 规定显著性水平α
一般规定α为 0.05(也可以0.01),人为规定
5. 判断差异显著性
P值≥α:A\B两组的NPS值,差异不显著
P值<α:A\B两组的NPS值,差异显著