列联表及其边缘分布的详细解释
一、列联表的定义
列联表(Contingency Table) 是一种用于表示 多个分类变量联合分布 的表格。其核心是通过多维数组记录不同属性组合的频次。以下是关键点:
-
分类属性:
- 设有 k k k 个分类属性 A 1 , A 2 , … , A k A_1, A_2, \dots, A_k A1,A2,…,Ak,每个属性 A j A_j Aj 的取值范围为 I j = { 1 , 2 , … , I j } \mathcal{I}_j = \{1, 2, \dots, I_j\} Ij={1,2,…,Ij}。
- 示例:若 k = 3 k=3 k=3,属性可能为性别( A 1 ∈ { 男 , 女 } A_1 \in \{男, 女\} A1∈{男,女})、年龄段( A 2 ∈ { 0 − 10 , 11 − 20 } A_2 \in \{0-10, 11-20\} A2∈{0−10,11−20})、地区( A 3 ∈ { 城市 , 农村 } A_3 \in \{城市, 农村\} A3∈{城市,农村}})。
-
多维数组表示:
- 每个单元格 x ( i 1 , i 2 , … , i k ) x(i_1, i_2, \dots, i_k) x(i1,i2,…,ik) 表示属性组合 ( A 1 = i 1 , A 2 = i 2 , … , A k = i k ) (A_1=i_1, A_2=i_2, \dots, A_k=i_k) (A1=i1,A2=i2,…,Ak=ik) 的频次。
- 示例: x ( 1 , 2 , 1 ) x(1, 2, 1) x(1,2,1) 表示“男性、11-20岁、城市”的人口数。
-
向量化表示:
- 通过字典序函数 Ψ \Psi Ψ,将多维索引 ( i 1 , i 2 , … , i k ) (i_1, i_2, \dots, i_k) (i1,i2,…,ik) 映射为一维索引 i ∈ { 1 , 2 , … , n } i \in \{1, 2, \dots, n\} i∈{1,2,…,n},其中 n = ∏ j = 1 k I j n = \prod_{j=1}^k I_j n=∏j=1kIj。
- 示例:若
k
=
2
k=2
k=2,
I
1
=
{
1
,
2
}
\mathcal{I}_1=\{1,2\}
I1={1,2},
I
2
=
{
1
,
2
}
\mathcal{I}_2=\{1,2\}
I2={1,2},则:
- Ψ ( 1 , 1 ) = 1 \Psi(1,1)=1 Ψ(1,1)=1, Ψ ( 1 , 2 ) = 2 \Psi(1,2)=2 Ψ(1,2)=2, Ψ ( 2 , 1 ) = 3 \Psi(2,1)=3 Ψ(2,1)=3, Ψ ( 2 , 2 ) = 4 \Psi(2,2)=4 Ψ(2,2)=4,向量 x = ( x 1 , x 2 , x 3 , x 4 ) \mathbf{x} = (x_{1}, x_{2}, x_{3}, x_{4}) x=(x1,x2,x3,x4)。
二、边缘分布的计算
边缘分布(Marginal Distribution) 是通过对某些属性求和得到的简化分布。其目的是观察部分属性的联合频次。
-
属性子集 B ⊆ K B \subseteq K B⊆K:
- 选择需要保留的属性集合(如 B = { A 1 , A 3 } B = \{A_1, A_3\} B={A1,A3})。
- 投影操作:将多维索引 ( i 1 , i 2 , … , i k ) (i_1, i_2, \dots, i_k) (i1,i2,…,ik) 投影到 B B B 上,得到 ( i j 1 , i j 2 , … , i j b ) (i_{j_1}, i_{j_2}, \dots, i_{j_b}) (ij1,ij2,…,ijb),其中 j 1 , j 2 , … , j b ∈ B j_1, j_2, \dots, j_b \in B j1,j2,…,jb∈B。
-
边缘分布公式:
对于固定的 b ∈ I B b \in \mathcal{I}_B b∈IB(即 B B B 中属性的某个取值组合),其边缘计数为:
m ( b ) = ∑ j ∈ K ∖ B x ( b , j ) , \mathfrak{m}(b) = \sum_{j \in K \setminus B} x(b, j), m(b)=j∈K∖B∑x(b,j),
其中 x ( b , j ) x(b, j) x(b,j) 表示在固定 B B B 的取值为 b b b 时,对所有其他属性( K ∖ B K \setminus B K∖B)的可能取值求和。示例:
- 若
k
=
3
k=3
k=3,
B
=
{
A
1
,
A
3
}
B = \{A_1, A_3\}
B={A1,A3},
b
=
(
男
,
城市
)
b = (男, 城市)
b=(男,城市),则:
m ( b ) = x ( 男 , 0 − 10 , 城市 ) + x ( 男 , 11 − 20 , 城市 ) . \mathfrak{m}(b) = x(男, 0-10, 城市) + x(男, 11-20, 城市). m(b)=x(男,0−10,城市)+x(男,11−20,城市).
- 若
k
=
3
k=3
k=3,
B
=
{
A
1
,
A
3
}
B = \{A_1, A_3\}
B={A1,A3},
b
=
(
男
,
城市
)
b = (男, 城市)
b=(男,城市),则:
三、边缘分布的线性约束
边缘分布 m ( b ) \mathfrak{m}(b) m(b) 可以表示为列联表向量 x \mathbf{x} x 上的线性约束。
-
系数向量 a \mathbf{a} a 的构造:
- 对于每个一维索引 i ∈ { 1 , 2 , … , n } i \in \{1, 2, \dots, n\} i∈{1,2,…,n},检查其对应的多维索引 Ψ − 1 ( i ) \Psi^{-1}(i) Ψ−1(i) 在 B B B 上的投影是否为 b b b。
- 如果是,则 a i = 1 a_i = 1 ai=1,否则 a i = 0 a_i = 0 ai=0。
- 数学定义:
a i = { 1 , if proj B ( Ψ − 1 ( i ) ) = b , 0 , otherwise . a_i = \begin{cases} 1, & \text{if } \text{proj}_B(\Psi^{-1}(i)) = b, \\ 0, & \text{otherwise}. \end{cases} ai={1,0,if projB(Ψ−1(i))=b,otherwise.
-
约束方程:
边缘计数 m ( b ) \mathfrak{m}(b) m(b) 对应的线性约束为:
∑ i = 1 n a i x i = m ( b ) . \sum_{i=1}^n a_i x_i = \mathfrak{m}(b). i=1∑naixi=m(b).
本质:将满足 B B B 取值为 b b b 的所有单元格的频次相加。
四、具体案例解释
1. 场景设定
- 属性: A 1 A_1 A1(性别, I 1 = 2 I_1=2 I1=2), A 2 A_2 A2(年龄段, I 2 = 2 I_2=2 I2=2)。
- 列联表为 2x2 二维数组,向量化为
x
=
(
x
1
,
x
2
,
x
3
,
x
4
)
\mathbf{x} = (x_{1}, x_{2}, x_{3}, x_{4})
x=(x1,x2,x3,x4),其中:
- x 1 = x ( 男 , 0 − 10 ) x_1 = x(男, 0-10) x1=x(男,0−10), x 2 = x ( 男 , 11 − 20 ) x_2 = x(男, 11-20) x2=x(男,11−20),
- x 3 = x ( 女 , 0 − 10 ) x_3 = x(女, 0-10) x3=x(女,0−10), x 4 = x ( 女 , 11 − 20 ) x_4 = x(女, 11-20) x4=x(女,11−20)。
2. 计算边缘分布
- 选择子集
B
=
{
A
1
}
B = \{A_1\}
B={A1}(仅保留性别):
- I B = { 男 , 女 } \mathcal{I}_B = \{男, 女\} IB={男,女}。
- 对每个
b
∈
I
B
b \in \mathcal{I}_B
b∈IB,计算边缘分布:
- b = 男 b = 男 b=男: m ( 男 ) = x 1 + x 2 \mathfrak{m}(男) = x_1 + x_2 m(男)=x1+x2,
- b = 女 b = 女 b=女: m ( 女 ) = x 3 + x 4 \mathfrak{m}(女) = x_3 + x_4 m(女)=x3+x4。
3. 线性约束表示
- 对于
b
=
男
b = 男
b=男,系数向量
a
=
(
1
,
1
,
0
,
0
)
\mathbf{a} = (1, 1, 0, 0)
a=(1,1,0,0),约束方程为:
1 ⋅ x 1 + 1 ⋅ x 2 + 0 ⋅ x 3 + 0 ⋅ x 4 = m ( 男 ) . 1 \cdot x_1 + 1 \cdot x_2 + 0 \cdot x_3 + 0 \cdot x_4 = \mathfrak{m}(男). 1⋅x1+1⋅x2+0⋅x3+0⋅x4=m(男).
五、后处理的目标
给定含噪声的列联表 x ~ \widetilde{\mathbf{x}} x 和真实的边缘分布 m ( B ) \mathfrak{m}(B) m(B),后处理的目标是找到一个修正后的表 x ‾ \overline{\mathbf{x}} x,使得:
- 满足所有边缘约束:对每个 b ∈ I B b \in \mathcal{I}_B b∈IB, ∑ a i x ‾ i = m ( b ) \sum a_i \overline{x}_i = \mathfrak{m}(b) ∑aixi=m(b)。
- 非负性: x ‾ i ≥ 0 \overline{x}_i \geq 0 xi≥0。
- 最小化误差: x ‾ \overline{\mathbf{x}} x 与 x ~ \widetilde{\mathbf{x}} x 尽可能接近(如最小化 ∥ x ‾ − x ~ ∥ 2 2 \|\overline{\mathbf{x}} - \widetilde{\mathbf{x}}\|_2^2 ∥x−x ∥22)。
六、总结
- 列联表:多维分类数据的频次表格,可向量化为 x ∈ N n \mathbf{x} \in \mathbb{N}^n x∈Nn。
- 边缘分布:通过投影和求和操作,提取部分属性的联合频次。
- 线性约束:每个边缘分布对应一个系数为 0/1 的线性方程,用于保证数据一致性。
- 应用:在差分隐私中,通过后处理修复噪声数据,使其满足原始数据的统计结构。