标注一致性计算

news2025/4/26 23:45:42

在统计学中，标注一致性（Inter-annotation agreement, IAA）用于评价独立观察者之间对同一现象进行评估时的一致程度。因此，本文讨论最多的是多位标注员对相同数据进行标注时的一致性评估方法。

一、Kappa统计量

评估一致性最简单且直观的方法是统计标注一致的样本占所有标注样本的百分比。既然如此简单，为什么要引入Kappa？是因为Kappa考虑了随机因素导致的一致性。

Kappa是用来描述定性（分类）任务中标注一致性的统计量，记为 $\kappa$

$\kappa = 1-\frac{1-p_o}{1-p_e}=\frac{p_o-p_e}{1-p_e}$

其中， $p_o$ 代表观察到的标注员之间的一致性， $p_e$ 代表基于假设的、由随机因素导致的一致性。

通过观察上式可以发现，当 $p_o$ =1时， $\kappa =1$ 表明标注结果完全一致。

当标注结果由随机性主导时， $p_o=p_e$ , $\kappa =0$ 表明标注结果完全没有一致性。

以下介绍Kappa变体。

1. Cohen's Kappa

Cohen's Kappa只能用来评估两位标注员之间的一致性，适用于分类任务。

$p_o$ 是标注一致的样本占所有标注样本的百分比。随机一致性 $p_e$ 如下式所示计算，其中k为类别的数量。

$p_e = \sum_{k} p_{\widetilde{k12}}=\sum_{k}p_{\widetilde{k1}}p_{\widetilde{k2}}=\sum_{k}\frac{n_{k1}}{N}\frac{n_k2}{N}$

$p_{\widetilde{k12}}$ 代表估计标注员1和2把同一条数据归为第k个类的概率。

基于独立假设，即两个标注员的标注是独立且互不影响，那么有 $p_{\widetilde{k12}}=p_{\widetilde{k1}}p_{\widetilde{k2}}$ , $p_{\widetilde{k1}}=\frac{n_{k1}}{N}$ 通过N条数据中标注员1标注k的数量 $n_{k1}$ 来评估。

当 $\kappa$ 大于等于0.8表示已经取得相当满意的一致程度；

当 $\kappa$ 小于0.4表示一致程度不够理想。

Cohen's Kappa存在一个明显的问题：如果两位标注员的一致性 $p_o$ 相同，那么他们标注的标签分布越趋于一致， $\kappa$ 理应越高。然而事实并非如此，这会导致更高的随机一致性 $p_e$ ，从而使得 $\kappa$ 下降。

2. Scott's Pi

Scott's Pi相对于Cohen's Kappa采用不同策略计算随机性 $p_e$ 。即通过标签的联合边缘分布来估计随机一致性，也可以说scott's Pi是算数平均值的平方，而Cohen's Kappa是几何平均值的平方。

$p_e = \sum_{k} (\frac{n_{k1}+n_{k2}}{N})^2$

Scott's Pi也只能评估两位标注员之间的一致性，无法拓展到多位标注员。

3. Fleiss' Kappa

Fleiss' Kappa在Scott's Pi上进行泛化，使其能对任意固定数量的标注员评估一致性。假设有N条数据进行多分类任务，每条数据杯标注了n次，k为类别数量。标注数据的索引为 $i=1,2,...,N$ ，类别的索引为 $j=1,2,...,k$ ，那么令 $n_{ij}$ 表示将第i条数据被标注为类别j的次数。