在统计学中,标注一致性(Inter-annotation agreement, IAA)用于评价独立观察者之间对同一现象进行评估时的一致程度。因此,本文讨论最多的是多位标注员对相同数据进行标注时的一致性评估方法。
一、Kappa统计量
评估一致性最简单且直观的方法是统计标注一致的样本占所有标注样本的百分比。既然如此简单,为什么要引入Kappa?是因为Kappa考虑了随机因素导致的一致性。
Kappa是用来描述定性(分类)任务中标注一致性的统计量,记为
其中,代表观察到的标注员之间的一致性,代表基于假设的、由随机因素导致的一致性。
通过观察上式可以发现,当=1时,表明标注结果完全一致。
当标注结果由随机性主导时,,表明标注结果完全没有一致性。
以下介绍Kappa变体。
1. Cohen's Kappa
Cohen's Kappa只能用来评估两位标注员之间的一致性,适用于分类任务。
是标注一致的样本占所有标注样本的百分比。随机一致性如下式所示计算,其中k为类别的数量。
代表估计标注员1和2把同一条数据归为第k个类的概率。
基于独立假设,即两个标注员的标注是独立且互不影响,那么有,通过N条数据中标注员1标注k的数量来评估。
当 大于等于0.8表示已经取得相当满意的一致程度;
当小于0.4表示一致程度不够理想。
Cohen's Kappa存在一个明显的问题:如果两位标注员的一致性相同,那么他们标注的标签分布越趋于一致,理应越高。然而事实并非如此,这会导致更高的随机一致性,从而使得下降。
2. Scott's Pi
Scott's Pi相对于Cohen's Kappa采用不同策略计算随机性。即通过标签的联合边缘分布来估计随机一致性,也可以说scott's Pi是算数平均值的平方,而Cohen's Kappa是几何平均值的平方。
Scott's Pi也只能评估两位标注员之间的一致性,无法拓展到多位标注员。
3. Fleiss' Kappa
Fleiss' Kappa在Scott's Pi上进行泛化,使其能对任意固定数量的标注员评估一致性。 假设有N条数据进行多分类任务,每条数据杯标注了n次,k为类别数量。标注数据的索引为,类别的索引为,那么令表示将第i条数据被标注为类别j的次数。
随机一致性的评估方法与Scott's Pi相同,是类别j的联合边缘分布:
标注一致性是每条数据的一致性的均值:
本部分参考:如何评价数据标注中的一致性?以信息抽取为例,浅谈Fleiss' Kappa - 知乎
二、Jaccard相似系数
Jaccard相似系数用于比较有限样本集之间的相似性与差异性。
Jaccard系数值越大,样本相似度越高。
两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,即:
当集合A、B都为空时,J(A,B)定义为1。
三、F-measure
F-measure是Precsion和Recall的加权调和平均。
其中,当时,则F-score即为F1.