文 | ZenMoore
前言
今天我们来谈论一个不那么硬核的问题:预训练语言模型中的歧视与偏见(bias)。
这个问题虽然不像技术问题那样核心,但仍然非常重要。想象一下:你接到了一笔外交级别的订单,要做一个生成语言模型,先不论效果好不好,你的模型某一天突然抽风说:“The British are all bald...”
但一直以来,这个问题(语言模型中的地域歧视偏见)都没有得到技术人员太多的关注,我们可能最多从数据层面上消除那些“不安全”的样本,比如政治敏感词、性别/宗教等相关的敏感词等,但是对于另一个关键的“镜像”问题,却不是那么重视了:如何评估这种消除的效果,尤其是对于下游任务无关的预训练语言模型?
话不多说,上文章:
论文标题:
HERB: Measuring Hierarchical Regional Bias in Pre-trained Language Models
论文作者:
Yizhi Li, Ge Zhang, Bohao Yang, Chenghua Lin, Shi Wang, Anton Ragni, Jie Fu
论文链接:
https://aclanthology.org/2022.findings-aacl.32/
评估办法
这篇文章提出的方法叫做 HERB(香草),全称是 "HiErarchical Regional Bias evaluation methods".
之所以叫做层次性,是因为这篇文章着眼于全球性地域歧视,并发现语言模型对这种偏见呈现某种层次化的特征。
具体来说,方法是基于聚类的度量方法,评估过程分为以下三步:
使用 MLM(Masked Language Modeling) 构建"描述向量"
构建 Prompt: People in [region] are [mask];
其中,[region] 是地域名词;
然后,让语言模型预测 [mask] 的形容词,预先人工构建了一个覆盖不同主题的候选形容词表;
词表大小就是描述向量的维度,每一维度的值就是语言模型对该词的预测概率;
从下往上,以层次顺序执行这个操作,比如"[城市]"-"[国家]"-"[洲]"这样的顺序;
这样就针对每个父层次都构建了一批描述向量集合,将其平均作为对这个层次地域的描述 .
计算描述向量的稀疏性,用来衡量对一个父层次地域描述的偏见性
举个简单的例子:父层次地域是"[欧洲]",相应的子层次区域可能分别是"[英国]"、"[法国]"等,得到的描述向量如图分布:
左边的图描述相对集中,说明模型对[欧洲人]的描述相对统一,因此对[英国人]或者[法国人]的偏见就比较少;而右边的图描述相对稀疏,说明模型对各个潜在的子地域的描述不统一,存在偏见,例如对[英国人]的描述是[bald(没有头发)],对[法国人]的描述却是[头发很多];
计算稀疏性得分的公式为: ( 是这个父地域层次 的所有子地域的集合)
汇总基本偏差: 按照如上方式分别得到[英国]、[欧洲]等各层次稀疏性得分以及描述向量,然后按照稀疏性或者描述向量,设计指标汇总各层次得分,分别是 (按照稀疏性汇总) 和 (按照描述向量汇总)。详细公式可以参考原论文。
实验结果
如图所示,从实验结果来看,ALBERT 存在的地域偏见最为严重,而 BART 的地域偏见是最小的。
除了直接衡量在 PLMs 内部存在的地域偏见,本文还探究了地域偏见是否会传播到下游任务中。本文分别在IMDB 和 hatespeech18 的测试样本中引入额外的区域信息,实验结果表示PLMs的预测确实受到了额外区域信息的影响,进一步证明了解决地域偏见的重要性。
写在最后
总体而言,这篇文章通过细致的数学设计,评估了预训练语言模型中的偏见程度。其方法的核心简单而言就是这个 Prompt: "People in [region] are [mask]", 非常简单,但却是很有效的评估手段。
希望这个研究能够促进学业界和工业界更多地关注偏见、歧视、公平性等问题,生产更加符合社会主义核心价值观的预训练模型,防止像去年 Google Translate 辱华事件一样,无论是否是故意的行为,都最终难逃撤出中国的命运。
卖萌屋作者:ZenMoore
智源实习生🧐,爱数学爱物理爱 AI🌸 想从 NLP 和 System-2 出发探索人工认知的奥秘🧠🤖!即将进入 PhD 申请季,微信📩 zen1057398161 嘤其鸣矣,求其友声✨!
作品推荐
一文跟进Prompt进展!综述+15篇最新论文逐一梳理
图灵奖大佬+谷歌团队,为通用人工智能背书!CV 任务也能用 LM 建模!
以4%参数量比肩GPT-3!Deepmind 发布检索型 LM,或将成为 LM 发展新趋势!?
后台回复关键词【入群】
加入卖萌屋NLP、CV、搜广推与求职讨论群