前言

今天我们来谈论一个不那么硬核的问题：预训练语言模型中的歧视与偏见(bias)。

这个问题虽然不像技术问题那样核心，但仍然非常重要。想象一下：你接到了一笔外交级别的订单，要做一个生成语言模型，先不论效果好不好，你的模型某一天突然抽风说：“The British are all bald...”

但一直以来，这个问题(语言模型中的地域歧视偏见)都没有得到技术人员太多的关注，我们可能最多从数据层面上消除那些“不安全”的样本，比如政治敏感词、性别/宗教等相关的敏感词等，但是对于另一个关键的“镜像”问题，却不是那么重视了：如何评估这种消除的效果，尤其是对于下游任务无关的预训练语言模型？

话不多说，上文章：

论文标题：
HERB: Measuring Hierarchical Regional Bias in Pre-trained Language Models
论文作者：
Yizhi Li, Ge Zhang, Bohao Yang, Chenghua Lin, Shi Wang, Anton Ragni, Jie Fu
论文链接：
https://aclanthology.org/2022.findings-aacl.32/

评估办法

这篇文章提出的方法叫做 HERB(香草)，全称是 "HiErarchical Regional Bias evaluation methods".

之所以叫做层次性，是因为这篇文章着眼于全球性地域歧视，并发现语言模型对这种偏见呈现某种层次化的特征。

具体来说，方法是基于聚类的度量方法，评估过程分为以下三步：

使用 MLM(Masked Language Modeling) 构建"描述向量"

构建 Prompt: People in [region] are [mask];
其中，[region] 是地域名词;
然后，让语言模型预测 [mask] 的形容词，预先人工构建了一个覆盖不同主题的候选形容词表;
词表大小就是描述向量的维度，每一维度的值就是语言模型对该词的预测概率;
从下往上，以层次顺序执行这个操作，比如"[城市]"-"[国家]"-"[洲]"这样的顺序;
这样就针对每个父层次都构建了一批描述向量集合，将其平均作为对这个层次地域的描述 .

计算描述向量的稀疏性，用来衡量对一个父层次地域描述的偏见性

举个简单的例子：父层次地域是"[欧洲]"，相应的子层次区域可能分别是"[英国]"、"[法国]"等，得到的描述向量如图分布：

左边的图描述相对集中，说明模型对[欧洲人]的描述相对统一，因此对[英国人]或者[法国人]的偏见就比较少；而右边的图描述相对稀疏，说明模型对各个潜在的子地域的描述不统一，存在偏见，例如对[英国人]的描述是[bald(没有头发)]，对[法国人]的描述却是[头发很多];
计算稀疏性得分的公式为： ( 是这个父地域层次的所有子地域的集合)

汇总基本偏差: 按照如上方式分别得到[英国]、[欧洲]等各层次稀疏性得分以及描述向量，然后按照稀疏性或者描述向量，设计指标汇总各层次得分，分别是 (按照稀疏性汇总) 和 (按照描述向量汇总)。详细公式可以参考原论文。

实验结果

如图所示，从实验结果来看，ALBERT 存在的地域偏见最为严重，而 BART 的地域偏见是最小的。

除了直接衡量在 PLMs 内部存在的地域偏见，本文还探究了地域偏见是否会传播到下游任务中。本文分别在IMDB 和 hatespeech18 的测试样本中引入额外的区域信息，实验结果表示PLMs的预测确实受到了额外区域信息的影响，进一步证明了解决地域偏见的重要性。

写在最后

总体而言，这篇文章通过细致的数学设计，评估了预训练语言模型中的偏见程度。其方法的核心简单而言就是这个 Prompt: "People in [region] are [mask]", 非常简单，但却是很有效的评估手段。

希望这个研究能够促进学业界和工业界更多地关注偏见、歧视、公平性等问题，生产更加符合社会主义核心价值观的预训练模型，防止像去年 Google Translate 辱华事件一样，无论是否是故意的行为，都最终难逃撤出中国的命运。

卖萌屋作者：ZenMoore

智源实习生🧐，爱数学爱物理爱 AI🌸 想从 NLP 和 System-2 出发探索人工认知的奥秘🧠🤖！即将进入 PhD 申请季，微信📩 zen1057398161 嘤其鸣矣，求其友声✨！

作品推荐

一文跟进Prompt进展！综述+15篇最新论文逐一梳理
图灵奖大佬+谷歌团队，为通用人工智能背书！CV 任务也能用 LM 建模！
以4%参数量比肩GPT-3！Deepmind 发布检索型 LM，或将成为 LM 发展新趋势！？