ChatGPT对那些带有残疾迹象的简历有偏见——但它可以改善
去年,华盛顿大学(University of Washington)研究生凯特•格拉兹科(Kate Glazko)在寻找研究实习机会时注意到,招聘人员在网上发布消息称,他们使用OpenAI的ChatGPT和其他人工智能工具来总结简历并对候选人进行排名。几十年来,自动筛选在招聘中已经司空见惯。然而,作为华盛顿大学保罗·艾伦计算机科学与工程学院的博士生,格拉兹科研究的是生成式人工智能如何复制和放大现实世界的偏见——比如对残疾人的偏见。她想知道,这样一个系统如何对那些暗示某人有残疾的简历进行排序?
在一项新的研究中,华盛顿大学的研究人员发现,ChatGPT对具有残疾相关荣誉和证书(如“汤姆·威尔逊残疾领导奖”)的简历的排名始终低于没有这些荣誉和证书的相同简历。当被要求解释排名时,该系统吐出了对残疾人的偏见看法。例如,它声称获得自闭症领导奖的简历“不太强调领导角色”——这暗示了自闭症患者不是好领导的刻板印象。
但是,当研究人员定制该工具,并书面指示它不要被列为残疾时,该工具减少了除一种残疾测试之外的所有人的这种偏见。六种隐性残疾中有五种——耳聋、失明、脑瘫、自闭症和一般的“残疾”——得分有所提高,但只有三种排名高于没有提及残疾的简历。
该团队于6月5日在里约热内卢举行的2024年ACM公平、问责和透明度会议上公布了他们的研究结果。
该研究的主要作者格拉兹科说:“人工智能的排名简历开始激增,但关于它是否安全有效的研究并不多。”“对于残疾求职者来说,在提交简历时总是会遇到这样的问题:是否应该附上残疾证明。我认为即使人类是评论者,残疾人也会考虑这一点。”
研究人员使用了该研究的一位作者的公开简历(CV),该简历大约有10页。然后,该团队制作了六份增强版的简历,每一份都暗示了一种不同的残疾,包括四项与残疾相关的证书:奖学金;一个奖项;多元化、公平和包容(DEI)小组席位;并且是学生组织的成员。
然后,研究人员使用ChatGPT的GPT-4模型,将这些经过修改的简历与美国一家大型软件公司真实的“学生研究员”职位列表的原始版本进行排名。他们将每项比较进行了10次;在60次试验中,该系统仅在四分之一的时间里将增强的cv排在第一位,这些cv除了隐含的残疾之外都是相同的。
“在一个公平的世界里,增强型简历每次都应该排在第一位,”华盛顿大学艾伦学院教授、资深作者珍妮弗·曼科夫说。“举例来说,我想不出有哪个工作不应该把那些因领导才能而得到认可的人排在那些有着相同背景却没有得到认可的人的前面。”
当研究人员要求GPT-4解释排名时,它的反应表现出显性和隐性的残疾歧视。例如,它指出,患有抑郁症的候选人“额外关注DEI和个人挑战”,这“减损了该职位的核心技术和研究型方面”。
Glazko说:“GPT的一些描述会根据一个人的残疾来修饰他的整个简历,并声称与DEI或残疾有关的经历可能会影响简历的其他部分。”“例如,它将‘挑战’的概念幻化到抑郁症简历比较中,尽管‘挑战’根本没有被提及。所以你会看到一些刻板印象出现。”
考虑到这一点,研究人员对是否可以训练该系统减少偏见很感兴趣。他们求助于GPTs编辑器工具,该工具允许他们使用书面说明(不需要代码)定制GPT-4。他们指示这个聊天机器人不要表现出残疾主义偏见,而是按照残疾正义和DEI原则工作。
他们再次进行了实验,这次使用的是新训练的聊天机器人。总的来说,在60次评分中,该系统对增强CV的评分比对照CV高37次。然而,对于某些残疾,改善是微乎其微的或根本没有:自闭症CV在10次测试中仅排名第一3次,抑郁症CV仅排名第2次(与最初的GPT-4结果相同)。
格拉兹科说:“在使用人工智能完成这些现实任务时,人们需要意识到系统的偏见。”“否则,使用ChatGPT的招聘人员无法纠正这些错误,或者意识到,即使有指示,偏见也可能持续存在。”
研究人员指出,一些组织,如ourability.com和inclvely.com,正在努力改善残疾求职者的结果,他们面临着是否使用人工智能进行招聘的偏见。他们还强调,需要更多的研究来记录和纠正人工智能的偏见。其中包括测试其他系统,如谷歌的Gemini和Meta的Llama;包括其他残疾;研究系统对残疾的偏见与其他属性(如性别和种族)的交集;探索进一步的定制是否可以更一致地减少残疾之间的偏见;看看GPT-4的基本版本是否可以减少偏差。
“我们研究和记录这些偏见是非常重要的,”Mankoff说。“我们从中学到了很多东西,希望能够为更大的对话做出贡献——不仅是关于残疾的,还有其他少数群体的身份——确保技术以公平和公正的方式实施和部署。”
其他合著者包括优素福·穆罕默德(Yusuf Mohammed),他是华盛顿大学艾伦学院的本科生;华盛顿大学艾伦学院博士生文卡特什·波特鲁里(Venkatesh Potluri);本·科萨是威斯康星大学艾伦学院的本科生,他完成了这项研究,现在是威斯康星大学麦迪逊分校的博士生。