使用 ChatGPT 检测媒体偏见的潜力和局限性

news2024/9/23 3:23:32

概述

随着数字时代的到来,信息瞬间传遍全球,但其中也不乏各种偏见。媒体偏见",即对某些观点的选择性报道,会影响人们对某一事件或问题的看法,并对公众舆论产生重大影响。事实上,许多人都认为主要媒体存在偏见,因此迫切需要对这一问题进行调查。

本文探讨了如何利用人工智能技术来检测和了解媒体偏见。识别媒体偏见的方法多种多样,既有由人工评分员进行的人工内容分析,也有使用机器学习和自然语言处理技术的计算方法,但这些方法都有局限性。例如,专注于特定政治偏见或假新闻的方法已经得到了很好的研究,但在捕捉导致偏见的语言细微差别和可扩展性方面面临挑战。

其中,由 OpenAI 开发的大规模语言模型 ChatGPT 的使用引起了人们的兴趣,因为基于 GPT-3.5 引擎的 ChatGPT 在翻译、情感分析、推理和总结等各种自然语言处理任务中表现出了非凡的能力。本文研究了 ChatGPT 识别媒体偏见的能力,并探讨了提高其准确性的方法。本文还将 ChatGPT 的性能与 BART 等经过微调的语言模型进行了比较。

对于媒体偏见的未来研究,ChatGPT 为识别多种偏见(包括种族偏见、性别偏见和认知偏见)的能力提供了宝贵的见解。
论文地址:https://arxiv.org/abs/2403.20158

实验装置

本文介绍了一项旨在识别和评估媒体偏见的实验。所使用的数据选自媒体偏见识别基准(MBIB),这是一个由 Wessel 等人编制的数据集。这是一个由 115 个数据集组成的综合性数据集。其中有 9 项任务和 22 个相关数据集被选中用于评估媒体偏差检测技术。

这些数据也会根据不同的任务进行适当的预处理,并将标签转换为二进制格式。这有助于整合不同的数据集,并简化任务格式。其中,连续标签的数据集已使用作者推荐的阈值进行了二值化处理。

本节特别关注 MBIB 九项任务中的六项,并广泛评估 ChatGPT 在每项任务中检测媒体偏见的能力。
在这里插入图片描述
与所选任务相关的数据集会根据其规模按比例分成训练子集和测试子集。对于大多数偏见识别任务,数据集的训练-测试比例为 80-20,但由于认知偏见和仇恨言论任务的数据量较大(如 200 万例),因此会随机抽取其中 10%的数据集,然后按 80-20 的比例分割80-20分割。下表显示了每个任务中使用的数据量。
在这里插入图片描述
我们还选择了三个备受赞誉的模型(ConvBERT、BART 和 GPT-2)进行比较,以评估 ChatGPT 在检测媒体偏见方面的性能。这些模型在各种自然语言处理 (NLP) 任务中表现出色。这些模型的性能已在测试数据集上进行了评估,并与 ChatGPT 的结果进行了比较。

ChatGPT 的 GPT-3.5 涡轮增压版也被用作 ChatGPT,在效率和成本之间取得了极佳的平衡。为了提高结果的可重复性,我们将模型的行为设置为确定性的,即模型的温度设置为零,这样它对相同的提示总是会产生相同的反应。我们让 ChatGPT 为六项偏差识别任务中的每一项生成三个简洁的提示,以最大限度地提高其能力。

例如,关于识别种族偏见的查询可能是这样的。请提供三个简短的提示,以最大限度地提高您识别给定文本是否包含种族偏见的能力。

这些提示使用从原始数据集和不同数据集中随机选取的少量示例(60 个)进行测试。每个任务提示都包含相同数量的正面标注示例,表示存在偏差,反面标注示例则表示不存在偏差。这样就能选出最有效的提示。结果如下表所示。
在这里插入图片描述
此外,任务提示还附加了特殊指令,以确保模型以可自动处理的方式做出响应。有了这些指令,模型就能提供 JSON 格式的输出,其中包括 "偏差 "列,用 1 或 0 表示文本中是否存在偏差。这一过程提高了偏差识别的准确性,并有助于该方法的标准化。

实验结果

本文通过比较 ChatGPT 与其他微调模型在六项媒体偏见识别任务中的表现,对 ChatGPT 的性能进行了全面评估。这项评估对于了解不同环境下偏差识别和缓解的效果以及促进开发更平衡的人工智能系统至关重要。使用特定指标分析模型的性能可以深入了解它们的优势、局限性和改进潜力。

根据 MBIB 的建议,使用了两个指标:一个是微平均 F1 分数。一个 F1 分数是根据模型在所有测试集上的预测结果计算得出的。这种方法忽略了每个示例来自哪个数据集的差异。这一指标有助于轻松了解模型的整体性能。另一种是宏观平均 F1 分数。为测试集中的每个数据集计算 F1 分数,然后将结果平均,得到宏观平均分数。这种方法可确保所有数据集对最终得分的贡献相同,而不论数据集的大小。

ChatGPT 和微调模型的性能如下表所示。
在这里插入图片描述

总体而言,BART、ConvBERT 和 GPT-2 等微调模型在识别偏差方面的表现一般较好。这可能是因为这些模型经过训练,能够适应人类贴标者识别出的偏差模式。另一方面,ChatGPT 的 "0-shot "方法仅依赖于广泛的数据模式,这已被证明会降低偏差识别的准确性。

特别是在性别和种族偏见方面,ChatGPT 明显不如微调模型,在很多情况下会出现假阳性。例如,ChatGPT 可能会错误地将一句话解释为有性别偏见,而人类评分员或其他模型可能会认为这句话是中性的。例如,"我无法忍受美国佬的声音来解说足球。 CRINGE "这句话被 ChatGPT 描述为 “通过假定足球解说是男性主导的领域来强化性别角色”,并将其误判为 "我无法忍受美国佬的声音来解说足球。将其标签化。这种超敏感反应可能是在学习过程中与某些单词和短语相关联的刻板印象和偏见造成的。在本案例中,"美国佬的声音 "与足球解说主要由男性完成的假设相关联。

此外,在检测认知偏见和假新闻方面,ChatGPT 明显不如 BART 和 ConvBERT 等模型。这是因为这些类型的偏见深深地依赖于语境和细微的语言差别,很难通过简单的零点学习来解决。就假新闻而言,由于其模棱两可且往往具有欺骗性,因此很难仅凭语言线索将其与真相区分开来。

不过,ChatGPT 在检测仇恨言论方面的表现也相对较好。仇恨言论因其明目张胆和咄咄逼人的语言模式而易于识别,这也是它在零镜头模型中表现良好的原因。

在文本层面检测上下文偏差的任务中,结果与微调方法不相上下。这可能是因为 ChatGPT 的广泛架构特别适合捕捉人类交流中的微妙含义。通过全面的训练,这个大型模型已经获得了对语言的多方面理解。因此,ChatGPT 有能力洞察和解释语境对语言的影响。

不过,本研究中所有模型的性能在很大程度上都受到可用数据集质量的影响。例如,模型在数据示例较少的数据集上表现吃力,而在示例较多的数据集上则表现较好。由于数据量有限,这些宏观平均分可能无法完全反映模型的真实能力。

因此,ChatGPT 显示出一定程度的熟练程度,但目前的形式还不清楚它是否能作为媒体偏见的明确检测器。不过,使用少量提示进行测试可能会提高其性能。这种方法需要在 ChatGPT 数据集中进一步验证其一致性。

总结

论文将 ChatGPT 检测媒体偏见的能力与其他微调模型(BART、ConvBERT 和 GPT-2)进行了比较,尽管 ChatGPT 在识别仇恨言论和文本级语境偏见方面表现突出、尽管 ChatGPT 在识别仇恨言论和文本层面的语境偏见方面表现不俗,但在性别、种族和认知偏见等需要更深层次语境理解的任务上表现不佳。

在展示大规模语言模型在语言理解方面所取得的进展的同时,它也强调了在更敏感地理解语境和偏见方面仍然存在挑战。需要指出的是,偏差的主观性和训练 ChatGPT 的数据的性质可能会影响这些模型之间的性能差异。

预计未来的论文将采用新的方法,包括少量提示和人工评估,进一步提高这些模型的能力。本文为人工智能的未来发展及其社会影响提供了见解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1964451.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

国内本地化OCSP服务的SSL证书:提升安全与效率的新选择

在数字化时代,网络安全成为企业运营和用户体验的重要基石。HTTPS(Hypertext Transfer Protocol Secure)作为一种安全的网络协议,通过SSL(Secure Sockets Layer)加密技术,保障了数据传输的机密性…

网络协议二 : 使用Cisco Packet Traceer工具模拟网络环境,集线器,网桥,交换机,路由器,MAC,IP,同一网段,子网掩码,子网划分

1. 安装 Cisco Packet Tracer baidu 网盘地址,感谢大神分享 安装,破解,中文化,都有说明,建议使用7.x的那个版本,感觉比8.x的翻译要完整一点 https://pan.baidu.com/s/18iWBOfhJJRhqgQqdNQcfMQ?pwddcch#…

【考研数学】概率论中集合间的运算图示

今天要给大家分享的笔记是:《概率论中的4种“集”:交集、并集、差集、补集》:

修复msvcp120.dll丢失的问题的几种简单方法,msvcp120.dll是什么

在使用电脑时,你可能会遭遇一个提示称“msvcp120.dll丢失”的错误信息。这个问题比较普遍,主要是因为你的系统中缺失了某个特定的动态链接库(DLL)文件。msvcp120.dll是由 Microsoft Visual C 可再发行包提供的关键文件&#xff0c…

【C++】C++11新增语法(右值引用、完美转法)

文章目录 1.C11新增常用语法1.1 统一的列表初始化1.2 initializer_list初始化1.3 声明相关1.4 继承与多态相关 2. 右值引用与移动语义2.1 左值引用与右值引用2.2 右值引用与移动语义的使用场景2.3 右值引用引用左值(move) 3. 完美转发4. 新的类功能4.1 新增两个默认成员函数4.2…

测试开发面试题,助你拿高薪offer

进入金九银十,很多小伙伴有被动跳槽的打算,所以更新一些测试开发 面试题,希望能帮到大家。 一 请说一下HTTP 状态码 HTTP状态码大致分为5类: 常见的http状态码如下: 二 python中“” 和“ is ”的区别 is 和 都可以进行对象比…

bash: llamafactory-cli: command not found解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

探索翻译新世界:2024年超越期待的翻译应用推荐

现在社会因为交通、互联网的便利,不同国家之间的交流变得简单起来。无论是商务合作、学术研究还是日常沟通,准确、快速地跨越语言障碍都显得尤为重要。今天我来介绍一些和百度翻译类似的多用途的翻译工具。 1.福昕在线翻译 链接一下>>https://fa…

《LeetCode热题100》---<4.子串篇三道>

本篇博客讲解LeetCode热题100道子串篇中的三道题 第一道:和为 K 的子数组 第二道:滑动窗口最大值 第三道:最小覆盖子串 第一道:和为 K 的子数组(中等) 法一:暴力枚举 class Solution {public in…

C语言进阶 13. 文件

C语言进阶 13. 文件 文章目录 C语言进阶 13. 文件13.1. 格式化输入输出13.2. 文件输入输出13.3. 二进制文件13.4. 按位运算13.5. 移位运算13.6. 位运算例子13.7. 位段 13.1. 格式化输入输出 格式化输入输出: printf %[flags][width][.prec][hlL]type scanf %[flags]type %[fl…

yolo格式数据集之空中及地面拍摄道路病害检测7种数据集已划分好|可以直接使用|yolov5|v6|v7|v8|v9|v10通用

yolo格式数据集之空中及地面拍摄道路病害检测7种数据集已划分好|可以直接使用|yolov5|v6|v7|v8|v9|v10通用 本数据为空中及地面拍摄道路病害检测检测数据集,数据集数量如下: 总共有:33585张 训练集:6798张 验证集:3284张 测试集&a…

视频监控国标GB28181平台EasyGBS如何更换默认的SQLite数据库?

视频流媒体安防监控国标GB28181平台EasyGBS视频能力丰富,部署灵活,既能作为业务平台使用,也能作为安防监控视频能力层被业务管理平台调用。国标GB28181视频EasyGBS平台可提供流媒体接入、处理、转发等服务,支持内网、公网的安防视…

数据集相关类代码回顾理解 | np.mean\transforms.Normalize\transforms.Compose\xxx.transform

数据集相关类代码回顾理解 | StratifiedShuffleSplit\transforms.ToTensor\Counter 目录 np.mean transforms.Normalize transforms.Compose xxx.transform np.mean meanRGB[np.mean(x.numpy(),axis(1,2)) for x,_ in train_ds] 计算每个样本的(RGB&#xff0…

鸿蒙应用框架开发【JS注入与执行】 Web

JS注入与执行 介绍 本示例基于H5游戏,通过arkui的button实现对游戏实现基本控制,展示webview的JS注入与执行能力,及native应用与H5的通信能力。 效果预览 使用说明 1.设备连接热点,可访问互联网。 2.打开应用,通过…

【Java】如何避免超预期的高并发压力压垮系统?

一、问题解析 在互联网高可用架构设计中,限流是一种经典的高可用架构模式。因为某些原因,大量用户突然访问我们的系统时,或者有黑客恶意用DoS(Denial of Service,拒绝服务)方式攻击我们的系统时&#xff0…

oracle表、表空间使用空间

文章目录 一、Oracle查询表空间占用情况二、Oracle查询表占用的空间三、Oracle查询表空间使用情况四、Oracle查询每张表占用空间五、表空间大小 TOC 一、Oracle查询表空间占用情况 oracle日常工作中查看表占用空间大小是数据库管理中的基本操作: SELECT a.tablesp…

大龄程序员转型攻略:拥抱人工智能,开启新征程

前言 随着科技的飞速发展,人工智能浪潮席卷全球,相关岗位炙手可热。在这个背景下,许多大龄程序员开始思考如何转型,以适应时代的变化。结合自身编程基础,大龄程序员可以学习机器学习、深度学习算法,投身于…

MySQL 高性能索引使用策略

文章目录 前置知识表准备一. 不在索引列上使用任何操作二. 联合索引字段列全值匹配三. 最佳左前缀法则四. 范围条件放最后五. 覆盖索引使用六. 不等于导致索引失效七. is null/not null 影响八. like 查询的使用九. 字符类型加引号十. OR关键字前后索引问题十一. 利用索引来做排…

昇思25天学习打卡营第XX天|Pix2Pix实现图像转换

Pix2Pix是一种基于条件生成对抗网络(cGAN)的图像转换模型,由Isola等人在2017年提出。它能够实现多种图像到图像的转换任务,如从草图到彩色图像、从白天到夜晚的场景变换等。与传统专用机器学习方法不同,Pix2Pix提供了一…

【Dart 教程系列第 49 篇】什么是策略设计模式?如何在 Dart 中使用策略设计模式

这是【Dart 教程系列第 49 篇】,如果觉得有用的话,欢迎关注专栏。 博文当前所用 Flutter SDK:3.22.1、Dart SDK:3.4.1 文章目录 一:什么是策略设计模式?二:为什么要使用策略设计模式&#xff1…