讨论人机交互研究中大语言模型的整合与伦理问题

news2024/9/22 15:48:19

概述

论文地址:https://arxiv.org/pdf/2403.19876.pdf
近年来,大规模语言模型发展迅速。它们给研究和教育领域带来了许多变化。这些模型也是对人机交互(HCI)研究过程的有力补充,可以分析定性和定量数据,再现社会科学实验,模拟新的社会动态。另一方面,已经发现了错误信息、歧视和侵犯隐私的风险,因此需要仔细考虑如何安全使用大规模语言模型。

过去曾对人机交互领域的伦理问题进行过研究,但大规模语言模型的应用带来了前所未有的挑战。关于如何将大规模语言模型纳入项目、存在哪些伦理问题以及如何解决这些问题,已经进行了大量的研究和讨论,以填补实际应用中的空白,实现大规模语言模型的有效和伦理整合。

本文通过对 50 名人机交互研究人员进行问卷调查和 16 次访谈得出的数据,展示了大规模语言模型在整个人机交互研究过程中的应用情况。这包括从创意生成到系统开发和论文撰写的一系列应用。本文还探讨了研究人员对与大规模语言模型相关的潜在伦理问题的预期和应对措施。

最后,基于这些发现,报告提出了研究伦理的重要性以及相关的具体建议,如与伦理审查委员会等合作、改进知情同意程序、扩大伦理教育机会、修改研究激励结构等。人机交互领域一直在与大型语言模型合作,这表明未来的主要挑战将是如何在整合模型时促进这些伦理考虑因素。

问卷调查

本文重点探讨人机交互研究人员如何将大规模语言模型纳入其研究过程,以及他们如何解决伦理方面的问题。为了全面了解这方面的情况,我们采用了顺序解释设计(SED)方法,通过调查和半结构化访谈来收集来自不同角度的意见。通过这种方法,可以深入调查研究人员处理伦理问题的具体方法。请注意,本研究项目已获得贵机构 IRB 的批准。

调查使用 Qualtrics 实施的在线问卷,收集了 50 名受访者的数据。参与者是通过社交媒体广告、直接电子邮件和大学邮件列表等多种渠道招募的。调查开始时已征得参与者的知情同意,个人身份信息不予记录。选择标准是,参与者必须是从事人机交互相关领域工作的研究人员,并具有使用大规模语言模型的经验。

在最后 77 名参与者中,有 50 人完成了所有部分(不包括人口信息)。在回答人口统计学信息的 43 位参与者中,许多人表示他们在学术界、工业界或非营利组织工作。这些参与者来自美国、阿富汗、德国、阿尔及利亚、香港、中国、西班牙、尼日利亚、澳大利亚和日本等不同国家,在人机交互领域的不同子领域工作。参与者从事人机交互研究的平均时间为四年。

它还使用了一份由 18 个问题组成的调查问卷。其中包括 14 个多项选择题和 4 个开放式问题。调查问卷将大规模语言模型定义为 “生成式(和多模态)语言模型的一个子集,其规模随参数数量和训练数据规模的增加而增加”,并将GPT-4、GPT-3.5、Llama 2 和 Vicuna描述为具体示例。

调查参与者被要求根据他们在近期研究项目中使用大规模语言模型的经验回答问题,这些问题分为三个部分

  • 关于在人机交互研究项目中使用大规模语言模型的问题
  • 在人机交互研究中使用大规模语言模型的伦理问题。
  • 与研究相关的人口统计学问题。

问卷的第一部分用一句话描述了该项目,并询问了所使用的主要研究方法、人机交互子领域以及纳入大规模语言模型的研究过程的各个阶段。它还重点关注了与使用大规模语言模型相关的潜在伦理考虑因素,询问 "您在研究项目中是否遇到或观察到任何与大规模语言模型相关的伦理挑战?"来询问有关伦理挑战的封闭式和开放式问题。它还询问了这些伦理挑战是如何发现、解决和报告的。最后,还包括有关受访者机构类型、国家和从事人机交互研究年限的人口统计学问题。请注意,此回答为可选回答。

数据分析使用 SPSS 计算描述性统计,分析研究人员如何处理与大规模语言模型相关的伦理问题。特别是,它纳入了提供多项选择答案的问题的统计数据(例如,使用大规模语言模型时的伦理问题)。对于只有部分受访者完成的问题,我们会计算特定问题的回复率以及回答该问题的受访者比例。

访谈调查

2023 年 10 月至 11 月间,16 位使用大规模语言模型开展研究项目的人机交互研究人员接受了采访。每次访谈都从描述参与者最近的项目开始,探讨大规模语言模型在项目中的应用情况。访谈的重点是大规模语言模型在整个研究过程中的使用、具体的伦理考虑因素、如何驾驭伦理考虑因素、IRB 的作用、伦理框架和工具包的作用、激励机制和责任。

参与者是通过分发名单、专业网络和个人联系等方式招募的,并采用滚雪球式抽样和目的性抽样进行重复抽样。样本包括来自美国、中国、新加坡和德国的研究人员,其中许多是在学术界工作的男性和女性研究人员。

访谈通过视频会议在线进行,所有环节均以英语进行。访谈前,我们会向参与者解释访谈目的,并获得电子版知情同意书,参与者可以随时拒绝回答问题或要求暂停录制。每次访谈大约持续 40-60 分钟,逐字记录的笔记和视频将用于日后分析。参与者可获得价值 30 美元的礼品卡。

采用了布劳恩和克拉克的反思性专题分析方法来分析定性数据。研究小组多次阅读每次访谈的记录,首先对伦理因素和问题进行开放式编码。研究小组定期召开会议,根据初始编码反复确定主题和类别。由此确定了研究过程、伦理问题和伦理考虑方法等类别,并最终将这些类别作为最高级别纳入研究结果中。

研究结果:人机交互研究人员在日常工作中使用的大规模语言模型

本文介绍了人机交互研究人员如何将大规模语言模型纳入日常研究工作的发现。它揭示了大规模语言模型是如何应用于研究的各个阶段的,包括构思、文献综述、研究设计、数据分析、系统构建、评估和撰写论文。

特别是,它们最常用于论文撰写和研究设计阶段,其次是项目范围界定、系统开发、数据生成和收集以及分析。研究表明,人们认识到,大规模语言模型为研究 “开辟了新的可能性”,而且 “如果使用得当,它们可以让人们做一些很酷的事情,真正增强能力”。

在研究的早期阶段,参与者使用大规模语言模型确定新的研究问题,然后将这些问题细化为具体的研究目标。例如,一位学员在大规模语言模型中输入了一个广泛的主题领域,并根据生成的研究问题确定了研究目标。另一位参与者则利用大规模语言模型寻求职业导师的建议,并探索人工智能与网络安全交叉领域的研究课题。这些活动让人机交互研究人员迅速产生了各种各样的想法,对头脑风暴大有帮助。

此外,大规模语言模型在数据相关任务中的应用也在不断扩大。许多研究人员正在利用大规模语言模型综合网络来源的信息,从而大大简化了通常需要花费大量时间和精力的任务。大规模语言模型还被纳入数据分析的每个过程,包括定性数据编码、绘图和数据可视化,有助于提高研究的质量和速度。

这项研究的结果表明了人机交互领域中法律硕士的多样化应用和潜力,并为研究人员提供了新的研究方法。

研究结果:人机交互研究人员对使用大规模语言模型的伦理关切

人机交互研究人员在使用大规模语言模型时遇到了各种伦理挑战。研究结果显示,30 位研究人员发现了伦理问题,10 位感到不确定,10 位没有意识到这些问题。数据隐私、版权、有害输出、版权问题和同意等问题尤为突出。这些问题在研究设计、执行、分析和撰写阶段都很常见。

当大规模语言模型被整合到与用户直接交互的系统和工具中时,研究对象接触有害输出结果的伦理问题也日益受到关注。大规模语言模型的输出结果可能会通过社会偏见和刻板印象造成不成比例的伤害,尤其是对那些不被认为重要的群体。

此外,大规模语言模型还可能带来新的风险,强化对残疾人的偏见。大规模语言模型生成的信息看似权威,实则捏造,会影响研究的可信度。特别是,识别大规模语言模型生成的虚假引文和不一致的文章参考文献对研究人员来说是一个巨大的挑战。

在研究设计和评估阶段从大规模语言模型中继承的偏见也是一个问题。研究人员对大规模语言模型产生同质内容和概括不同观点的倾向表示担忧。这种 "扁平化人类多样性和细微差别 "的趋势强调了在研究中捕捉生活经验复杂性的重要性。

研究人员对输入到大规模语言模型中的数据如何使用以及隐私如何受到侵犯也非常关注。尤其令人担忧的是大规模语言模型如何处理语音转录和导航数据等敏感信息。这些数据泄露给外界甚至可能导致人身伤害。研究人员还非常关注与 LLM 提供商共享数据所带来的个人数据泄露风险,指出安全漏洞可能会导致个人数据意外泄露。

此外,知识完整性也是一个问题,因为大规模语言模型生成的文本和视觉效果的所有权并不明确。在共同生产过程中,很难区分哪些部分是研究人员的原创贡献,哪些部分是大规模语言模型的功劳。当大规模语言模型成为研究成果的一部分时,还有关于剽窃风险的争论。研究人员对大规模语言模型生成的内容的所有权提出了质疑,尤其是在论文的写作阶段,因此需要适当地注明出处。

此外,使用大规模语言模型的研究成果的可重复性尤其受到技术快速和不透明更新的影响。如果研究人员不知道他们使用的是哪个版本的 LLM,那么过去有效的方法在未来就可能无法很好地发挥作用。这可能会削弱研究成果的可靠性。

随着大规模语言模型使用范围的扩大,这些问题使得加强人机交互研究中的道德准则和提高透明度势在必行。

研究结果:解决人机交互研究人员对大规模语言建模的伦理问题

在此,我们调查了人机交互研究人员如何应对与使用大规模语言模型相关的伦理挑战。我们发现,研究人员会根据大规模语言模型的使用环境和研究领域来调整他们的伦理对策。

研究表明,许多人机交互研究人员都意识到潜在的伦理问题,但却发现很难具体确定或解决这些问题。例如,当一个研究领域被认为风险较低时,大规模语言建模的伦理挑战往往会被忽视,并被认为不那么紧迫。另一方面,高风险领域需要采取更加积极主动的伦理措施,但在实践中却很少采取此类措施。

受访的研究人员将具体情况和伦理考虑作为优先考虑的理由,并表示与使用大规模语言模型相关的一般伦理问题并不适用于他们自己的研究。这种被动处理问题的方法导致人们寻求解决问题的直接办法,但解决根本问题往往被搁置一旁。

此外,由于大多数人机交互研究都是在实验室环境中进行的,因此伦理问题的表现形式与日常问题不同,短期可用性测试不太可能面对大规模语言建模的有害输出。然而,在长期研究中可能会出现更严重的问题。

人机交互研究人员也将大规模语言模型视为常规工具。因此,许多参与者显然认为没有必要向研究参与者、伦理审查委员会(IRB)或更广泛的学术界正式报告他们使用大规模语言模型的情况。

这项调查显示了人机交互研究人员如何看待大规模语言建模的伦理问题。
总结:人机交互研究中大规模语言模型的整合与伦理问题

本文揭示了人机交互(HCI)研究人员如何使用大规模语言模型(LLM)以及他们面临的伦理问题。本文基于通过问卷调查和访谈收集的数据,探讨了研究人员如何将 LLMs 整合到他们的研究中,以及他们如何应对遇到的伦理问题。

研究表明,尽管人机交互研究人员在研究的各个阶段都使用了大规模语言模型,但他们在有效识别和解决伦理问题方面却举步维艰。在每个项目中明确识别和充分解决伦理问题被认为是一项挑战。

本文还提出了一种新的方法来制定伦理规范,以促进在人机交互研究中负责任地使用大规模语言模型。它鼓励研究人员与伦理审查委员会(IRB)合作,并与政策制定者和生成式人工智能公司合作制定指导方针。他们还指出,有必要重新评估知情同意程序,并提供技术援助以中断大规模语言模型的供应链。此外,还需要在人机交互领域提供更多的伦理教育机会,并改变学术激励机制,以关注伦理问题。

希望这些举措将有助于在未来营造一个更加合乎伦理的研究环境。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2138843.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4.C_数据结构_队列

概述 什么是队列: 队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点 相关名词: 队尾:写入数据的一段队头:读取数据的一段空队:队列中没有数据,队头指针 队尾指针满队&#…

springboot 整合quartz定时任务

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、pom的配置1.加注解 二、使用方法1.工程图2.创建工具类 三、controller 实现 前言 提示:这里可以添加本文要记录的大概内容: 提示&a…

微服务、云计算、分布式开发全套课程课件,来原于企培和多年大厂工作提炼

本课内容为笔者16年企业工作期间企培经验总结的 全套课件。需要自取,已分块和整体上传至资源下载中。 全部来源于笔者多年企业培训迭代整理,并做了特殊处理,所以内容无涉密和版权麻烦。 课件内容全部来源于笔者在京东、58、阿里;中…

第二百三十二节 JPA教程 - JPA教程 - JPA ID自动生成器示例、JPA ID生成策略示例

JPA教程 - JPA ID自动生成器示例 我们可以将id字段标记为自动生成的主键列。 数据库将在插入时自动为id字段生成一个值数据到表。 例子 下面的代码来自Person.java。 package cn.w3cschool.common;import javax.persistence.Entity; import javax.persistence.GeneratedValu…

java内存概述

运行时数据区域 Java 虚拟机在执行 Java 程序的过程中会把它所管理的内存划分为若干个不同的数据区域。这些区域有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启 动而一直存在,有些区域则是依赖用户线程的启动和结束而建立和…

charls基于夜神模拟器抓取安卓7.0应用程序https请求

charls基于夜神模拟器抓取安卓7.0应用程序https请求 1、安装charls(安装步骤这里就不详细说了)2、下载证书(证书后缀名 xx.pem)3、使用git bash生成证书hash4、上传证书到安卓的系统证书目录下(夜神模拟器方案&#xf…

C++速通LeetCode简单第9题-二叉树的最大深度

深度优先算法递归: /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right…

屏幕缺陷检测-目标检测数据集(包括VOC格式、YOLO格式)

屏幕缺陷检测-目标检测数据集(包括VOC格式、YOLO格式) 数据集: 链接:https://pan.baidu.com/s/1mb83CzAAOkvMZ_LS9Alt8w?pwdagi6 提取码:agi6 数据集信息介绍: 共有 3789 张图像和一一对应的标注文件 标…

RPC远程调用的序列化框架

序列化框架对比: 一、Java Serialiazer 字段serialVersionUID的作用是为了在序列化时保持版本的兼容性,即版本升级时反序列化仍保持对象的唯一性。 //序列化 ByteArrayOutputStream bout new ByteArrayOutputStream(); ObjectOutoutStream out new O…

【Kubernetes笔记】为什么DNS解析会超时?

【Kubernetes笔记】为什么DNS解析会超时? 目录 1 问题背景2 产生后续的问题3 DNS 负缓存工作原理:4 如何解决和缓解 DNS 负缓存 4.1 减小负缓存 TTL4.2 重试机制4.3 减少 Pod 的频繁重启或调度4.4 使用 Headless Service4.5 手动刷新 DNS 缓存 5 总结 …

苹果cms多语言插件,插件配置前端默认语言采集语言等

苹果CMS(maccmscn)是一款功能强大的内容管理系统,广泛应用于视频网站和其他内容发布平台。为了满足全球用户的需求,苹果CMS支持多语言插件,使得网站能够方便地提供多语言版本。以下是关于苹果CMS多语言插件的详细介绍&…

网络原理2-网络层与数据链路层

目录 网络层数据链路层 网络层 网络层做的工作: 1、地址管理–>IP地址 2、路由选择–>数据包传输的路径规划 网络层主要的协议就是IP协议 IP协议的报头结构: 4位版本: 有两个取值,4表示IPv4,6表示IPv6&am…

关于网站ERR_TOO_MANY_REDIRECTS错误的修改办法

今天网站因为证书到期,七牛云的报错一直ERR_TOO_MANY_REDIRECTS,302重定向次数过多了,连后台都进不去 多次清除cookie未果,终于找到了原因:设置了太多重定向, 1.http强制跳转 2.宝塔后台设置了跳转 3.域…

备战软考Day02-数据结构与算法

1.基本概念与三要素 1.什么是数据 数据是信息的载体,是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。 2.数据元素、数据项 数据元素是数据的基本单位,通常作为一个整体进行…

树莓派Pico2(RP2350)开发环境搭建

树莓派Pico2(RP2350)开发环境搭建 文章目录 树莓派Pico2(RP2350)开发环境搭建1、RP2350介绍2、开发环境搭建3、工程编译4、固件下载Raspberry Pi再次通过推出RP2350 MCU突破了微控制器设计的界限。这款微控制器是之前RP2040的重大升级,带来了更强大的性能、高级安全功能,…

基于SSM的二手车管理系统的设计与实现 (含源码+sql+视频导入教程)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于SSM的二手车管理系统4拥有三种角色 管理员:订单管理、在售车辆管理、下架车辆管理、品牌管理、分类管理、推荐管理、统计等 商家:登录注册、添加/下架/删除车辆…

vscode搭建ros开发环境问题记录(更新...)

文章目录 vscode 不能自动补全 开发环境: vmware 15.7 ubuntu 20.04 ros noetic vscode 不能自动补全 这里将头文件已经正确包含到c_cpp_properties.json中代码中仍然不能自动补全, 将C_CPP插件设置中的Intelli Sense Engine 设置为TagParser,然后重新加…

828华为云征文 | 云服务器Flexus X实例:部署 Gitea,拥有自己的Git仓库,管理本地代码

目录 一、什么是 Gitea 二、安装 Docker 环境 2.1 更新 apt 软件源 2.2 安装依赖 2.3 安装 Docker 三、安装 Gitea 3.1 创建 docker-compose.yml 3.2 启动 Gitea 服务 3.3 初始化配置 四、运行 Gitea 4.1 登录/注册 4.2 创建仓库 五、总结 本篇文章通过部署 Gite…

【BFS专题】— 多源最短路问题

1、矩阵 - 力扣(LeetCode) 思路: 首先创建一个dist数组,将dist数组初始化为-1,表示该位置没有被搜索和记录该位置的值然后再遍历mat数组,将数组中的 0 添加到队列中,并且修改dist对应位置的值为…

全网最全最详细的跨域解决方案

你们好,我是金金金。 前置知识 本篇文章以通俗易懂的方式进行描述,自己组织语言进行输出,尽量让每一个人都能看得懂。哪里有说的不正确的地方 大佬请在评论区指正! 首先需要了解浏览器的同源策略 浏览器的同源策略 MDN解释地址&…