研究: 用于训练大型语言模型的数据集往往缺乏透明度

news2024/9/21 17:57:06

研究人员开发了一种易于使用的工具,使人工智能从业人员能够找到适合其模型目的的数据,从而提高准确性并减少偏差。

在这里插入图片描述
这款名为 “数据出处资源管理器”(Data Provenance Explorer) 的新工具可以帮助从业人员在训练模型时对数据做出更明智的选择。

为了训练更强大的大型语言模型,研究人员使用了大量的数据集,这些数据集融合了来自成千上万网络来源的各种数据。

但是,当这些数据集被组合并重新组合成多个数据集时,有关其来源和使用限制的重要信息往往会丢失或被混淆。

这不仅会引发法律和道德问题,还会损害模型的性能。 例如,如果数据集分类不当,那么为某项任务训练机器学习模型的人最终可能会无意中使用了并非为该任务设计的数据。

此外,未知来源的数据可能包含偏差,导致模型在部署时做出不公平的预测。 为了提高数据的透明度,来自麻省理工学院和其他大学的多学科研究团队对流行托管网站上的 1800 多个文本数据集进行了系统审计。 他们发现,这些数据集中有70%以上遗漏了一些许可信息,而大约50%的信息存在错误。 基于这些发现,他们开发了一种名为 "数据出处资源管理器 "的用户友好型工具,可以自动生成数据集的创建者、来源、许可和允许用途的易读摘要。

麻省理工学院教授、麻省理工学院媒体实验室人类动力学小组(Human Dynamics Group)负责人亚历克斯-潘特兰(Alex “Sandy” Pentland)说:“这类工具可以帮助监管者和从业者就人工智能的部署做出明智的决策,并进一步推动人工智能负责任的发展。”

《对人工智能中的数据集许可和归属进行大规模审计》

数据出处资源管理器可以帮助人工智能从业者选择符合其模型预期目的的训练数据集,从而建立更有效的模型。 从长远来看,这可以提高人工智能模型在现实世界中的准确性,例如用于评估贷款申请或回答客户询问的模型。

“要了解人工智能模型的能力和局限性,最好的方法之一就是了解它是根据什么数据训练出来的。”,麻省理工学院人类动力学小组研究生、哈佛大学法学院法学博士候选人罗伯特-马哈里(Robert Mahari)是这篇论文的共同第一作者。

与马哈里和彭特兰共同撰写论文的还有共同第一作者、媒体实验室研究生谢恩-朗普雷(Shayne Longpre),领导人工智能研究实验室 Cohere 的萨拉-胡克(Sara Hooker),以及麻省理工学院、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、Contextual AI、ML Commons 和 Tidelift 的其他研究人员。 这项研究发表在今天的《自然-机器智能》(Nature Machine Intelligence)杂志上。

专注于微调

研究人员经常使用一种名为微调的技术来提高大型语言模型的能力,该模型将被部署用于特定任务,如问题解答。 在进行微调时,他们会精心建立一些数据集,以提高模型在这一任务中的性能。 麻省理工学院的研究人员重点研究了这些微调数据集,这些数据集通常由研究人员、学术组织或公司开发,并获得了特定用途的许可。 当众包平台将这些数据集汇集成更大的数据集供从业人员用于微调时,一些原始许可信息往往会被遗忘。 马哈里说:“这些许可应该是重要的,而且应该是可执行的。”

例如,如果数据集的许可条款有误或缺失,有人可能会花费大量金钱和时间开发一个模型,但由于某些训练数据包含隐私信息,他们可能会在之后被迫取消该模型。 Longpre 补充说:“人们在训练模型时,可能根本不了解这些模型的功能、问题或风险,而这些问题和风险最终都源自数据。” 在这项研究开始时,研究人员将数据出处正式定义为数据集的来源、创建和许可遗产及其特征的组合。 在发现这些数据集中有超过70%的数据包含 "未指定 "的许可证,遗漏了很多信息后,研究人员开始逆向填补空白。 通过努力,他们将包含 "未指定 "许可证的数据集数量减少到了 30%左右。 他们的工作还发现,正确的许可证往往比资源库指定的许可证更具限制性。

此外,他们还发现,几乎所有数据集的创建者都集中在全球北部地区,这可能会限制模型在不同地区部署时的能力。 例如,一个主要由美国和中国人创建的土耳其语数据集可能不包含任何具有文化意义的内容,马哈里解释说,"我们几乎自欺欺人地认为数据集比实际情况更加多样化,"他说。 有趣的是,研究人员还发现,2023年和2024年创建的数据集受到的限制急剧增加,这可能是由于学者们担心他们的数据集可能被用于非预期的商业目的。

方便用户使用的工具

为了帮助其他人在无需人工审核的情况下获取这些信息,研究人员建立了数据出处资源管理器。 除了根据特定条件对数据集进行排序和过滤外,该工具还允许用户下载数据出处卡,该卡提供了对数据集特征的简洁、结构化概述。 我们希望这是一个步骤,不仅能了解现状,还能帮助人们在今后的训练中对数据做出更明智的选择,"马哈里说。 未来,研究人员希望扩大分析范围,研究包括视频和语音在内的多模态数据的数据出处。 在扩大研究范围的同时,他们还将与监管机构联系,讨论他们的发现以及微调数据对版权的独特影响。

Longpre 说:“当人们创建和发布这些数据集时,我们从一开始就需要数据出处和透明度,以便其他人更容易获得这些见解。”

“许多拟议的政策干预措施都假定我们能够正确分配和识别与数据相关的许可证,而这项工作首先表明事实并非如此,然后大大改进了可用的出处信息,”, EleutherAI 执行总监斯特拉-比德曼(Stella Biderman)说,她没有参与这项工作。 "此外,第 3 部分还包含相关的法律讨论。 这对于那些规模足够大、拥有专门法律团队的公司之外的机器学习从业者来说非常有价值。 目前,许多想为公益事业建立人工智能系统的人都在默默地苦苦思索如何处理数据许可问题,因为互联网的设计方式并没有让数据出处变得容易弄清楚。“

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2127509.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

随机规划及其MATLAB实现

目录 引言 随机规划的基本模型 随机动态规划 随机动态规划建模实例​(随机动态规划): MATLAB中的随机规划实现 示例:两阶段随机规划 表格总结:随机规划求解方法与适用场景 结论 引言 随机规划(Stochastic Programming&…

SpringCloud之配置中心svn示例和refresh

SpringCloud之配置中心svn示例和refresh 上一篇配置中心git示例留了一个小问题,当重新修改配置文件提交后,客户端获取的仍然是修改前的信息,这个 问题我们先放下,待会再讲。国内很多公司都使用的svn来做代码的版本控制&#xff…

LabVIEW项目硬件设备选择

在LabVIEW开发项目中,硬件设备的选择至关重要,直接影响系统的性能、稳定性和开发效率。合适的硬件设备不仅能够有效支持项目目标的实现,还能提高整体测试和控制系统的灵活性。因此,从性能需求、兼容性、成本、扩展性等多个角度出发…

vue3 图片裁剪

最终效果 插件下载 pnpm install vue-cropper 配置 在main.js中配置: import VueCropper from vue-cropper; import vue-cropper/dist/index.css;app.use(VueCropper); 组件封装 components/Cropper/index.vue <temp

Linux基础---04vi编辑器指令常用集合及如何恢复意外断开未保存的文件

一.光标移动快键键集合 操作解释h,j,k,l左下上右i在光标位置编辑a在光标后一位编辑o换行编辑&#xff0c;另起一行ctrl f下翻一页ctrl b上翻一页ctrl d下翻半页ctrl u上翻半页数字0跳到行首&#xff0c;也就是跳到第0个字符^跳到行首的第一个字符shift 4跳到行尾shift g…

技术成神之路:设计模式(十三)访问者模式

介绍 访问者模式&#xff08;Visitor Pattern&#xff09;是一种行为型设计模式&#xff0c;它允许你在不改变对象结构的前提下&#xff0c;定义作用于这些对象的新操作。这种模式通过将操作逻辑从对象结构中抽离出来&#xff0c;使得新的操作可以无缝地添加到现有对象中。 1.定…

【漏洞复现】用友 NC pagesServlet Sql注入漏洞

免责声明&#xff1a; 本文内容旨在提供有关特定漏洞或安全漏洞的信息&#xff0c;以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步&#xff0c;并非出于任何恶意目的。阅读者应该明白&#xff0c;在利用本文提到的漏洞信息或进行相关测…

安装docker-compose最新版本

github下载地址 在github上下载最新版本&#xff0c;这里是centos7的环境直接下载这个就好了。 这里下载好传到服务器即可&#xff0c;这里查看没有权限 需要给文件增加x的执行权限。 ~]# ls -lh 总用量 61M -rw-------. 1 root root 1.7K 7月 29 2022 anaconda-ks.cfg -rw-r…

【最新综述】基于深度学习的超声自动无损检测(下)

4.Levels of automation 5.Basic axioms for DL-based ultrasonic NDE 在回顾了最新技术和每个自动化级别的贡献之后&#xff0c;我们不难发现&#xff0c;目前的数字语言方法论在不同论文之间存在着很大的差异。例如&#xff0c;有些作者提出了同时处理不同步骤的模型[121]&…

【佳学基因检测】在EXCEL中,如何获取A列的第9-29个字符,将其填入另一列中

【佳学基因检测】在EXCEL中&#xff0c;如何获取A列的第9-29个字符&#xff0c;将其填入另一列中 在 Excel 中&#xff0c;如果你需要从 A 列的单元格中提取第 9 到第 29 个字符&#xff0c;你可以使用 MID 函数来实现。这是一个非常实用的函数&#xff0c;用于从文本字符串中…

Java设计模式之责任链模式详细讲解和案例示范

在本文中&#xff0c;我们将详细讲解Java设计模式中的责任链模式&#xff0c;探讨其基本概念、使用场景、常见问题和解决方式。同时&#xff0c;我们还会介绍责任链模式与策略模式的区别&#xff0c;并结合电商交易系统的示例进行说明。此外&#xff0c;我们还会探讨责任链模式…

新手c语言讲解及题目分享(十九)--数据类型专项练习

本文主要讲解c语言的基础部分&#xff0c;常见的c语言基础数据类型&#xff0c;这个也非常重要。 参考书目和推荐学习书目&#xff1a;通过网盘分享的文件&#xff1a;C语言程序设计电子教材 (1).pdf 链接: https://pan.baidu.com/s/1JFqSaCKZ0A2Lr944e72NUA?pwdp648 提取码: …

Golang协程泄漏定位和排查

1 场景&#xff1a;无缓冲channel写阻塞 package mainimport ("log""net/http"_ "net/http/pprof""time""github.com/gin-gonic/gin" )func main() {go func() {log.Println(http.ListenAndServe("localhost:6060&quo…

uni-app实现web-view和App之间的相互通信

双向实时 如果app端部署成网站&#xff0c;则web-view就是iframe&#xff0c;使用也可以双向通讯 https://uniapp.dcloud.net.cn/component/web-view.html APP端代码 index.vue: <template><web-viewid"m-webview":fullscreen"true":src"…

数据结构-二叉树-基础知识

数据结构-二叉树-基础知识 1.树1.1什么是树1.2基本概念子节点、父节点叶节点节点的度树的高度/深度节点的子孙、祖先 1.3树与非树1.4如何实现1.5实例 2.二叉树2.1什么是二叉树2.2特殊的二叉树满二叉树完全二叉树 2.3性质层数度节点 2.4存储结构 1.树 1.1什么是树 树型结构是一…

C#笔记10 Thread类怎么终止(Abort)和阻止(Join)线程

Thread类 C#笔记8 线程是什么&#xff1f;多线程怎么实现和操作&#xff1f;-CSDN博客 C#笔记9 对线程Thread的万字解读 小小多线程直接拿下&#xff01;-CSDN博客 上次说过怎么简单的使用多线程&#xff0c;怎么创建多线程&#xff0c;但是没有具体分析它的终止和释放。 线…

【C++题解】1330. 求最大梯形的面积

欢迎关注本专栏《C从零基础到信奥赛入门级&#xff08;CSP-J&#xff09;》 问题&#xff1a;1330. 求最大梯形的面积 类型&#xff1a;二维数组 题目描述&#xff1a; 从键盘读入 n ( 3≤n≤100 )个梯形的上底、下底和高&#xff0c;请问这 n 个梯形中&#xff0c;最大面积…

3.ChatGPT在教育领域的应用:教学辅助与案例分享(3/10)

ChatGPT在教育领域的应用&#xff1a;教学辅助与案例分享 引言 在21世纪的教育领域&#xff0c;技术革新正以前所未有的速度改变着传统的教学和学习方式。随着人工智能&#xff08;AI&#xff09;的快速发展&#xff0c;教育技术&#xff08;EdTech&#xff09;领域迎来了新的…

“后期分块”:用长上下文嵌入模型拯救文本检索

论文&#xff1a;Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models地址&#xff1a;https://arxiv.org/abs/2409.04701 研究背景 研究问题&#xff1a;这篇文章要解决的问题是文本块嵌入在处理长文本时丢失上下文信息的问题。具体来说&#xf…

信刻光盘安全隔离与信息交换系统

随着各种数据传输、储存技术、信息技术的快速发展&#xff0c;保护信息安全是重中之重。军工、政府、部队及企事业单位等利用A网与B网开展相关工作已成为不可逆转的趋势。针对于业务需要与保密规范相关要求&#xff0c;涉及重要秘密信息&#xff0c;需做到安全的物理隔离&#…