震撼开源!首个1万多人共同标注的35种语言的高质量对话数据集来啦

news2025/3/11 6:33:01

b4d2095c012939299e413866f07588c5.jpeg

文 | 小戏

“数据”!“数据”!“数据”!

大模型时代,最珍贵的是什么?是 Transformer 的架构吗?是 RLHF 的方法吗?

不是!是数据,是高质量的数据,是高质量且开源的数据!

这种数据 OpenAI 有,谷歌有,微软有,但是我们没有。

不过这种“没有”的状况可能从今天起要画上一个句点,因为一个名为“OpenAssistant”的高质量人工标注的对话数据集震撼开源。

c74107a97aa538a3dc78b10543905479.png

这个数据集由13500名全球志愿者共同标注完成,拥有包含 35 种语言在内的 66497 个完整的对话树,其中共 161443 条消息,以及 461292 条优质的人类评分。

852094ec1820b512dacf5a6906311537.png

基于这个开源数据集,作者们也训练出了第一个完全开源的基于人类数据训练的大规模语言模型,在作者进行的一项实验中显示,OpenAssistant 的回复与 GPT-3.5-turbo(ChatGPT)的表现相当,相对胜率为 48.3% 对 51.7%。最关键的是,这是一个从数据集到模型完全开源的项目。基于这个模型,作者也构建了熟悉的聊天界面供我们使用。

8bdfc37c32aacd29cf72dd90ce77fe28.png

作者们表示,希望大家都可以参与到这个开源项目的建设中来,真正实现 OpenAssistant创立之初“Conversational Al for everyone”的目标。

Chat 界面: 

https://open-assistant.io/chat 

项目主页:

https://open-assistant.io 

数据集地址: 

https://huggingface.co/datasets/OpenAssistant/oasst1

代码地址:

https://github.com/LAION-AI/Open-Assistant 

论文地址:

https://ykilcher.com/oa-paper

数据集结构

整体而言,如下图所示,数据集由 Conversation Tree 构成,树的每个节点代表对话中志愿者给出的消息,而根节点代表工作人员最初给的提示(Prompt),从根节点到其中任意一个节点都可以被成为一次有效的对话,每个对话还会记录诸如“时间戳”、“语言”等元数据,每个节点都会有等级或评分排序作为标注。

69bed11e1085ad4fa459be409106f32d.png

数据收集

OpenAssistant Conversations 数据集使用众包方法,通过一个 Web-app 接口进行收集。作者团队们利用任务分类的方式使得收集数据的流程更高效,同时得以保证任务分类的准确性和数据质量,充分利用志愿者的工作时间

整套收集流程有:

  • 创造提示

  • 志愿者回复

  • 提示器(工作人员/机器)回复

  • 标记提示/回复

  • 排序志愿者回复

为了确保收集到的数据真实可信,作者团队们构建了“Contributor Guidelines”,供志愿者们更好的完成数据的收集工作。同时,也引入诸如排行榜、奖励机制、人工再次审核等方式,以最大程度的提升数据集的质量,利用好志愿者门参与工作的有限时间。

818ccf99df72bed4d86a1c2e8c43921b.png

数据集构成

数据集共包含 161,443条消息,分布在 66,497 个对话树中,涵盖了 35 种不同的语言,标注了 461,292 个质量评分,其中包含了 8,576 条合成的消息以及 152,867 条由人工提交的消息。作者团队将数据集进行了不同程度的过滤和筛选,其中 10,968 个对话树已经被认为是完整的,包含总共 92,365 个消息。同时,作者们也将消息的品质分为了多个类别,并采用人工标注的方式进行了质量评价。值得注意的是,这个数据集的主要语言是英语与西班牙语,其中英语占总数据的42.8%,西班牙语占31.4%。这可能是由于 OpenAssistant 社区起源于以英语为主的开源社区,并且该数据集在西班牙的机器学习社区中得到了广泛的宣传和推广。

cab173e8a1a90d18b0d0a8adfa4e94eb.png

此外,还有一个值得注意的点是数据集中的大部分消息来源于少数几个用户,如下图所示,这一现象非常有可能导致数据集存在偏见,尽管作者团队在数据收集的过程中已经使用多种手段避免比如直接的复制粘贴的情况,但是这一问题不可避免的仍然存在。

28d6de5aa211fd765ddef09c163e60e2.png

志愿者基本情况

为了深入了解参与构建与标注的志愿者的基本情况,作者团队对志愿者的基本信息进行了统计,其中226位参与者接受并回答了调查问卷。其中 201 人是男性,10 人是女性,5 位认为自己是非二元性别,10 位选择保密。同时,志愿者们的教育水平与对人工智能的理解也有显著差异,也对 AI 技术抱持不同的技术立场

0b6711048f6d08b3751b47eb43b2651a.png

实验

作者们基于两种不同的训练方法—— Pythia 和 LLaMA,构建了 Pythia-12B,LLaMA-13B和目前为止最大的 LLaMA-30B 模型。并且,基于 Pythia-12B 对数据集进行了实验验证。通过构建一系列实验问题,分别通过 Pythia-12B 和 ChatGPT 得到了问题答案,并将这些答案编撰为问卷送往社区收集数据以完成对比 ChatGPT 的偏好研究。截至目前,共收到 348 份有效的答案,通过数据分析可以发现,Pythia-12B 在比赛中获胜的概率是 48.3%。

50fcdb8ff5d649c9924b4c1c6736d69a.png

此外,作者团队采用基于 Detoxify 的有害信息检测方法,获取六种不同类别的自动化评级,对信息进行分类,判断消息是否有害、淫秽、威胁、侮辱、攻击某个身份或具有性暗示性质。利用自动化有害信息评级,系统地评估这些评级和人工构建的有害信息标签(仇恨言论,不适当和性内容)之间的关系,如下图所示。

01fcde1130a72744d97d414c1e1cf80e.png

最后,利用有害信息监测,作者们评估了自己的数据收集流程,可以发现,作者团队使用的数据收集方式有效避免了有害信息进入数据集

5d0cbd86605938a2bf29005cd8f4c721.png

数据集限制

由于标注过程不可避免的一些原因,作者们认为当下这个数据集仍有一些限制。这些限制主要来自于标注者的主观和文化偏见、用户贡献的不平衡分布以及可能存在的不安全内容

数据集的主观和文化偏见主要来自于志愿者的文化背景和特点。虽然多文化背景的志愿者为数据集做出了贡献,但由于这些志愿者共同的年龄结构和性别等特点,导致数据集可能存在偏见。用户贡献的不平衡分布也会导致某些价值观和兴趣被过分强调,而其他更多元化的观点则被忽视。

此外,数据集中可能存在不安全的内容,虽然已经执行了检测和删除操作,但这一操作并不完美,因此仍存在不安全内容,这也增加了使用数据集训练的语言模型的安全性问题。

同时,基于该数据集训练的语言模型也会存在“机器幻觉”,产生有毒或充满仇恨的内容,导致不公平和歧视性的结果

总结

尽管当下这个数据集尚且并不完美,它的数据量,它的收集过程中蕴藏的偏见都有可能制约它更大的发展。但是归根结底, 1 总是要大于 0

9e5504793fbd5cb56cfb6b8c13fa3bc0.png

或许正如作者本人所说,将这个全球众包完成的高质量数据集开源,绝对可以促进 AI 社区创造出更多“神奇”的东西。同时,这个开源的数据集,也有可能成为大模型商用领域的一个 “Game Changer”

那么在这个数据集上究竟可以展现怎样的潜力呢?那就要看我们如何在这个 1 上做加减乘除了吧!

a55838690e69f7699fdc0fee6956e4a8.png卖萌屋作者:小戏

边学语言学边学NLP~

作品推荐

  1. 千呼万唤始出来——GPT-3终于开源!

  2. NLP哪个细分方向最具社会价值?

  3. 吴恩达发起新型竞赛范式!模型固定,只调数据?!

  4. 仅仅因为方法 Too Simple 就被拒稿,合理吗?

  5. 算法工程师的三观测试

2da61760ef3ebe33d78309e4708e60b4.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/433370.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

科幻AI生活来临,博联版“贾维斯”让全屋智能触手可及

1 ChatGPT提升交互体验 解决人机语音交互痛点 据洛图科技(RUNTO)《中国智能音箱零售市场月度追踪》报告,2022年中国智能音箱市场销量为2631万台,市场销额达到75.3亿元。当前智能音箱已完成初轮用户普及,舒适的居家定制服务走入千家万户&…

低代码开发重要工具:jvs-logic(逻辑引擎)基础原理与功能架构

逻辑引擎介绍 逻辑引擎是一种能够处理逻辑表达式的程序,它能够根据用户输入的表达式计算出表达式的值。在实际应用中,逻辑引擎通常被用于处理规则引擎、决策系统、业务规则配置等领域,具有广泛的应用前景。 原理与核心功能描述 基础原理 …

JUC并发编程之CompletableFuture

Future future是java5新加的一个接口,他提供了一种异步并行计算的功能 接口定义了操作异步任务执行的一些方法,如获取异步任务的执行结果、取消任务的执行、判断任务是否被取消、判断任务是否执行完毕 目的:异步多线程执行且有返回结果&#…

干货分享 | 一文了解交互式应用程序安全测试(IAST)技术

软件开发过程中,安全检测极为重要。带有漏洞的软件一旦被恶意利用,将造成数据泄露、业务瘫痪,为企业带来不可估量的损失。这就要求企业在系统开发初期发现系统安全问题,快速定位应用漏洞并修复,从源头减少开发过程中的…

黑马点评Redis实战(短信登录;商户查询缓存)

黑马点评 通过一个类似于大众点评的项目了解学习redis在实战项目中的使用,下面是项目中会涉及到的模块: 一、导入黑马点评项目 导入springboot项目,导入sql脚本到数据库,开启nginx,更改项目配置文件中的redis和mys…

头部证券公司安全体系搭建实战讲解—开源网安S-SDLC平台助力金融科技安全发展

数字化时代背景下,新兴技术广泛应用导致软件安全隐患不断扩大。而金融行业由于项目周期长、业务规模大、应用数量多、合规监管严、内外合作多等特性,进一步加重了安全风险。 与此同时,《等保2.0》、《网络安全法》等国家政策的发布&#xff0…

【排序】直接插入排序与希尔排序(图示详解哦)

全文目录 引言直接插入排序思路实现 希尔排序思路实现 总结 引言 在上一篇文章中,我们实现了选择排序与堆排序,在本篇文章中将继续介绍直接插入排序与希尔排序: 直接插入排序与希尔排序都属于插入排序的一种: 这两种排序的思想都…

Ae:摄像机设置

Ae菜单:图层/摄像机设置 Camera Settings 快捷键:Ctrl Shift Y 新建摄像机图层时,首先会弹出摄像机设置 Camera Settings对话框。 经典 3D 渲染器时的摄像机设置 Cinema 4D 渲染器时的摄像机设置 类型 Type 有两种类型的摄像机供选择。 提…

空间矢量数据保存为GeoJSON、PDF等文件格式

专注系列化、高质量的R语言教程 推文索引 | 联系小编 | 付费合集 我们使用的空间矢量数据一般是Shapefile格式的,它在ArcGIS、R语言中都能加载,但是这种数据格式在使用时也有不便:它是由多个文件构成的,一般有.shp、.shx、.dbf、.…

Session和Cookie区别介绍+面试题

Session 会话: 对应的英文单词:session用户打开浏览器,进行一系列操作,然后关闭浏览器。整个过程叫做一次会话一个会话包含多次请求 session机制属于B/S结构的一部分,主要的作用就是为了保存会话状态。(用户登录成功后…

Spring使用注解存储和读取对象

文章目录 一、存储Bean对象配置扫描添加注解存储Bean对象注解使用范围Bean的命名五大类注解的关系为什么需要五大类注解? 二、方法注解BeanBean重命名 三、对象注入属性注入Setter注入构造方法注入Autowired 和 Resource 的区别 一、存储Bean对象 之前我们存储Bean时&#xff…

【MATLAB基础绘图第2棒】绘制柱状/饼图填充图

MATLAB绘制柱状填充图 方法1:hatchfill2工具1.1 案例1:柱状图填充1.2 案例2:饼图填充 方法2:applyhatch函数2.1 案例1:柱状图填充2.2 案例2:饼图填充 方法3: applyhatch_plusC函数3.1 案例1&…

分析软件及其隐藏后门实验笔记

软件后门和软件加壳是什么 软件后门可以理解为在软件中植入病毒等具有后门功能的代码,通过运行软件来对用户的系统造成破坏、窃取机密等。 软件加壳一种常用的方式是在二进制的程序中植入一段代码,在运行的时候优先取得程序的控制权,之后再把…

Cisco SD-WAN (Viptela) version 20.11.1 ED - 软件定义广域网

请访问原文链接:https://sysin.org/blog/cisco-sd-wan-20/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org 支持 SASE 的架构,其集成了面向多云、安全、统一通信和应用优化的各种功能,可用于轻…

ChatGPT干掉程序员?想多了...

GPT-4才诞生没几天,感觉朋友圈已经被这个人工智能刷屏了,大家一边在感叹人工智能行业蓬勃发展的同时,一边又有不少人患上了AI焦虑症。 这其中,以程序员首当其冲。原因无他,只因为GPT-4的惊人的能力和不少大佬的发言。 …

4.17~4.18学习总结

网络编程 概述 1.什么是网络编程 在网络通信协议下,不同计算机上运行的程序,进行的数据传输,计算机跟计算机之间可以通过网络进行数据传输。 2.常见的软件架构: B/S,C/S 3.通信的软件架构CS BS各有什么区别和优点…

阿里云免费使用stable diffusion三个月【ai生成图片】详细教程【保姆级】

起因 这两天关注了ai生成图片,尝试了mijiourney服务【比较贵没入手】,结果免费的没有了,没用上,换了国内的一些小程序体验了下 综合体验式是太慢了,而他们是基于国外开源的stable diffiusion模型开发的【可以比肩mij…

【FAQ】关于华为推送服务因营销消息频次管控导致服务通讯类消息下发失败的解决方案

一. 问题描述 使用华为推送服务下发IM消息时,下发消息请求成功且code码为80000000,但是手机总是收不到消息; 在华为推送自助分析(Beta)平台查看发现,消息发送触发了频控。 二. 问题…

java 快排算法详解,java 快排代码

快排是一种高效的数据结构,它使用一个关键字(Key)来表示数据元素的一个集合。也就是说,快排是一个有序数组,而这个有序数组由两个元素组成。 快排的基本思想是:如果数组元素的值比它前面的两个元素都大&…

记录一 :对象锁和类锁

目录 简介 通过8个案例来解释说明 案例及总结 简介 阿里规约【强制】高并发时,同步调用应该去考量锁的性能损耗。能用无锁数据结构,就不要用锁;能 锁区块,就不要锁整个方法体;能用对象锁,就不要用类锁。…