AI2:仅凭开源数据，可达ChatGPT 83%表现

AI2:仅凭开源数据，可达ChatGPT 83%表现

news2026/2/7 20:55:28

夕小瑶科技说原创
作者 | Python

ChatGPT强大的性能让人爱不释手，ChatGPT迟迟不开源让人恨得牙根痒痒。那仅通过开源数据，能够取得怎样的效果呢？近期，AI2的一篇论文显示，最好的65B规模的模型能够达到ChatGPT表现的83%，能够达到GPT-4表现的68%。让我们一起来看看他们是怎么做的。

论文题目：

How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

论文链接：

https://arxiv.org/pdf/2306.04751.pdf

项目链接：

https://github.com/allenai/open-instruct

大模型研究测试传送门

GPT-4能力研究传送门（遇浏览器警告点高级/继续访问即可）：
https://gpt4test.com

开源资源使用

ChatGPT等大规模语言模型（简称大模型）的训练主要分成两个阶段：语言模型训练与指令精调。对语言模型训练，该文主要探索了不同规模3种预训练模型：LLaMa、OPT和Pythia。下图展示了不同模型的参数规模及预训练时的数据规模。

而在第二步的指令精调中，该文探索了如下12个开源的指令精调数据集。这些数据集的构建思路主要包括5个方向：

通过现有的NLP数据集构建
人类从头写
通过GPT4等特定模型生成
人类写的prompt+模型生成补全
通过思维链（CoT）、代码补全等特定形式构建

图中， $N_{rounds}$ 为对话的平均轮数，后两列为用户prompt与生成内容的平均长度。

作者还构建了2个混合数据源的训练集，包括：

Human data mixture：含有人类标注的数据集（FLAN V2, CoT, Dolly, 和 Open Assistant 1）
Human+GPT data mix：进一步增加模型生成的数据集（GPT4-Alpaca, Code-Alpaca, and ShareGPT）

评价方式

如何评估大模型的好坏也是个复杂的问题。该文采用了包括自动评价和人工评价的方式，包括：

事实知识：Massive Multitask Language Understanding dataset (MMLU)。以单选题的形式，涵盖了57个学科，从入门级到专业级难度的都有。
推理：Grade School Math dataset (GSM) 和 Big-Bench-Hard (BBH)。GSM是小学难度的数学题；而BBH包含了23种较难的推理任务，比如日期理解、影评、逻辑归纳、目标计数等。
多语言能力：基于TyDiQA，段落级抽取式阅读理解数据集，包含11种不同形式的语言。
编程：基于HumanEval数据集，基于文档的函数级变成能力（为避免混淆，这里改称为Codex-Eval）。
基于模型的评价方式：参考AlpacaFarm的设置，选取805个开放式指令。让Davinci-003生成长度不超过2048的回复作为基准，并让GPT-4来做排序比较。
人工评价：考虑了332个指令（源于Self-Instruct 和Vicuna）。指标包括：
- 二分类地去判断每个回复是否可以接受
- 5分类地两两比较模型输出结果

实验结果

结论1：不同的Instruction Tuning数据集，会给模型带来不同方面的优势。

结论2：混合多种Instruction Tuning数据集效果会更好。

这两条结论很容易从下图中看出。比如MMLU上，用Flan V2最好，GSM上，用CoT最好，在Codex-Eval上用Code-Alpaca最好。Instruction Turing数据和下游任务一致性越高，表现就越好。而看均值的话，混合最多数据集的Human+GPT data mix最好。

接下来，使用Human+GPT data mix，检验参数量相当的的Pythia（300B）、OPT(180B)和LLAMA（1.0T）模型的表现，如下图所示，发现表现与预训练时使用的数据规模一致。

结论3：参数规模相同时，backbone模型预训练数据量越大表现越好。

后文将在Human+GPT data mix上调整过的LLAMA模型称作TÜLU。下图印证了几个比较常规的结论：参数越多表现越好；Instruction Tuning对所有参数规模的模型都有效；参数规模越小提升越大。以及：

结论4：TÜLU 65B同ChatGPT相比还有差距，表现达到ChatGPT的83%，GPT-4的68%。

具体的人类评价结果如下图所示，可以看到 TÜLU 65B 和 ChatGPT 相比仍有较大差距。（下图左是是否接受的0-1评分，下图右为两两比较评分）

总结

OpenAI的ChatGPT等模型不开源，给学术界相关研究提出了很大的挑战。本文系统地探索了开源数据集上Instructiong Tuning的结果，并同ChatGPT于GPT-4的结果系统比较，对相关研究具有较好的参考价值。

此外，对比本文于OpenAI的论文也可以看出，OpenAI真的是什么训练细节都不讲。且不说GPT-4的技术报告中没有涉及任何技术细节，就连最近被大家夸赞开源了数据集的文章verify step by step中透露的技术细节也远少于本文。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/662907.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

设计一个feed流系统

什么是feed流系统移动互联网时代，Feed流产品是非常常见的，如朋友圈、微博、抖音等，除此之外，很多App的都会有一个模块，要么叫动态，要么叫消息广场，这些也是Feed流产品。只要大拇指不停地往下划…

阅读更多...

【机器学习】十大算法之一 “决策树”

【机器学习】十大算法之一 “决策树”

作者主页：爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.https://blog.csdn.net/Code_and516?typeblog个…

阅读更多...

截至目前最强的70亿参数大语言模型：开源可商用的RedPajam 7B完全版发布！

截至目前最强的70亿参数大语言模型：开源可商用的RedPajam 7B完全版发布！

RedPajama模型是TOGETHER发布的一个开源可商用的大模型。2023年6月6日，TOGETHER在官方宣布该模型完成训练，经过测试，该模型目前超过所有7B规模的大模型，比LLaMA-7B和Falcon-7B的效果还要好！ TOGETHER公司是一家由豪华管…

阅读更多...

HDMI之HDCP

HDMI之HDCP

概述 HDCP 1.4第1阶段 HDCP 1.4第2阶段只有REPEATER设备，此阶段才会出现。 HDCP 1.4第3阶段本文以Repeater为例，连接方式Source[Tx]=>[Rx]Repeater[Tx]=>[Rx]Sink。讲解一下HDCP1.4的通信过程。设置SCDC 设置TMDS Configuration Rx W A8 20 00 Rx W A8 20 R …

阅读更多...

云安全与云渗透

云安全与云渗透

一、引言随着技术的进步，云计算已成为信息技术领域的主流趋势。企业和个人都在利用云服务实现数据存储和处理的便利，但同时也带来了一系列的安全问题。对于这些问题，我们需要深入理解云安全和云渗透的重要性。本文将详细探讨这两个主题。 …

阅读更多...

Leetcode之哈希查找

Leetcode之哈希查找

1. 哈希查找本质上就是个搜索，但是可以将在一个集合中查找一个元素的时间复杂度降低到O(1)。python中常用的有以下方式： setdict数组模拟 2. 相关算法题 2.1. Leetcode 771 宝石与石头题目链接题目描述给你一个字符串 jewels 代表石头中宝石的类…

阅读更多...

Java 图片渲染到前端，向前端一次返回多张Base64图片

Java 图片渲染到前端，向前端一次返回多张Base64图片

文章目录前言图片渲染到前端向前端一次返回多张Base64图片前言当我们从服务器读取的图片链接返回给前端，前端可以很轻松的下载和展示，但是对于临时文件，我们不需要保存到服务器，比如PPT转图片，PDF转图片等等&#…

阅读更多...

数据结构--》从线性表说起，掌握常用基础算法

数据结构--》从线性表说起，掌握常用基础算法

目录初识线性表线性表的基本操作顺序表的定义顺序表的基本操作单链表的定义单链表的基本操作双链表的介绍循环链表的介绍静态链表的介绍初识线性表线性表是具有相同数据类型的 n (n0) 个数据元素的有限序列，其中n为表长，当n0时线性…

阅读更多...

mysql 将date字段默认值设置为CURRENT_DATE

mysql 将date字段默认值设置为CURRENT_DATE

我们是否可以在mysql中，将Date字段的默认值设置为CURRENT_DATE（当前日期）？ 答案是8.0之前不可以，8.0.13之后可以。比如在5.7版本中使用如下sql创建表，将会提示语法错误: CREATE TABLE t_order (id bigi…

阅读更多...

CentOS 7远程登录jupyter lab

CentOS 7远程登录jupyter lab

使用cat /etc/redhat-release看到操作系统是CentOS Linux 7.6，使用uname -r看到内核是3.10.0-957.el7.x86_64。 python3 --version看一下python的版本，pip3 --version看一下pip的版本，这是我CentOS 7默认安装好的。 pip3 install jupyterla…

阅读更多...

ASEMI代理光宝高速光耦LTV-M601参数，LTV-M601图片

ASEMI代理光宝高速光耦LTV-M601参数，LTV-M601图片

编辑-Z LTV-M601参数描述： 型号：LTV-M601 平均正向输入电流IF：20mA 反向输入电压VR：5V 功耗PI：40mW 输出集电极电流IO：50mA 输出集电极电压VO：7V 输出集电极功耗Po：85mW 电…

阅读更多...

【C++从入门到放弃】stack和queue的深度剖析及空间适配器的介绍

【C++从入门到放弃】stack和queue的深度剖析及空间适配器的介绍

🧑‍💻作者： 情话0.0 📝专栏：《C从入门到放弃》 👦个人简介：一名双非编程菜鸟，在这里分享自己的编程学习笔记，欢迎大家的指正与点赞，谢谢！ stack…

阅读更多...

SMT车间贴片机Feeder管理方案

SMT车间贴片机Feeder管理方案

Feeder(飞达或供料器)是电子厂SMT车间贴片机上一个重要的部件，它的可用状态关系着贴片机生产的质量的稳定性，如何有效率的管理是每一位车间主管人员不可忽视的问题。根据行业协会大数据的分析发现导致贴片机大约30%的损失时间及1%的物料浪费都是因为Feed…

阅读更多...

【Leetcode60天带刷】day14二叉树——144.二叉树的前序遍历，145.二叉树的后序遍历，94.二叉树的中序遍历

【Leetcode60天带刷】day14二叉树——144.二叉树的前序遍历，145.二叉树的后序遍历，94.二叉树的中序遍历

题目： 144. 二叉树的前序遍历给你二叉树的根节点 root ，返回它节点值的前序遍历。示例 1： 输入：root [1,null,2,3] 输出：[1,2,3]示例 2： 输入：root [] 输出：[]示例 3&#x…

阅读更多...

5.4.1 虚拟专用网VPN

5.4.1 虚拟专用网VPN

5.4.1 虚拟专用网VPN 我们已经学习了因特网的路由协议（5.3.1 因特网的路由协议（一）、5.3.2 因特网的路由协议（二）基于距离向量算法的RIP协议、5.3.3 因特网的路由协议（三）OSPF协议、5.3.4 因特…

阅读更多...

【Docker】Docker的优势、与虚拟机技术的区别、三个重要概念和架构及工作原理的详细讲解

【Docker】Docker的优势、与虚拟机技术的区别、三个重要概念和架构及工作原理的详细讲解

前言 Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux或Windows操作系统的机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。 📕作者简介：热…

阅读更多...

开利网络赋能祥兴事业集团推动乡村振兴数字化转型

开利网络赋能祥兴事业集团推动乡村振兴数字化转型

近日，开利网络到访柳州祥兴实业集团，就即将举办的广西文旅大会数字化部署进行跟踪落地。以“祥兴百朋荷苑”为用户端，祥兴集团针对百朋景区实施了全流程的数字化系统构建，包含景区统一收银、景区导览导航讲解及扫码点餐、预约核销…

阅读更多...

Winform模拟Visual Studio工具栏拖拉拽、停靠

Winform模拟Visual Studio工具栏拖拉拽、停靠

背景随着公司接的业务复杂度提高，软件界面设计需求也相应提升，老板不再满足于单面板的各种跳转，所以明白了吧，不提升自己就等于自愿失业或转行！！！ 方案本来想着自学自写一套控件库来实现&a…

阅读更多...

抽象类和接口—javaSE

抽象类和接口—javaSE

这里写目录标题 1.抽象类1.1概念1.2语法1.3特性1.4使用 2.接口2.1概念2.2语法2.3特性2.4重要的接口2.4.1给数组对象排序（Comparable、Comparator）2.4.2 Cloneable（浅拷贝） 2.5抽象类和接口的区别 3.object类3.1定义3.2equals3.3获…

阅读更多...

智慧文旅-VR全景展示助力开启景区数字化管理新方式

智慧文旅-VR全景展示助力开启景区数字化管理新方式

导语： 在数字化时代，旅游业面临着新的机遇和挑战。为了吸引更多游客并提供独特的旅行体验，结合VR全景技术和智慧文旅的创新模式已经成为不可忽视的趋势。一．提升旅游感官体验 VR全景技术正以惊人的速度在旅游业中崭露头角。通过…

阅读更多...

推荐文章

最新文章